micropita_v2: src/breadcrumbs/src/SVM.py annotate

annotate src/breadcrumbs/src/SVM.py @ 0:0de566f21448 draft default tip

author	sagun98
date	Thu, 03 Jun 2021 18:13:32 +0000
parents
children

rev	line source
0 0de566f21448 v2 sagun98 parents: diff changeset	1 """
0de566f21448 v2 sagun98 parents: diff changeset	2 Author: Timothy Tickle
0de566f21448 v2 sagun98 parents: diff changeset	3 Description: Class to Allow Support Vector Machine analysis and to contain associated scripts
0de566f21448 v2 sagun98 parents: diff changeset	4 """
0de566f21448 v2 sagun98 parents: diff changeset	5
0de566f21448 v2 sagun98 parents: diff changeset	6 #####################################################################################
0de566f21448 v2 sagun98 parents: diff changeset	7 #Copyright (C) <2012>
0de566f21448 v2 sagun98 parents: diff changeset	8 #
0de566f21448 v2 sagun98 parents: diff changeset	9 #Permission is hereby granted, free of charge, to any person obtaining a copy of
0de566f21448 v2 sagun98 parents: diff changeset	10 #this software and associated documentation files (the "Software"), to deal in the
0de566f21448 v2 sagun98 parents: diff changeset	11 #Software without restriction, including without limitation the rights to use, copy,
0de566f21448 v2 sagun98 parents: diff changeset	12 #modify, merge, publish, distribute, sublicense, and/or sell copies of the Software,
0de566f21448 v2 sagun98 parents: diff changeset	13 #and to permit persons to whom the Software is furnished to do so, subject to
0de566f21448 v2 sagun98 parents: diff changeset	14 #the following conditions:
0de566f21448 v2 sagun98 parents: diff changeset	15 #
0de566f21448 v2 sagun98 parents: diff changeset	16 #The above copyright notice and this permission notice shall be included in all copies
0de566f21448 v2 sagun98 parents: diff changeset	17 #or substantial portions of the Software.
0de566f21448 v2 sagun98 parents: diff changeset	18 #
0de566f21448 v2 sagun98 parents: diff changeset	19 #THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED,
0de566f21448 v2 sagun98 parents: diff changeset	20 #INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A
0de566f21448 v2 sagun98 parents: diff changeset	21 #PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT
0de566f21448 v2 sagun98 parents: diff changeset	22 #HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION
0de566f21448 v2 sagun98 parents: diff changeset	23 #OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE
0de566f21448 v2 sagun98 parents: diff changeset	24 #SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
0de566f21448 v2 sagun98 parents: diff changeset	25 #####################################################################################
0de566f21448 v2 sagun98 parents: diff changeset	26
0de566f21448 v2 sagun98 parents: diff changeset	27 __author__ = "Timothy Tickle"
0de566f21448 v2 sagun98 parents: diff changeset	28 __copyright__ = "Copyright 2012"
0de566f21448 v2 sagun98 parents: diff changeset	29 __credits__ = ["Timothy Tickle"]
0de566f21448 v2 sagun98 parents: diff changeset	30 __license__ = "MIT"
0de566f21448 v2 sagun98 parents: diff changeset	31 __maintainer__ = "Timothy Tickle"
0de566f21448 v2 sagun98 parents: diff changeset	32 __email__ = "ttickle@sph.harvard.edu"
0de566f21448 v2 sagun98 parents: diff changeset	33 __status__ = "Development"
0de566f21448 v2 sagun98 parents: diff changeset	34
0de566f21448 v2 sagun98 parents: diff changeset	35 #Libraries
0de566f21448 v2 sagun98 parents: diff changeset	36 from AbundanceTable import AbundanceTable
0de566f21448 v2 sagun98 parents: diff changeset	37 from ConstantsBreadCrumbs import ConstantsBreadCrumbs
0de566f21448 v2 sagun98 parents: diff changeset	38 import csv
0de566f21448 v2 sagun98 parents: diff changeset	39 import os
0de566f21448 v2 sagun98 parents: diff changeset	40 from random import shuffle
0de566f21448 v2 sagun98 parents: diff changeset	41 from ValidateData import ValidateData
0de566f21448 v2 sagun98 parents: diff changeset	42
0de566f21448 v2 sagun98 parents: diff changeset	43 class SVM:
0de566f21448 v2 sagun98 parents: diff changeset	44 """
0de566f21448 v2 sagun98 parents: diff changeset	45 Class which holds generic methods for SVM use.
0de566f21448 v2 sagun98 parents: diff changeset	46 """
0de566f21448 v2 sagun98 parents: diff changeset	47
0de566f21448 v2 sagun98 parents: diff changeset	48 #1 Happy Path tested
0de566f21448 v2 sagun98 parents: diff changeset	49 @staticmethod
0de566f21448 v2 sagun98 parents: diff changeset	50 def funcConvertAbundanceTableToSVMFile(abndAbundanceTable, xOutputSVMFile, sMetadataLabel, lsOriginalLabels = None, lsSampleOrdering = None):
0de566f21448 v2 sagun98 parents: diff changeset	51 """
0de566f21448 v2 sagun98 parents: diff changeset	52 Converts abundance files to input SVM files.
0de566f21448 v2 sagun98 parents: diff changeset	53
0de566f21448 v2 sagun98 parents: diff changeset	54 :param abndAbundanceTable: AbudanceTable object to turn to input SVM file.
0de566f21448 v2 sagun98 parents: diff changeset	55 :type: AbundanceTable
0de566f21448 v2 sagun98 parents: diff changeset	56 :param xOutputSVMFile: File to save SVM data to when converted from the abundance table.
0de566f21448 v2 sagun98 parents: diff changeset	57 :type: FileStream or string file path
0de566f21448 v2 sagun98 parents: diff changeset	58 :param sMetadataLabel: The name of the last row in the abundance table representing metadata.
0de566f21448 v2 sagun98 parents: diff changeset	59 :type: String
0de566f21448 v2 sagun98 parents: diff changeset	60 :param: lsOriginalLabels The original labels.
0de566f21448 v2 sagun98 parents: diff changeset	61 :type: List of strings
0de566f21448 v2 sagun98 parents: diff changeset	62 :param lsSampleOrdering: Order of samples to output to output file. If none, the order in the abundance table is used.
0de566f21448 v2 sagun98 parents: diff changeset	63 :type: List of strings
0de566f21448 v2 sagun98 parents: diff changeset	64 :return lsUniqueLabels: List of unique labels.
0de566f21448 v2 sagun98 parents: diff changeset	65 """
0de566f21448 v2 sagun98 parents: diff changeset	66
0de566f21448 v2 sagun98 parents: diff changeset	67 #Create data matrix
0de566f21448 v2 sagun98 parents: diff changeset	68 dataMatrix = zip(*abndAbundanceTable.funcGetAbundanceCopy())
0de566f21448 v2 sagun98 parents: diff changeset	69
0de566f21448 v2 sagun98 parents: diff changeset	70 #Add labels
0de566f21448 v2 sagun98 parents: diff changeset	71 llData = []
0de566f21448 v2 sagun98 parents: diff changeset	72 lsLabels = lsOriginalLabels if lsOriginalLabels else SVM.funcMakeLabels(abndAbundanceTable.funcGetMetadata(sMetadataLabel))
0de566f21448 v2 sagun98 parents: diff changeset	73 if not isinstance(xOutputSVMFile,str):
0de566f21448 v2 sagun98 parents: diff changeset	74 if xOutputSVMFile.closed:
0de566f21448 v2 sagun98 parents: diff changeset	75 xOutputSVMFile = open(xOutputSVMFile.name,"w")
0de566f21448 v2 sagun98 parents: diff changeset	76 ostm = open(xOutputSVMFile,"w") if isinstance(xOutputSVMFile, str) else xOutputSVMFile
0de566f21448 v2 sagun98 parents: diff changeset	77 f = csv.writer(ostm, csv.excel_tab, delimiter = ConstantsBreadCrumbs.c_strBreadCrumbsSVMSpace)
0de566f21448 v2 sagun98 parents: diff changeset	78
0de566f21448 v2 sagun98 parents: diff changeset	79 #This allows the creation of partially known files for stratification purposes
0de566f21448 v2 sagun98 parents: diff changeset	80 lsCurrentSamples = abndAbundanceTable.funcGetSampleNames()
0de566f21448 v2 sagun98 parents: diff changeset	81 lsOrderingSamples = lsSampleOrdering if lsSampleOrdering else lsCurrentSamples[:]
0de566f21448 v2 sagun98 parents: diff changeset	82
0de566f21448 v2 sagun98 parents: diff changeset	83 iLabelIndex = 0
0de566f21448 v2 sagun98 parents: diff changeset	84 iSize = len(dataMatrix[0])
0de566f21448 v2 sagun98 parents: diff changeset	85 iIndexSample = 1
0de566f21448 v2 sagun98 parents: diff changeset	86 for sSample in lsOrderingSamples:
0de566f21448 v2 sagun98 parents: diff changeset	87 if sSample in lsCurrentSamples:
0de566f21448 v2 sagun98 parents: diff changeset	88 f.writerow([lsLabels[iLabelIndex]]+
0de566f21448 v2 sagun98 parents: diff changeset	89 [ConstantsBreadCrumbs.c_strColon.join([str(tpleFeature[0]+1),str(tpleFeature[1])]) for tpleFeature in enumerate(dataMatrix[iIndexSample])])
0de566f21448 v2 sagun98 parents: diff changeset	90 iLabelIndex += 1
0de566f21448 v2 sagun98 parents: diff changeset	91 iIndexSample += 1
0de566f21448 v2 sagun98 parents: diff changeset	92 #Make blank entry
0de566f21448 v2 sagun98 parents: diff changeset	93 else:
0de566f21448 v2 sagun98 parents: diff changeset	94 f.writerow([ConstantsBreadCrumbs.c_strSVMNoSample]+[ConstantsBreadCrumbs.c_strColon.join([str(tpleNas[0]+1),str(tpleNas[1])])
0de566f21448 v2 sagun98 parents: diff changeset	95 for tpleNas in enumerate([ConstantsBreadCrumbs.c_strSVMNoSample]*iSize)])
0de566f21448 v2 sagun98 parents: diff changeset	96 if lsOriginalLabels:
0de566f21448 v2 sagun98 parents: diff changeset	97 iLabelIndex += 1
0de566f21448 v2 sagun98 parents: diff changeset	98 ostm.close()
0de566f21448 v2 sagun98 parents: diff changeset	99 return set(lsLabels)
0de566f21448 v2 sagun98 parents: diff changeset	100
0de566f21448 v2 sagun98 parents: diff changeset	101 @staticmethod
0de566f21448 v2 sagun98 parents: diff changeset	102 def funcUpdateSVMFileWithAbundanceTable(abndAbundanceTable, xOutputSVMFile, lsOriginalLabels, lsSampleOrdering):
0de566f21448 v2 sagun98 parents: diff changeset	103 """
0de566f21448 v2 sagun98 parents: diff changeset	104 Takes a SVM input file and updates it with an abundance table.
0de566f21448 v2 sagun98 parents: diff changeset	105 lsOriginalLabels and lsSampleOrdering should be consistent to the input file.
0de566f21448 v2 sagun98 parents: diff changeset	106 Samples in the abundance table will be used to update the file if the sample name in the abundace table is also in the lsSampleOrdering.
0de566f21448 v2 sagun98 parents: diff changeset	107 lsOriginalLabels and lsSampleOrdering should be in the same order.
0de566f21448 v2 sagun98 parents: diff changeset	108
0de566f21448 v2 sagun98 parents: diff changeset	109 :param abndAbundanceTable: AbudanceTable object to turn to input SVM file.
0de566f21448 v2 sagun98 parents: diff changeset	110 :type: AbundanceTable
0de566f21448 v2 sagun98 parents: diff changeset	111 :param xOutputSVMFile: File to save SVM data to when converted from the abundance table.
0de566f21448 v2 sagun98 parents: diff changeset	112 :type: FileStream or string file path
0de566f21448 v2 sagun98 parents: diff changeset	113 :param lsOriginalLabels: The list of the original labels (as numerics 0,1,2,3,4...as should be in the file).
0de566f21448 v2 sagun98 parents: diff changeset	114 :type: List of strings
0de566f21448 v2 sagun98 parents: diff changeset	115 :param lsSampleOrdering: Order of samples in the output file.
0de566f21448 v2 sagun98 parents: diff changeset	116 :type: List of strings
0de566f21448 v2 sagun98 parents: diff changeset	117 :return lsUniqueLabels: List of unique labels.
0de566f21448 v2 sagun98 parents: diff changeset	118 """
0de566f21448 v2 sagun98 parents: diff changeset	119
0de566f21448 v2 sagun98 parents: diff changeset	120 #Read in old file
0de566f21448 v2 sagun98 parents: diff changeset	121 if not isinstance(xOutputSVMFile,str):
0de566f21448 v2 sagun98 parents: diff changeset	122 if xOutputSVMFile.closed:
0de566f21448 v2 sagun98 parents: diff changeset	123 xOutputSVMFile = open(xOutputSVMFile.name,"r")
0de566f21448 v2 sagun98 parents: diff changeset	124 ostm = open(xOutputSVMFile,"r") if isinstance(xOutputSVMFile, str) else xOutputSVMFile
0de566f21448 v2 sagun98 parents: diff changeset	125 fin = csv.reader(ostm, csv.excel_tab, delimiter = ConstantsBreadCrumbs.c_strBreadCrumbsSVMSpace)
0de566f21448 v2 sagun98 parents: diff changeset	126 #Read in contents of file
0de566f21448 v2 sagun98 parents: diff changeset	127 llsOldContents = [lsRow for lsRow in fin]
0de566f21448 v2 sagun98 parents: diff changeset	128 ostm.close()
0de566f21448 v2 sagun98 parents: diff changeset	129
0de566f21448 v2 sagun98 parents: diff changeset	130 #Check to make sure this ordering covers all positions in the old file
0de566f21448 v2 sagun98 parents: diff changeset	131 if not len(llsOldContents) == len(lsSampleOrdering):
0de566f21448 v2 sagun98 parents: diff changeset	132 print "The length of the original file ("+str(len(llsOldContents))+") does not match the length of the ordering given ("+str(len(lsSampleOrdering))+")."
0de566f21448 v2 sagun98 parents: diff changeset	133 return False
0de566f21448 v2 sagun98 parents: diff changeset	134
0de566f21448 v2 sagun98 parents: diff changeset	135 #Create data matrix from new data
0de566f21448 v2 sagun98 parents: diff changeset	136 dataMatrix = zip(*abndAbundanceTable.funcGetAbundanceCopy())
0de566f21448 v2 sagun98 parents: diff changeset	137
0de566f21448 v2 sagun98 parents: diff changeset	138 #Add labels
0de566f21448 v2 sagun98 parents: diff changeset	139 llData = []
0de566f21448 v2 sagun98 parents: diff changeset	140
0de566f21448 v2 sagun98 parents: diff changeset	141 #Write to file
0de566f21448 v2 sagun98 parents: diff changeset	142 if not isinstance(xOutputSVMFile,str):
0de566f21448 v2 sagun98 parents: diff changeset	143 if xOutputSVMFile.closed:
0de566f21448 v2 sagun98 parents: diff changeset	144 xOutputSVMFile = open(xOutputSVMFile.name,"w")
0de566f21448 v2 sagun98 parents: diff changeset	145 ostm = open(xOutputSVMFile,"w") if isinstance(xOutputSVMFile, str) else xOutputSVMFile
0de566f21448 v2 sagun98 parents: diff changeset	146 f = csv.writer(ostm, csv.excel_tab, delimiter = ConstantsBreadCrumbs.c_strBreadCrumbsSVMSpace)
0de566f21448 v2 sagun98 parents: diff changeset	147
0de566f21448 v2 sagun98 parents: diff changeset	148 #This allows to know what position to place the new lines
0de566f21448 v2 sagun98 parents: diff changeset	149 lsCurrentSamples = abndAbundanceTable.funcGetSampleNames()
0de566f21448 v2 sagun98 parents: diff changeset	150
0de566f21448 v2 sagun98 parents: diff changeset	151 iSize = len(dataMatrix[0])
0de566f21448 v2 sagun98 parents: diff changeset	152 iIndexSample = 1
0de566f21448 v2 sagun98 parents: diff changeset	153 iIndexOriginalOrder = 0
0de566f21448 v2 sagun98 parents: diff changeset	154 for sSample in lsSampleOrdering:
0de566f21448 v2 sagun98 parents: diff changeset	155 if sSample in lsCurrentSamples:
0de566f21448 v2 sagun98 parents: diff changeset	156 f.writerow([lsOriginalLabels[iIndexOriginalOrder]]+
0de566f21448 v2 sagun98 parents: diff changeset	157 [ConstantsBreadCrumbs.c_strColon.join([str(tpleFeature[0]+1),str(tpleFeature[1])]) for tpleFeature in enumerate(dataMatrix[iIndexSample])])
0de566f21448 v2 sagun98 parents: diff changeset	158 iIndexSample += 1
0de566f21448 v2 sagun98 parents: diff changeset	159 #Make blank entry
0de566f21448 v2 sagun98 parents: diff changeset	160 else:
0de566f21448 v2 sagun98 parents: diff changeset	161 f.writerow(llsOldContents[iIndexOriginalOrder])
0de566f21448 v2 sagun98 parents: diff changeset	162 iIndexOriginalOrder += 1
0de566f21448 v2 sagun98 parents: diff changeset	163 ostm.close()
0de566f21448 v2 sagun98 parents: diff changeset	164 return True
0de566f21448 v2 sagun98 parents: diff changeset	165
0de566f21448 v2 sagun98 parents: diff changeset	166 #Tested 5
0de566f21448 v2 sagun98 parents: diff changeset	167 @staticmethod
0de566f21448 v2 sagun98 parents: diff changeset	168 def funcMakeLabels(lsMetadata):
0de566f21448 v2 sagun98 parents: diff changeset	169 """
0de566f21448 v2 sagun98 parents: diff changeset	170 Given a list of metadata, labels are assigned. This is function represents a central location to make labels so all are consistent.
0de566f21448 v2 sagun98 parents: diff changeset	171
0de566f21448 v2 sagun98 parents: diff changeset	172 :param lsMetafdata: List of metadata to turn into labels based on the metadata's values.
0de566f21448 v2 sagun98 parents: diff changeset	173 :type: List of integer labels
0de566f21448 v2 sagun98 parents: diff changeset	174 """
0de566f21448 v2 sagun98 parents: diff changeset	175 #Do not use a set to make elements unique. Need to preserve order.
0de566f21448 v2 sagun98 parents: diff changeset	176 #First label should be 0
0de566f21448 v2 sagun98 parents: diff changeset	177 lsUniqueLabels = []
0de566f21448 v2 sagun98 parents: diff changeset	178 [lsUniqueLabels.append(sElement) for sElement in lsMetadata if not (sElement in lsUniqueLabels)]
0de566f21448 v2 sagun98 parents: diff changeset	179
0de566f21448 v2 sagun98 parents: diff changeset	180 dictLabels = dict([[str(lenuLabels[1]),str(lenuLabels[0])] for lenuLabels in enumerate(lsUniqueLabels)])
0de566f21448 v2 sagun98 parents: diff changeset	181 return [dictLabels[sLabel] for sLabel in lsMetadata]
0de566f21448 v2 sagun98 parents: diff changeset	182
0de566f21448 v2 sagun98 parents: diff changeset	183 #Tested
0de566f21448 v2 sagun98 parents: diff changeset	184 @staticmethod
0de566f21448 v2 sagun98 parents: diff changeset	185 def funcReadLabelsFromFile(xSVMFile, lsAllSampleNames, isPredictFile):
0de566f21448 v2 sagun98 parents: diff changeset	186 """
0de566f21448 v2 sagun98 parents: diff changeset	187 Reads in the labels from the input file or prediction output file of a LibSVM formatted file
0de566f21448 v2 sagun98 parents: diff changeset	188 and associates them in order with the given sample names.
0de566f21448 v2 sagun98 parents: diff changeset	189
0de566f21448 v2 sagun98 parents: diff changeset	190 Prediction file expected format: Labels declared in first line with labels keyword.
0de566f21448 v2 sagun98 parents: diff changeset	191 Each following row a sample with the first entry the predicted label
0de566f21448 v2 sagun98 parents: diff changeset	192 Prediction file example:
0de566f21448 v2 sagun98 parents: diff changeset	193 labels 0 1
0de566f21448 v2 sagun98 parents: diff changeset	194 0 0.3 0.4 0.6
0de566f21448 v2 sagun98 parents: diff changeset	195 1 0.1 0.2 0.3
0de566f21448 v2 sagun98 parents: diff changeset	196 1 0.2 0.2 0.2
0de566f21448 v2 sagun98 parents: diff changeset	197 0 0.2 0.4 0.3
0de566f21448 v2 sagun98 parents: diff changeset	198
0de566f21448 v2 sagun98 parents: diff changeset	199 Input file expected format:
0de566f21448 v2 sagun98 parents: diff changeset	200 Each row a sample with the first entry the predicted label
0de566f21448 v2 sagun98 parents: diff changeset	201 Input file example:
0de566f21448 v2 sagun98 parents: diff changeset	202 0 0.3 0.4 0.6
0de566f21448 v2 sagun98 parents: diff changeset	203 1 0.1 0.2 0.3
0de566f21448 v2 sagun98 parents: diff changeset	204 1 0.2 0.2 0.2
0de566f21448 v2 sagun98 parents: diff changeset	205 0 0.2 0.4 0.3
0de566f21448 v2 sagun98 parents: diff changeset	206
0de566f21448 v2 sagun98 parents: diff changeset	207 :param xSVMFile: File path to read in prediction labels.
0de566f21448 v2 sagun98 parents: diff changeset	208 :type String
0de566f21448 v2 sagun98 parents: diff changeset	209 :param lsAllSampleNames List of sample ids in the order of the labels.
0de566f21448 v2 sagun98 parents: diff changeset	210 :type List of Strings
0de566f21448 v2 sagun98 parents: diff changeset	211 :param isPredictFile: Indicates if the file is the input (False) or prediction (True) file
0de566f21448 v2 sagun98 parents: diff changeset	212 :type boolean
0de566f21448 v2 sagun98 parents: diff changeset	213 :return: Dictionary {label:["sampleName1", "sampleName2"...],...} or False on error
0de566f21448 v2 sagun98 parents: diff changeset	214 """
0de566f21448 v2 sagun98 parents: diff changeset	215 #Open prediction file and input file and get labels to compare to the predictions
0de566f21448 v2 sagun98 parents: diff changeset	216 g = csv.reader( open(xSVMFile, 'r') if isinstance(xSVMFile, str) else xSVMFile, csv.excel_tab, delimiter = ConstantsBreadCrumbs.c_strBreadCrumbsSVMSpace )
0de566f21448 v2 sagun98 parents: diff changeset	217 lsOriginalLabels = [lsLineElements[0] for lsLineElements in g if not lsLineElements[0] == ConstantsBreadCrumbs.c_strSVMNoSample]
0de566f21448 v2 sagun98 parents: diff changeset	218
0de566f21448 v2 sagun98 parents: diff changeset	219 if isPredictFile:
0de566f21448 v2 sagun98 parents: diff changeset	220 lsOriginalLabels = lsOriginalLabels[1:]
0de566f21448 v2 sagun98 parents: diff changeset	221
0de566f21448 v2 sagun98 parents: diff changeset	222 #Check sample name length
0de566f21448 v2 sagun98 parents: diff changeset	223 if not len(lsAllSampleNames) == len(lsOriginalLabels):
0de566f21448 v2 sagun98 parents: diff changeset	224 print "SVM::funcReadLabelsFromFile. Error, the length of sample names did not match the original labels length. Samples ("+str(len(lsAllSampleNames))+"):"+str(lsAllSampleNames)+" Labels ("+str(len(lsOriginalLabels))+"):"+str(lsOriginalLabels)
0de566f21448 v2 sagun98 parents: diff changeset	225 return False
0de566f21448 v2 sagun98 parents: diff changeset	226
0de566f21448 v2 sagun98 parents: diff changeset	227 #Change to {label:["sampleName1", "sampleName2"...],...}
0de566f21448 v2 sagun98 parents: diff changeset	228 dictSampleLabelsRet = dict()
0de566f21448 v2 sagun98 parents: diff changeset	229 for sValue in set(lsOriginalLabels):
0de566f21448 v2 sagun98 parents: diff changeset	230 dictSampleLabelsRet[sValue] = set([lsAllSampleNames[iindex] for iindex, sLabel in enumerate(lsOriginalLabels) if sLabel == sValue])
0de566f21448 v2 sagun98 parents: diff changeset	231 return dictSampleLabelsRet
0de566f21448 v2 sagun98 parents: diff changeset	232
0de566f21448 v2 sagun98 parents: diff changeset	233 #Tested
0de566f21448 v2 sagun98 parents: diff changeset	234 @staticmethod
0de566f21448 v2 sagun98 parents: diff changeset	235 def funcScaleFeature(npdData):
0de566f21448 v2 sagun98 parents: diff changeset	236 """
0de566f21448 v2 sagun98 parents: diff changeset	237 Scale a feature between 0 and 1. Using 01 and not 01,1 because it keeps the sparsity of the data and may save time.
0de566f21448 v2 sagun98 parents: diff changeset	238
0de566f21448 v2 sagun98 parents: diff changeset	239 :param npdData: Feature data to scale.
0de566f21448 v2 sagun98 parents: diff changeset	240 :type Numpy Array Scaled feature data.
0de566f21448 v2 sagun98 parents: diff changeset	241 :return npaFloat: A numpy array of floats.
0de566f21448 v2 sagun98 parents: diff changeset	242 """
0de566f21448 v2 sagun98 parents: diff changeset	243 if sum(npdData) == 0 or len(set(npdData))==1:
0de566f21448 v2 sagun98 parents: diff changeset	244 return npdData
0de566f21448 v2 sagun98 parents: diff changeset	245 dMin = min(npdData)
0de566f21448 v2 sagun98 parents: diff changeset	246 return (npdData-dMin)/float(max(npdData-dMin))
0de566f21448 v2 sagun98 parents: diff changeset	247
0de566f21448 v2 sagun98 parents: diff changeset	248 #Tested
0de566f21448 v2 sagun98 parents: diff changeset	249 @staticmethod
0de566f21448 v2 sagun98 parents: diff changeset	250 def funcWeightLabels(lLabels):
0de566f21448 v2 sagun98 parents: diff changeset	251 """
0de566f21448 v2 sagun98 parents: diff changeset	252 Returns weights for labels based on how balanced the labels are. Weights try to balance unbalanced results.
0de566f21448 v2 sagun98 parents: diff changeset	253
0de566f21448 v2 sagun98 parents: diff changeset	254 :params lLabels: List of labels to use for measure how balanced the comparison is.
0de566f21448 v2 sagun98 parents: diff changeset	255 :type List
0de566f21448 v2 sagun98 parents: diff changeset	256 :return List: [dictWeights ({"label":weight}),lUniqueLabels (unique occurences of original labels)]
0de566f21448 v2 sagun98 parents: diff changeset	257 """
0de566f21448 v2 sagun98 parents: diff changeset	258 #Convert to dict
0de566f21448 v2 sagun98 parents: diff changeset	259 #Do not use set to make elements unique. Need to preserve order.
0de566f21448 v2 sagun98 parents: diff changeset	260 #First label should be 0
0de566f21448 v2 sagun98 parents: diff changeset	261 lUniqueLabels = []
0de566f21448 v2 sagun98 parents: diff changeset	262 for sElement in lLabels:
0de566f21448 v2 sagun98 parents: diff changeset	263 if sElement not in lUniqueLabels:
0de566f21448 v2 sagun98 parents: diff changeset	264 lUniqueLabels.append(sElement)
0de566f21448 v2 sagun98 parents: diff changeset	265 dictLabels = dict(zip(lUniqueLabels, range(len(lUniqueLabels))))
0de566f21448 v2 sagun98 parents: diff changeset	266
0de566f21448 v2 sagun98 parents: diff changeset	267 #Build a dict of weights per label {label:weight, label:weight}
0de566f21448 v2 sagun98 parents: diff changeset	268 #Get the occurrence of each label
0de566f21448 v2 sagun98 parents: diff changeset	269 dictWeights = dict()
0de566f21448 v2 sagun98 parents: diff changeset	270 for sLabelKey in dictLabels:
0de566f21448 v2 sagun98 parents: diff changeset	271 sCurLabel = dictLabels[sLabelKey]
0de566f21448 v2 sagun98 parents: diff changeset	272 dictWeights[sCurLabel] = lLabels.count(sLabelKey)
0de566f21448 v2 sagun98 parents: diff changeset	273
0de566f21448 v2 sagun98 parents: diff changeset	274 #Divide the highest occurrence each occurrence
0de566f21448 v2 sagun98 parents: diff changeset	275 iMaxOccurence = max(dictWeights.values())
0de566f21448 v2 sagun98 parents: diff changeset	276 for sWeightKey in dictWeights:
0de566f21448 v2 sagun98 parents: diff changeset	277 dictWeights[sWeightKey]=iMaxOccurence/float(dictWeights[sWeightKey])
0de566f21448 v2 sagun98 parents: diff changeset	278
0de566f21448 v2 sagun98 parents: diff changeset	279 return [dictWeights,lUniqueLabels]
0de566f21448 v2 sagun98 parents: diff changeset	280
0de566f21448 v2 sagun98 parents: diff changeset	281 #Tested 3/4 cases could add in test 12 with randomize True
0de566f21448 v2 sagun98 parents: diff changeset	282 def func10FoldCrossvalidation(self, iTotalSampleCount, fRandomise = False):
0de566f21448 v2 sagun98 parents: diff changeset	283 """
0de566f21448 v2 sagun98 parents: diff changeset	284 Generator.
0de566f21448 v2 sagun98 parents: diff changeset	285 Generates the indexes for a 10 fold cross validation given a sample count.
0de566f21448 v2 sagun98 parents: diff changeset	286 If there are less than 10 samples, it uses the sample count as the K-fold cross validation
0de566f21448 v2 sagun98 parents: diff changeset	287 as a leave one out method.
0de566f21448 v2 sagun98 parents: diff changeset	288
0de566f21448 v2 sagun98 parents: diff changeset	289 :param iTotalSampleCount: Total Sample Count
0de566f21448 v2 sagun98 parents: diff changeset	290 :type Integer Sample Count
0de566f21448 v2 sagun98 parents: diff changeset	291 :param fRandomise: Random sample indices
0de566f21448 v2 sagun98 parents: diff changeset	292 :type Boolean True indicates randomise (Default False)
0de566f21448 v2 sagun98 parents: diff changeset	293 """
0de566f21448 v2 sagun98 parents: diff changeset	294 #Make indices and shuffle if needed
0de566f21448 v2 sagun98 parents: diff changeset	295 liindices = range(iTotalSampleCount)
0de566f21448 v2 sagun98 parents: diff changeset	296 if fRandomise:
0de566f21448 v2 sagun98 parents: diff changeset	297 shuffle(liindices)
0de566f21448 v2 sagun98 parents: diff changeset	298
0de566f21448 v2 sagun98 parents: diff changeset	299 #For 10 times
0de566f21448 v2 sagun98 parents: diff changeset	300 iKFold = 10
0de566f21448 v2 sagun98 parents: diff changeset	301 if iTotalSampleCount < iKFold:
0de566f21448 v2 sagun98 parents: diff changeset	302 iKFold = iTotalSampleCount
0de566f21448 v2 sagun98 parents: diff changeset	303 for iiteration in xrange(iKFold):
0de566f21448 v2 sagun98 parents: diff changeset	304 lfTraining = [iindex % iKFold != iiteration for iindex in liindices]
0de566f21448 v2 sagun98 parents: diff changeset	305 lfValidation = [not iindex for iindex in lfTraining]
0de566f21448 v2 sagun98 parents: diff changeset	306 yield lfTraining, lfValidation

Mercurial > repos > sagun98 > micropita_v2

annotate src/breadcrumbs/src/SVM.py @ 0:0de566f21448 draft default tip