prims_metabolomics2: GCMS/library

annotate GCMS/library_lookup.py @ 25:9f03c8587d6b draft default tip

MetExp msclust upload format changed from tabular to csv

author	linda-bakker
date	Fri, 24 Aug 2018 09:56:05 -0400
parents	f0c6feab06e7
children

rev	line source
6 4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	1 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	2 Logic for searching a Retention Index database file given output from NIST
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	3 '''
22 f0c6feab06e7 fixed import match_library linda.bakker@wur.nl <linda.bakker@wur.nl> parents: 20 diff changeset	4 import os
f0c6feab06e7 fixed import match_library linda.bakker@wur.nl <linda.bakker@wur.nl> parents: 20 diff changeset	5 import sys
f0c6feab06e7 fixed import match_library linda.bakker@wur.nl <linda.bakker@wur.nl> parents: 20 diff changeset	6 import inspect
6 4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	7 import re
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	8 import csv
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	9
22 f0c6feab06e7 fixed import match_library linda.bakker@wur.nl <linda.bakker@wur.nl> parents: 20 diff changeset	10
f0c6feab06e7 fixed import match_library linda.bakker@wur.nl <linda.bakker@wur.nl> parents: 20 diff changeset	11 #a not so perfect solution to import parent dir file match_library
f0c6feab06e7 fixed import match_library linda.bakker@wur.nl <linda.bakker@wur.nl> parents: 20 diff changeset	12 currentdir = os.path.dirname(os.path.abspath(inspect.getfile(inspect.currentframe())))
f0c6feab06e7 fixed import match_library linda.bakker@wur.nl <linda.bakker@wur.nl> parents: 20 diff changeset	13 parentdir = os.path.dirname(currentdir)
f0c6feab06e7 fixed import match_library linda.bakker@wur.nl <linda.bakker@wur.nl> parents: 20 diff changeset	14 sys.path.append(parentdir)
f0c6feab06e7 fixed import match_library linda.bakker@wur.nl <linda.bakker@wur.nl> parents: 20 diff changeset	15 import match_library
f0c6feab06e7 fixed import match_library linda.bakker@wur.nl <linda.bakker@wur.nl> parents: 20 diff changeset	16
f0c6feab06e7 fixed import match_library linda.bakker@wur.nl <linda.bakker@wur.nl> parents: 20 diff changeset	17
6 4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	18 __author__ = "Marcel Kempenaar"
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	19 __contact__ = "brs@nbic.nl"
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	20 __copyright__ = "Copyright, 2012, Netherlands Bioinformatics Centre"
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	21 __license__ = "MIT"
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	22
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	23 def create_lookup_table(library_file, column_type_name, statphase):
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	24 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	25 Creates a dictionary holding the contents of the library to be searched
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	26 @param library_file: library to read
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	27 @param column_type_name: the columns type name
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	28 @param statphase: the columns stationary phase
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	29 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	30 (data, header) = match_library.read_library(library_file)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	31 # Test for presence of required columns
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	32 if ('columntype' not in header or
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	33 'columnphasetype' not in header or
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	34 'cas' not in header):
20 f70b2c169e3a fixed select column option linda.bakker@wur.nl <linda.bakker@wur.nl> parents: 6 diff changeset	35 raise IOError('Missing columns (create_lookup_table) in ', library_file)
6 4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	36
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	37 column_type_column = header.index("columntype")
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	38 statphase_column = header.index("columnphasetype")
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	39 cas_column = header.index("cas")
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	40
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	41 filtered_library = [line for line in data if line[column_type_column] == column_type_name
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	42 and line[statphase_column] == statphase]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	43 lookup_dict = {}
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	44 for element in filtered_library:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	45 # Here the cas_number is set to the numeric part of the cas_column value, so if the
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	46 # cas_column value is 'C1433' then cas_number will be '1433'
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	47 cas_number = str(re.findall(r'\d+', (element[cas_column]).strip())[0])
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	48 try:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	49 lookup_dict[cas_number].append(element)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	50 except KeyError:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	51 lookup_dict[cas_number] = [element]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	52 return lookup_dict
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	53
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	54
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	55 def _preferred(hits, pref, ctype, polar, model, method):
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	56 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	57 Returns all entries in the lookup_dict that have the same column name, type and polarity
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	58 as given by the user, uses regression if selected given the model and method to use. The
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	59 regression is applied on the column with the best R-squared value in the model
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	60 @param hits: all entries in the lookup_dict for the given CAS number
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	61 @param pref: preferred GC-column, can be one or more names
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	62 @param ctype: column type (capillary etc.)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	63 @param polar: polarity (polar / non-polar etc.)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	64 @param model: data loaded from file containing regression models
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	65 @param method: supported regression method (i.e. poly(nomial) or linear)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	66 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	67 match = []
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	68 for column in pref:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	69 for hit in hits:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	70 if hit[4] == ctype and hit[5] == polar and hit[6] == column:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	71 # Create copy of found hit since it will be altered downstream
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	72 match.extend(hit)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	73 return match, False
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	74
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	75 # No hit found for current CAS number, return if not performing regression
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	76 if not model:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	77 return False, False
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	78
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	79 # Perform regression
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	80 for column in pref:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	81 if column not in model:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	82 break
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	83 # Order regression candidates by R-squared value (last element)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	84 order = sorted(model[column].items(), key=lambda col: col[1][-1])
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	85 # Create list of regression candidate column names
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	86 regress_columns = list(reversed([column for (column, _) in order]))
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	87 # Names of available columns
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	88 available = [hit[6] for hit in hits]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	89
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	90 # TODO: combine Rsquared and number of datapoints to get the best regression match
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	91 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	92 # Iterate regression columns (in order) and retrieve their models
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	93 models = {}
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	94 for col in regress_columns:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	95 if col in available:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	96 hit = list(hits[available.index(col)])
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	97 if hit[4] == ctype:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	98 # models contains all model data including residuals [-2] and rsquared [-1]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	99 models[pref[0]] = model[pref[0]][hit[6]]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	100 # Get the combined maximum for residuals and rsquared
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	101 best_match = models[]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	102 # Apply regression
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	103 if method == 'poly':
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	104 regressed = _apply_poly_regression(best_match, hit[6], float(hit[3]), model)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	105 if regressed:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	106 hit[3] = regressed
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	107 else:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	108 return False, False
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	109 else:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	110 hit[3] = _apply_linear_regression(best_match, hit[6], float(hit[3]), model)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	111 match.extend(hit)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	112 return match, hit[6]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	113 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	114
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	115 for col in regress_columns:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	116 if col in available:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	117 hit = list(hits[available.index(col)])
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	118 if hit[4] == ctype:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	119 # Perform regression using a column for which regression is possible
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	120 if method == 'poly':
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	121 # Polynomial is only possible within a set border, if the RI falls outside
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	122 # of this border, skip this lookup
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	123 regressed = _apply_poly_regression(pref[0], hit[6], float(hit[3]), model)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	124 if regressed:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	125 hit[3] = regressed
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	126 else:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	127 return False, False
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	128 else:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	129 hit[3] = _apply_linear_regression(pref[0], hit[6], float(hit[3]), model)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	130 match.extend(hit)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	131 return match, hit[6]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	132
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	133 return False, False
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	134
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	135
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	136
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	137 def default_hit(row, cas_nr, compound_id):
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	138 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	139 This method will return a "default"/empty hit for cases where the
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	140 method _preferred() returns False (i.e. a RI could not be found
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	141 for the given cas nr, also not via regression.
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	142 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	143 return [
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	144 #'CAS',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	145 'C' + cas_nr,
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	146 #'NAME',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	147 '',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	148 #'FORMULA',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	149 '',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	150 #'RI',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	151 '0.0',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	152 #'Column.type',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	153 '',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	154 #'Column.phase.type',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	155 '',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	156 #'Column.name',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	157 '',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	158 #'phase.coding',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	159 ' ',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	160 #'CAS_column.Name',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	161 '',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	162 #'Centrotype', -> NOTE THAT compound_id is not ALWAYS centrotype...depends on MsClust algorithm used...for now only one MsClust algorithm is used so it is not an issue, but this should be updated/corrected once that changes
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	163 compound_id,
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	164 #'Regression.Column.Name',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	165 '',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	166 #'min',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	167 '',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	168 #'max',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	169 '',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	170 #'nr.duplicates',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	171 '']
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	172
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	173
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	174 def format_result(lookup_dict, nist_tabular_filename, pref, ctype, polar, model, method):
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	175 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	176 Looks up the compounds in the library lookup table and formats the results
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	177 @param lookup_dict: dictionary containing the library to be searched
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	178 @param nist_tabular_filename: NIST output file to be matched
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	179 @param pref: (list of) column-name(s) to look for
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	180 @param ctype: column type of interest
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	181 @param polar: polarity of the used column
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	182 @param model: data loaded from file containing regression models
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	183 @param method: supported regression method (i.e. poly(nomial) or linear)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	184 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	185 (nist_tabular_list, header_clean) = match_library.read_library(nist_tabular_filename)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	186 # Retrieve indices of the CAS and compound_id columns (exit if not present)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	187 try:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	188 casi = header_clean.index("cas")
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	189 idi = header_clean.index("id")
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	190 except:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	191 raise IOError("'CAS' or 'compound_id' not found in header of library file")
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	192
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	193 data = []
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	194 for row in nist_tabular_list:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	195 casf = str(row[casi].replace('-', '').strip())
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	196 compound_id = str(row[idi].split('-')[0])
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	197 if casf in lookup_dict:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	198 found_hit, regress = _preferred(lookup_dict[casf], pref, ctype, polar, model, method)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	199 if found_hit:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	200 # Keep cas nr as 'C'+ numeric part:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	201 found_hit[0] = 'C' + casf
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	202 # Add compound id
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	203 found_hit.insert(9, compound_id)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	204 # Add information on regression process
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	205 found_hit.insert(10, regress if regress else 'None')
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	206 # Replace column index references with actual number of duplicates
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	207 dups = len(found_hit[-1].split(','))
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	208 if dups > 1:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	209 found_hit[-1] = str(dups + 1)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	210 else:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	211 found_hit[-1] = '0'
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	212 data.append(found_hit)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	213 found_hit = ''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	214 else:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	215 data.append(default_hit(row, casf, compound_id))
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	216 else:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	217 data.append(default_hit(row, casf, compound_id))
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	218
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	219 casf = ''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	220 compound_id = ''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	221 found_hit = []
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	222 dups = []
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	223 return data
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	224
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	225
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	226 def _save_data(content, outfile):
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	227 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	228 Write to output file
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	229 @param content: content to write
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	230 @param outfile: file to write to
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	231 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	232 # header
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	233 header = ['CAS',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	234 'NAME',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	235 'FORMULA',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	236 'RI',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	237 'Column.type',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	238 'Column.phase.type',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	239 'Column.name',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	240 'phase.coding',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	241 'CAS_column.Name',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	242 'Centrotype',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	243 'Regression.Column.Name',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	244 'min',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	245 'max',
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	246 'nr.duplicates']
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	247 output_handle = csv.writer(open(outfile, 'wb'), delimiter="\t")
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	248 output_handle.writerow(header)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	249 for entry in content:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	250 output_handle.writerow(entry)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	251
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	252
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	253 def _read_model(model_file):
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	254 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	255 Creates an easy to search dictionary for getting the regression parameters
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	256 for each valid combination of GC-columns
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	257 @param model_file: filename containing the regression models
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	258 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	259 regress = list(csv.reader(open(model_file, 'rU'), delimiter='\t'))
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	260 if len(regress.pop(0)) > 9:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	261 method = 'poly'
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	262 else:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	263 method = 'linear'
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	264
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	265 model = {}
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	266 # Create new dictionary for each GC-column
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	267 for line in regress:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	268 model[line[0]] = {}
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	269
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	270 # Add data
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	271 for line in regress:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	272 if method == 'poly':
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	273 model[line[0]][line[1]] = [float(col) for col in line[2:11]]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	274 else: # linear
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	275 model[line[0]][line[1]] = [float(col) for col in line[2:9]]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	276
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	277 return model, method
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	278
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	279
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	280 def _apply_poly_regression(column1, column2, retention_index, model):
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	281 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	282 Calculates a new retention index (RI) value using a given 3rd-degree polynomial
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	283 model based on data from GC columns 1 and 2
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	284 @param column1: name of the selected GC-column
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	285 @param column2: name of the GC-column to use for regression
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	286 @param retention_index: RI to convert
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	287 @param model: dictionary containing model information for all GC-columns
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	288 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	289 coeff = model[column1][column2]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	290 # If the retention index to convert is within range of the data the model is based on, perform regression
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	291 if coeff[4] < retention_index < coeff[5]:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	292 return (coeff[3] * (retention_index ** 3) + coeff[2] * (retention_index ** 2) +
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	293 (retention_index * coeff[1]) + coeff[0])
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	294 else:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	295 return False
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	296
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	297
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	298 def _apply_linear_regression(column1, column2, retention_index, model):
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	299 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	300 Calculates a new retention index (RI) value using a given linear model based on data
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	301 from GC columns 1 and 2
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	302 @param column1: name of the selected GC-column
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	303 @param column2: name of the GC-column to use for regression
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	304 @param retention_index: RI to convert
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	305 @param model: dictionary containing model information for all GC-columns
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	306 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	307 # TODO: No use of limits
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	308 coeff = model[column1][column2]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	309 return coeff[1] * retention_index + coeff[0]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	310
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	311
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	312 def main():
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	313 '''
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	314 Library Lookup main function
22 f0c6feab06e7 fixed import match_library linda.bakker@wur.nl <linda.bakker@wur.nl> parents: 20 diff changeset	315 '''
6 4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	316 library_file = sys.argv[1]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	317 nist_tabular_filename = sys.argv[2]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	318 ctype = sys.argv[3]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	319 polar = sys.argv[4]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	320 outfile = sys.argv[5]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	321 pref = sys.argv[6:-1]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	322 regress = sys.argv[-1]
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	323
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	324 if regress != 'False':
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	325 model, method = _read_model(regress)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	326 else:
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	327 model, method = False, None
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	328
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	329 lookup_dict = create_lookup_table(library_file, ctype, polar)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	330 data = format_result(lookup_dict, nist_tabular_filename, pref, ctype, polar, model, method)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	331
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	332 _save_data(data, outfile)
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	333
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	334
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	335 if __name__ == "__main__":
4393f982d18f reorganized sources pieter.lukasse@wur.nl parents: diff changeset	336 main()

Mercurial > repos > pieterlukasse > prims_metabolomics2

annotate GCMS/library_lookup.py @ 25:9f03c8587d6b draft default tip