prims_metabolomics2: query_metexp.py annotate

author	pieter.lukasse@wur.nl
date	Sat, 07 Feb 2015 22:02:00 +0100
parents
children

rev	line source
0 dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	1 #!/usr/bin/env python
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	2 # encoding: utf-8
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	3 '''
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	4 Module to query a set of identifications against the METabolomics EXPlorer database.
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	5
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	6 It will take the input file and for each record it will query the
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	7 molecular mass in the selected MetExp DB. If one or more compounds are found in the
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	8 MetExp DB then extra information regarding these compounds is added to the output file.
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	9
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	10 The output file is thus the input file enriched with information about
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	11 related items found in the selected MetExp DB.
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	12 '''
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	13 import csv
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	14 import sys
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	15 import fileinput
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	16 import urllib2
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	17 import time
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	18 from collections import OrderedDict
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	19
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	20 __author__ = "Pieter Lukasse"
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	21 __contact__ = "pieter.lukasse@wur.nl"
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	22 __copyright__ = "Copyright, 2014, Plant Research International, WUR"
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	23 __license__ = "Apache v2"
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	24
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	25 def _process_file(in_xsv, delim='\t'):
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	26 '''
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	27 Generic method to parse a tab-separated file returning a dictionary with named columns
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	28 @param in_csv: input filename to be parsed
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	29 '''
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	30 data = list(csv.reader(open(in_xsv, 'rU'), delimiter=delim))
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	31 return _process_data(data)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	32
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	33 def _process_data(data):
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	34
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	35 header = data.pop(0)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	36 # Create dictionary with column name as key
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	37 output = OrderedDict()
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	38 for index in xrange(len(header)):
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	39 output[header[index]] = [row[index] for row in data]
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	40 return output
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	41
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	42
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	43 def _query_and_add_data(input_data, casid_col, formula_col, molecular_mass_col, metexp_dblink, separation_method):
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	44 '''
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	45 This method will iterate over the record in the input_data and
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	46 will enrich them with the related information found (if any) in the
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	47 MetExp Database.
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	48
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	49 # TODO : could optimize this with multi-threading, see also nice example at http://stackoverflow.com/questions/2846653/python-multithreading-for-dummies
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	50 '''
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	51 merged = []
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	52
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	53 for i in xrange(len(input_data[input_data.keys()[0]])):
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	54 # Get the record in same dictionary format as input_data, but containing
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	55 # a value at each column instead of a list of all values of all records:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	56 input_data_record = OrderedDict(zip(input_data.keys(), [input_data[key][i] for key in input_data.keys()]))
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	57
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	58 # read the molecular mass and formula:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	59 cas_id = input_data_record[casid_col]
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	60 formula = input_data_record[formula_col]
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	61 molecular_mass = input_data_record[molecular_mass_col]
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	62
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	63 # search for related records in MetExp:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	64 data_found = None
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	65 if cas_id != "undef":
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	66 # 1- search for other experiments where this CAS id has been found:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	67 query_link = metexp_dblink + "/find_entries/query?cas_nr="+ cas_id + "&method=" + separation_method
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	68 data_found = _fire_query_and_return_dict(query_link + "&_format_result=tsv")
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	69 data_type_found = "CAS"
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	70 if data_found == None:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	71 # 2- search for other experiments where this FORMULA has been found:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	72 query_link = metexp_dblink + "/find_entries/query?molecule_formula="+ formula + "&method=" + separation_method
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	73 data_found = _fire_query_and_return_dict(query_link + "&_format_result=tsv")
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	74 data_type_found = "FORMULA"
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	75 if data_found == None:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	76 # 3- search for other experiments where this MM has been found:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	77 query_link = metexp_dblink + "/find_entries/query?molecule_mass="+ molecular_mass + "&method=" + separation_method
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	78 data_found = _fire_query_and_return_dict(query_link + "&_format_result=tsv")
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	79 data_type_found = "MM"
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	80
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	81 if data_found == None:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	82 # If still nothing found, just add empty columns
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	83 extra_cols = ['', '','','','','','','']
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	84 else:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	85 # Add info found:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	86 extra_cols = _get_extra_info_and_link_cols(data_found, data_type_found, query_link)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	87
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	88 # Take all data and merge it into a "flat"/simple array of values:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	89 field_values_list = _merge_data(input_data_record, extra_cols)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	90
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	91 merged.append(field_values_list)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	92
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	93 # return the merged/enriched records:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	94 return merged
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	95
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	96
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	97 def _get_extra_info_and_link_cols(data_found, data_type_found, query_link):
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	98 '''
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	99 This method will go over the data found and will return a
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	100 list with the following items:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	101 - Experiment details where hits have been found :
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	102 'organism', 'tissue','experiment_name','user_name','column_type'
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	103 - Link that executes same query
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	104
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	105 '''
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	106 # set() makes a unique list:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	107 organism_set = []
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	108 tissue_set = []
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	109 experiment_name_set = []
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	110 user_name_set = []
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	111 column_type_set = []
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	112 cas_nr_set = []
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	113
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	114 if 'organism' in data_found:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	115 organism_set = set(data_found['organism'])
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	116 if 'tissue' in data_found:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	117 tissue_set = set(data_found['tissue'])
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	118 if 'experiment_name' in data_found:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	119 experiment_name_set = set(data_found['experiment_name'])
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	120 if 'user_name' in data_found:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	121 user_name_set = set(data_found['user_name'])
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	122 if 'column_type' in data_found:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	123 column_type_set = set(data_found['column_type'])
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	124 if 'CAS' in data_found:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	125 cas_nr_set = set(data_found['CAS'])
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	126
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	127
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	128 result = [data_type_found,
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	129 _to_xsv(organism_set),
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	130 _to_xsv(tissue_set),
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	131 _to_xsv(experiment_name_set),
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	132 _to_xsv(user_name_set),
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	133 _to_xsv(column_type_set),
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	134 _to_xsv(cas_nr_set),
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	135 #To let Excel interpret as link, use e.g. =HYPERLINK("http://stackoverflow.com", "friendly name"):
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	136 "=HYPERLINK(\""+ query_link + "\", \"Link to entries found in DB \")"]
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	137 return result
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	138
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	139
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	140 def _to_xsv(data_set):
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	141 result = ""
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	142 for item in data_set:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	143 result = result + str(item) + "\|"
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	144 return result
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	145
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	146
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	147 def _fire_query_and_return_dict(url):
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	148 '''
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	149 This method will fire the query as a web-service call and
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	150 return the results as a list of dictionary objects
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	151 '''
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	152
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	153 try:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	154 data = urllib2.urlopen(url).read()
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	155
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	156 # transform to dictionary:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	157 result = []
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	158 data_rows = data.split("\n")
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	159
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	160 # check if there is any data in the response:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	161 if len(data_rows) <= 1 or data_rows[1].strip() == '':
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	162 # means there is only the header row...so no hits:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	163 return None
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	164
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	165 for data_row in data_rows:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	166 if not data_row.strip() == '':
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	167 row_as_list = _str_to_list(data_row, delimiter='\t')
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	168 result.append(row_as_list)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	169
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	170 # return result processed into a dict:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	171 return _process_data(result)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	172
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	173 except urllib2.HTTPError, e:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	174 raise Exception( "HTTP error for URL: " + url + " : %s - " % e.code + e.reason)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	175 except urllib2.URLError, e:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	176 raise Exception( "Network error: %s" % e.reason.args[1] + ". Administrator: please check if MetExp service [" + url + "] is accessible from your Galaxy server. ")
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	177
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	178 def _str_to_list(data_row, delimiter='\t'):
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	179 result = []
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	180 for column in data_row.split(delimiter):
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	181 result.append(column)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	182 return result
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	183
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	184
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	185 # alternative: ?
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	186 # s = requests.Session()
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	187 # s.verify = False
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	188 # #s.auth = (token01, token02)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	189 # resp = s.get(url, params={'name': 'anonymous'}, stream=True)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	190 # content = resp.content
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	191 # # transform to dictionary:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	192
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	193
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	194
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	195
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	196 def _merge_data(input_data_record, extra_cols):
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	197 '''
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	198 Adds the extra information to the existing data record and returns
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	199 the combined new record.
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	200 '''
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	201 record = []
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	202 for column in input_data_record:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	203 record.append(input_data_record[column])
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	204
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	205
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	206 # add extra columns
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	207 for column in extra_cols:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	208 record.append(column)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	209
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	210 return record
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	211
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	212
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	213 def _save_data(data_rows, headers, out_csv):
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	214 '''
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	215 Writes tab-separated data to file
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	216 @param data_rows: dictionary containing merged/enriched dataset
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	217 @param out_csv: output csv file
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	218 '''
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	219
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	220 # Open output file for writing
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	221 outfile_single_handle = open(out_csv, 'wb')
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	222 output_single_handle = csv.writer(outfile_single_handle, delimiter="\t")
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	223
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	224 # Write headers
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	225 output_single_handle.writerow(headers)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	226
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	227 # Write one line for each row
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	228 for data_row in data_rows:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	229 output_single_handle.writerow(data_row)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	230
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	231 def _get_metexp_URL(metexp_dblink_file):
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	232 '''
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	233 Read out and return the URL stored in the given file.
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	234 '''
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	235 file_input = fileinput.input(metexp_dblink_file)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	236 try:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	237 for line in file_input:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	238 if line[0] != '#':
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	239 # just return the first line that is not a comment line:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	240 return line
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	241 finally:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	242 file_input.close()
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	243
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	244
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	245 def main():
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	246 '''
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	247 MetExp Query main function
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	248
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	249 The input file can be any tabular file, as long as it contains a column for the molecular mass
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	250 and one for the formula of the respective identification. These two columns are then
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	251 used to query against MetExp Database.
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	252 '''
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	253 seconds_start = int(round(time.time()))
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	254
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	255 input_file = sys.argv[1]
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	256 casid_col = sys.argv[2]
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	257 formula_col = sys.argv[3]
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	258 molecular_mass_col = sys.argv[4]
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	259 metexp_dblink_file = sys.argv[5]
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	260 separation_method = sys.argv[6]
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	261 output_result = sys.argv[7]
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	262
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	263 # Parse metexp_dblink_file to find the URL to the MetExp service:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	264 metexp_dblink = _get_metexp_URL(metexp_dblink_file)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	265
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	266 # Parse tabular input file into dictionary/array:
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	267 input_data = _process_file(input_file)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	268
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	269 # Query data against MetExp DB :
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	270 enriched_data = _query_and_add_data(input_data, casid_col, formula_col, molecular_mass_col, metexp_dblink, separation_method)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	271 headers = input_data.keys() + ['METEXP hits for ','METEXP hits: organisms', 'METEXP hits: tissues',
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	272 'METEXP hits: experiments','METEXP hits: user names','METEXP hits: column types', 'METEXP hits: CAS nrs', 'Link to METEXP hits']
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	273
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	274 _save_data(enriched_data, headers, output_result)
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	275
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	276 seconds_end = int(round(time.time()))
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	277 print "Took " + str(seconds_end - seconds_start) + " seconds"
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	278
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	279
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	280
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	281 if __name__ == '__main__':
dffc38727496 initial commit pieter.lukasse@wur.nl parents: diff changeset	282 main()

0

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

1 #!/usr/bin/env python

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

2 # encoding: utf-8

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

3 '''

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

4 Module to query a set of identifications against the METabolomics EXPlorer database.

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

5

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

6 It will take the input file and for each record it will query the

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

7 molecular mass in the selected MetExp DB. If one or more compounds are found in the

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

8 MetExp DB then extra information regarding these compounds is added to the output file.

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

9

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

10 The output file is thus the input file enriched with information about

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

11 related items found in the selected MetExp DB.

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

12 '''

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

13 import csv

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

14 import sys

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

15 import fileinput

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

16 import urllib2

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

17 import time

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

18 from collections import OrderedDict

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

19

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

20 __author__ = "Pieter Lukasse"

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

21 __contact__ = "pieter.lukasse@wur.nl"

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

22 __copyright__ = "Copyright, 2014, Plant Research International, WUR"

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

23 __license__ = "Apache v2"

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

24

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

25 def _process_file(in_xsv, delim='\t'):

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

26 '''

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

27 Generic method to parse a tab-separated file returning a dictionary with named columns

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

28 @param in_csv: input filename to be parsed

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

29 '''

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

30 data = list(csv.reader(open(in_xsv, 'rU'), delimiter=delim))

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

31 return _process_data(data)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

32

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

33 def _process_data(data):

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

34

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

35 header = data.pop(0)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

36 # Create dictionary with column name as key

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

37 output = OrderedDict()

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

38 for index in xrange(len(header)):

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

39 output[header[index]] = [row[index] for row in data]

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

40 return output

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

41

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

42

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

43 def _query_and_add_data(input_data, casid_col, formula_col, molecular_mass_col, metexp_dblink, separation_method):

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

44 '''

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

45 This method will iterate over the record in the input_data and

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

46 will enrich them with the related information found (if any) in the

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

47 MetExp Database.

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

48

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

49 # TODO : could optimize this with multi-threading, see also nice example at http://stackoverflow.com/questions/2846653/python-multithreading-for-dummies

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

50 '''

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

51 merged = []

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

52

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

53 for i in xrange(len(input_data[input_data.keys()[0]])):

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

54 # Get the record in same dictionary format as input_data, but containing

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

55 # a value at each column instead of a list of all values of all records:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

56 input_data_record = OrderedDict(zip(input_data.keys(), [input_data[key][i] for key in input_data.keys()]))

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

57

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

58 # read the molecular mass and formula:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

59 cas_id = input_data_record[casid_col]

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

60 formula = input_data_record[formula_col]

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

61 molecular_mass = input_data_record[molecular_mass_col]

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

62

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

63 # search for related records in MetExp:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

64 data_found = None

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

65 if cas_id != "undef":

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

66 # 1- search for other experiments where this CAS id has been found:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

67 query_link = metexp_dblink + "/find_entries/query?cas_nr="+ cas_id + "&method=" + separation_method

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

68 data_found = _fire_query_and_return_dict(query_link + "&_format_result=tsv")

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

69 data_type_found = "CAS"

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

70 if data_found == None:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

71 # 2- search for other experiments where this FORMULA has been found:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

72 query_link = metexp_dblink + "/find_entries/query?molecule_formula="+ formula + "&method=" + separation_method

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

73 data_found = _fire_query_and_return_dict(query_link + "&_format_result=tsv")

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

74 data_type_found = "FORMULA"

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

75 if data_found == None:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

76 # 3- search for other experiments where this MM has been found:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

77 query_link = metexp_dblink + "/find_entries/query?molecule_mass="+ molecular_mass + "&method=" + separation_method

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

78 data_found = _fire_query_and_return_dict(query_link + "&_format_result=tsv")

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

79 data_type_found = "MM"

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

80

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

81 if data_found == None:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

82 # If still nothing found, just add empty columns

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

83 extra_cols = ['', '','','','','','','']

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

84 else:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

85 # Add info found:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

86 extra_cols = _get_extra_info_and_link_cols(data_found, data_type_found, query_link)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

87

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

88 # Take all data and merge it into a "flat"/simple array of values:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

89 field_values_list = _merge_data(input_data_record, extra_cols)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

90

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

91 merged.append(field_values_list)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

92

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

93 # return the merged/enriched records:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

94 return merged

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

95

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

96

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

97 def _get_extra_info_and_link_cols(data_found, data_type_found, query_link):

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

98 '''

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

99 This method will go over the data found and will return a

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

100 list with the following items:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

101 - Experiment details where hits have been found :

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

102 'organism', 'tissue','experiment_name','user_name','column_type'

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

103 - Link that executes same query

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

104

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

105 '''

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

106 # set() makes a unique list:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

107 organism_set = []

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

108 tissue_set = []

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

109 experiment_name_set = []

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

110 user_name_set = []

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

111 column_type_set = []

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

112 cas_nr_set = []

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

113

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

114 if 'organism' in data_found:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

115 organism_set = set(data_found['organism'])

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

116 if 'tissue' in data_found:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

117 tissue_set = set(data_found['tissue'])

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

118 if 'experiment_name' in data_found:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

119 experiment_name_set = set(data_found['experiment_name'])

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

120 if 'user_name' in data_found:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

121 user_name_set = set(data_found['user_name'])

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

122 if 'column_type' in data_found:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

123 column_type_set = set(data_found['column_type'])

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

124 if 'CAS' in data_found:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

125 cas_nr_set = set(data_found['CAS'])

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

126

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

127

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

128 result = [data_type_found,

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

129 _to_xsv(organism_set),

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

130 _to_xsv(tissue_set),

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

131 _to_xsv(experiment_name_set),

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

132 _to_xsv(user_name_set),

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

133 _to_xsv(column_type_set),

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

134 _to_xsv(cas_nr_set),

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

135 #To let Excel interpret as link, use e.g. =HYPERLINK("http://stackoverflow.com", "friendly name"):

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

136 "=HYPERLINK(\""+ query_link + "\", \"Link to entries found in DB \")"]

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

137 return result

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

138

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

139

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

140 def _to_xsv(data_set):

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

141 result = ""

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

142 for item in data_set:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

143 result = result + str(item) + "|"

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

144 return result

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

145

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

146

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

147 def _fire_query_and_return_dict(url):

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

148 '''

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

149 This method will fire the query as a web-service call and

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

150 return the results as a list of dictionary objects

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

151 '''

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

152

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

153 try:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

154 data = urllib2.urlopen(url).read()

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

155

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

156 # transform to dictionary:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

157 result = []

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

158 data_rows = data.split("\n")

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

159

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

160 # check if there is any data in the response:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

161 if len(data_rows) <= 1 or data_rows[1].strip() == '':

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

162 # means there is only the header row...so no hits:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

163 return None

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

164

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

165 for data_row in data_rows:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

166 if not data_row.strip() == '':

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

167 row_as_list = _str_to_list(data_row, delimiter='\t')

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

168 result.append(row_as_list)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

169

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

170 # return result processed into a dict:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

171 return _process_data(result)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

172

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

173 except urllib2.HTTPError, e:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

174 raise Exception( "HTTP error for URL: " + url + " : %s - " % e.code + e.reason)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

175 except urllib2.URLError, e:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

176 raise Exception( "Network error: %s" % e.reason.args[1] + ". Administrator: please check if MetExp service [" + url + "] is accessible from your Galaxy server. ")

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

177

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

178 def _str_to_list(data_row, delimiter='\t'):

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

179 result = []

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

180 for column in data_row.split(delimiter):

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

181 result.append(column)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

182 return result

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

183

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

184

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

185 # alternative: ?

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

186 # s = requests.Session()

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

187 # s.verify = False

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

188 # #s.auth = (token01, token02)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

189 # resp = s.get(url, params={'name': 'anonymous'}, stream=True)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

190 # content = resp.content

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

191 # # transform to dictionary:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

192

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

193

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

194

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

195

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

196 def _merge_data(input_data_record, extra_cols):

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

197 '''

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

198 Adds the extra information to the existing data record and returns

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

199 the combined new record.

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

200 '''

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

201 record = []

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

202 for column in input_data_record:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

203 record.append(input_data_record[column])

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

204

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

205

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

206 # add extra columns

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

207 for column in extra_cols:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

208 record.append(column)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

209

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

210 return record

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

211

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

212

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

213 def _save_data(data_rows, headers, out_csv):

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

214 '''

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

215 Writes tab-separated data to file

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

216 @param data_rows: dictionary containing merged/enriched dataset

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

217 @param out_csv: output csv file

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

218 '''

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

219

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

220 # Open output file for writing

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

221 outfile_single_handle = open(out_csv, 'wb')

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

222 output_single_handle = csv.writer(outfile_single_handle, delimiter="\t")

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

223

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

224 # Write headers

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

225 output_single_handle.writerow(headers)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

226

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

227 # Write one line for each row

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

228 for data_row in data_rows:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

229 output_single_handle.writerow(data_row)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

230

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

231 def _get_metexp_URL(metexp_dblink_file):

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

232 '''

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

233 Read out and return the URL stored in the given file.

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

234 '''

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

235 file_input = fileinput.input(metexp_dblink_file)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

236 try:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

237 for line in file_input:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

238 if line[0] != '#':

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

239 # just return the first line that is not a comment line:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

240 return line

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

241 finally:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

242 file_input.close()

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

243

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

244

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

245 def main():

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

246 '''

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

247 MetExp Query main function

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

248

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

249 The input file can be any tabular file, as long as it contains a column for the molecular mass

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

250 and one for the formula of the respective identification. These two columns are then

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

251 used to query against MetExp Database.

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

252 '''

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

253 seconds_start = int(round(time.time()))

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

254

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

255 input_file = sys.argv[1]

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

256 casid_col = sys.argv[2]

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

257 formula_col = sys.argv[3]

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

258 molecular_mass_col = sys.argv[4]

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

259 metexp_dblink_file = sys.argv[5]

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

260 separation_method = sys.argv[6]

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

261 output_result = sys.argv[7]

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

262

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

263 # Parse metexp_dblink_file to find the URL to the MetExp service:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

264 metexp_dblink = _get_metexp_URL(metexp_dblink_file)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

265

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

266 # Parse tabular input file into dictionary/array:

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

267 input_data = _process_file(input_file)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

268

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

269 # Query data against MetExp DB :

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

270 enriched_data = _query_and_add_data(input_data, casid_col, formula_col, molecular_mass_col, metexp_dblink, separation_method)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

271 headers = input_data.keys() + ['METEXP hits for ','METEXP hits: organisms', 'METEXP hits: tissues',

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

272 'METEXP hits: experiments','METEXP hits: user names','METEXP hits: column types', 'METEXP hits: CAS nrs', 'Link to METEXP hits']

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

273

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

274 _save_data(enriched_data, headers, output_result)

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

275

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

276 seconds_end = int(round(time.time()))

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

277 print "Took " + str(seconds_end - seconds_start) + " seconds"

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

278

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

279

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

280

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

281 if __name__ == '__main__':

dffc38727496 initial commit

pieter.lukasse@wur.nl

parents:

diff changeset

282 main()

Mercurial > repos > pieterlukasse > prims_metabolomics2

annotate query_metexp.py @ 0:dffc38727496