nist_wrapper: utils.py annotate

annotate utils.py @ 7:165c22633081

adding log

author	pieter.lukasse@wur.nl
date	Thu, 22 Jan 2015 22:06:00 +0100
parents	cce6989ed423
children	8c20185752da

rev	line source
0 cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	1 '''
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	2 Created on 31 dec. 2014
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	3
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	4 @author: lukas007
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	5 '''
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	6 import shutil
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	7 import subprocess
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	8 import csv
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	9 from collections import OrderedDict
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	10
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	11 def copy_dir(src, dst):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	12 shutil.copytree(src, dst)
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	13
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	14
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	15 def copy_file(src, dst):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	16 shutil.copy(src, dst)
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	17
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	18 def get_process_list():
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	19 p = subprocess.Popen(['ps', '-A'], stdout=subprocess.PIPE)
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	20 out, err = p.communicate()
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	21 return out.splitlines()
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	22
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	23 def get_process_pid(process_name):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	24 pid = -1
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	25 for line in get_process_list():
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	26 if process_name in line:
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	27 pid = int(line.split(None, 1)[0])
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	28 return pid
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	29
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	30
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	31 def get_as_dict(in_tsv):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	32 '''
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	33 Generic method to parse a tab-separated file returning a dictionary with named columns
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	34 @param in_tsv: input filename to be parsed
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	35 '''
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	36 data = list(csv.reader(open(in_tsv, 'rU'), delimiter='\t'))
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	37 header = data.pop(0)
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	38 # Create dictionary with column name as key
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	39 output = {}
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	40 for index in xrange(len(header)):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	41 output[header[index]] = [row[index] for row in data]
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	42 return output
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	43
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	44 def save_dict_as_tsv(dict, out_tsv):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	45 '''
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	46 Writes tab-separated data to file
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	47 @param data: dictionary containing merged dataset
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	48 @param out_tsv: output tsv file
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	49 '''
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	50
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	51 # Open output file for writing
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	52 out_file = open(out_tsv, 'wb')
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	53 output_writer = csv.writer(out_file, delimiter="\t")
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	54
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	55 # Write headers
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	56 output_writer.writerow(list(dict.keys()))
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	57
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	58 # Write
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	59 for record_index in xrange(len(dict[dict.keys()[0]])):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	60 row = [dict[k][record_index] for k in dict]
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	61 output_writer.writerow(row)
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	62
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	63
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	64
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	65
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	66 def get_nist_out_as_dict(nist_result_file):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	67 '''
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	68 Method to parse NIST specific output into a dictionary.
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	69 @param nist_result_file: result file as produced by NIST nistms$.exe
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	70 '''
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	71 # Create dictionary with column name as key
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	72 output = OrderedDict()
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	73 output['id'] = []
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	74 output['compound_name'] = []
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	75 output['formula'] = []
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	76 output['lib_name'] = []
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	77 output['id_in_lib'] = []
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	78 output['mf'] = []
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	79 output['rmf'] = []
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	80 output['prob'] = []
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	81 output['cas'] = []
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	82 output['mw'] = []
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	83
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	84
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	85 for line in open(nist_result_file):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	86 row = line.split('<<')
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	87 if row[0].startswith('Unknown'):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	88 title_row = row[0]
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	89 continue
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	90 elif row[0].startswith('Hit'):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	91 hit = row
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	92
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	93 output['id'].append(title_row.split(': ')[1].split(' ')[0])
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	94 output['compound_name'].append((hit[1].split('>>')[0]).decode('utf-8', errors='replace')) # see http://blog.webforefront.com/archives/2011/02/python_ascii_co.html
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	95 output['formula'].append(hit[2].split('>>')[0])
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	96 output['lib_name'].append(hit[3].split('>>')[0])
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	97
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	98 other_fields_list = (hit[2].split('>>')[1] + hit[3].split('>>')[1]).split(';')
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	99 count = 0
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	100 for field in other_fields_list:
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	101 if field.startswith(' MF: '):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	102 count += 1
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	103 output['mf'].append(field.split('MF: ')[1])
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	104 elif field.startswith(' RMF: '):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	105 count += 1
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	106 output['rmf'].append(field.split('RMF: ')[1])
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	107 elif field.startswith(' Prob: '):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	108 count += 1
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	109 output['prob'].append(field.split('Prob: ')[1])
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	110 elif field.startswith(' CAS:'):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	111 count += 1
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	112 output['cas'].append(field.split('CAS:')[1])
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	113 elif field.startswith(' Mw: '):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	114 count += 1
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	115 output['mw'].append(field.split('Mw: ')[1])
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	116 elif field.startswith(' Id: '):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	117 count += 1
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	118 output['id_in_lib'].append(field.split('Id: ')[1][0:-2]) # the [0:-2] is to avoid the last 2 characters, namely a '.' and a \n
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	119 elif field != '' and field != ' Lib: ':
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	120 raise Exception('Error: unexpected field in NIST output: ' + field)
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	121
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	122 if count != 6:
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	123 raise Exception('Error: did not find all expected fields in NIST output')
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	124
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	125 return output
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	126
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	127 def get_spectra_file_as_dict(spectrum_file):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	128 '''
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	129 Method to parse spectra file in NIST MSP input format into a dictionary.
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	130 The idea is to parse the following :
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	131
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	132 Name: spectrum1
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	133 DB#: 1
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	134 Num Peaks: 87
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	135 14 8; 15 15; 27 18; 28 15; 29 15;
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	136 30 11; 32 19; 39 32; 40 12; 41 68;
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	137
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	138 into:
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	139
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	140 dict['spectrum1'] = "14 8; 15 15; 27 18; 28 15; 29 15; 30 11; 32 19; 39 32; 40 12; 41 68;"
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	141
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	142 @param spectrum_file: spectra file in MSP format (e.g. also the format returned by MsClust)
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	143 '''
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	144
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	145 output = OrderedDict()
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	146 name = ''
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	147 spectrum = ''
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	148 for line in open(spectrum_file):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	149 if line.startswith('Name: '):
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	150 if name != '':
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	151 # store spectrum:
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	152 output[name] = spectrum
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	153 name = line.split('Name: ')[1].replace('\n','')
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	154 spectrum = ''
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	155 elif line[0].isdigit():
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	156 # parse spectra:
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	157 spectrum += line.replace('\n','')
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	158
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	159 # store also last spectrum:
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	160 output[name] = spectrum
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	161
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	162 return output
cce6989ed423 new NIST wrapper demo tools pieter.lukasse@wur.nl parents: diff changeset	163

Mercurial > repos > pieterlukasse > nist_wrapper

annotate utils.py @ 7:165c22633081