sirius_csifingerid: sirius_csifingerid.py comparison

comparison sirius_csifingerid.py @ 3:4cbfd3d0a4c4 draft

"planemo upload for repository https://github.com/computational-metabolomics/sirius_csifingerid_galaxy commit e4bc02f97a21da7556d1b76e5338ede3a9031fac"

author	computational-metabolomics
date	Wed, 02 Feb 2022 17:29:46 +0000
parents	856b3761277d
children	8fb51147d15e

comparison

equal deleted inserted replaced

-:856b3761277d
+:4cbfd3d0a4c4
-from __future__ import absolute_import, print_function
 import argparse
 import csv
 import glob
 import multiprocessing
 import os
 import sys
 import tempfile
 import uuid
 from collections import defaultdict
-import six
 parser = argparse.ArgumentParser()
 parser.add_argument('--input_pth')
-parser.add_argument('--result_pth')
+parser.add_argument('--canopus_result_pth')
+parser.add_argument('--annotations_result_pth')
 parser.add_argument('--database')
 parser.add_argument('--profile')
 parser.add_argument('--candidates')
 parser.add_argument('--ppm_max')
 parser.add_argument('--polarity')
 parser.add_argument('--tool_directory')
 parser.add_argument('--temp_dir')
 parser.add_argument('--meta_select_col', default='all')
 parser.add_argument('--cores_top_level', default=1)
 parser.add_argument('--chunks', default=1)
-parser.add_argument('--minMSMSpeaks', default=1)
+parser.add_argument('--min_MSMS_peaks', default=1)
 parser.add_argument('--rank_filter', default=0)
+parser.add_argument('--confidence_filter', default=0)
+parser.add_argument('--backwards_compatible',
+default=False, action='store_true')
 parser.add_argument('--schema', default='msp')
 parser.add_argument('-a', '--adducts', action='append', nargs=1,
 required=False, default=[], help='Adducts used')
 args = parser.parse_args()
 # function to extract the meta data using the regular expressions
 def parse_meta(meta_regex, meta_info=None):
 if meta_info is None:
 meta_info = {}
-for k, regexes in six.iteritems(meta_regex):
+for k, regexes in meta_regex.items():
 for reg in regexes:
 m = re.search(reg, line, re.IGNORECASE)
 if m:
 meta_info[k] = '-'.join(m.groups()).strip()
 return meta_info
 if 'precursor_type' in meta_info and meta_info['precursor_type']:
 paramd["cli"]["--ion"] = meta_info['precursor_type']
 adduct = meta_info['precursor_type']
 else:
 if paramd["default_ion"]:
-paramd["cli"]["--ion"] = paramd["default_ion"]
+paramd["cli"]["--adduct"] = paramd["default_ion"]
 adduct = paramd["default_ion"]
 else:
 paramd["cli"]["--auto-charge"] = ''
 if 'precursor_mz' in meta_info and meta_info['precursor_mz']:
 in paramd['additional_details']):
 # If possible always good to have the adduct in output as a column
 paramd['additional_details']['adduct'] = adduct
 # ============== Create CLI cmd for metfrag ===============================
-cmd = "sirius --fingerid"
+cmd = "sirius --no-citations --ms2 {} --adduct {} --precursor {} -o {} " \
-for k, v in six.iteritems(paramd["cli"]):
+"formula -c {} --ppm-max {} --profile {} " \
-cmd += " {} {}".format(str(k), str(v))
+"structure --database {} canopus".format(
+paramd["cli"]["--ms2"],
+adduct,
+paramd["cli"]["--precursor"],
+paramd["cli"]["--output"],
+paramd["cli"]["--candidates"],
+paramd["cli"]["--ppm-max"],
+paramd["cli"]["--profile"],
+paramd["cli"]["--database"]
+)
+print(cmd)
 paramds[paramd["SampleName"]] = paramd
 # =============== Run srius ==============================================
 # Filter before process with a minimum number of MS/MS peaks
-if plinesread >= float(args.minMSMSpeaks):
+if plinesread >= float(args.min_MSMS_peaks):
 if int(args.cores_top_level) == 1:
 os.system(cmd)
 return paramd, cmd
 pool = multiprocessing.Pool(processes=int(args.cores_top_level))
 pool.map(work, cmds_chunks)
 pool.close()
 pool.join()
 ######################################################################
 # Concatenate and filter the output
 ######################################################################
 # outputs might have different headers. Need to get a list of all the headers
 # before we start merging the files outfiles = [os.path.join(wd, f) for f in
 # glob.glob(os.path.join(wd, "*_metfrag_result.csv"))]
-outfiles = glob.glob(os.path.join(wd, '*', '*', 'summary_csi_fingerid.csv'))
+def concat_output(filename, result_pth,
+rank_filter, confidence_filter, backwards_compatible):
-# sort files nicely
+outfiles = glob.glob(os.path.join(wd, '*', '*{}'.format(filename)))
-outfiles.sort(key=lambda s: int(re.match(r'^.*/('
-r'\d+).*/.*/summary_csi_fingerid.csv',
+# sort files nicely
-s).group(1)))
+outfiles.sort(key=lambda s: int(re.match(r'^.*/('
-print(outfiles)
+r'\d+).*{}'.format(filename),
+s).group(1)))
-if len(outfiles) == 0:
+print(outfiles)
-print('No results')
-sys.exit()
+if len(outfiles) == 0:
+print('No results')
-headers = []
+sys.exit()
-c = 0
-for fn in outfiles:
+headers = []
-with open(fn, 'r') as infile:
-reader = csv.reader(infile, delimiter='\t')
+for fn in outfiles:
-if sys.version_info >= (3, 0):
+with open(fn, 'r') as infile:
-headers.extend(next(reader))
+reader = csv.reader(infile, delimiter='\t')
-else:
+if sys.version_info >= (3, 0):
-headers.extend(reader.next())
+headers.extend(next(reader))
-break
+else:
+headers.extend(reader.next())
-headers = list(paramd['additional_details'].keys()) + headers
+break
-with open(args.result_pth, 'a') as merged_outfile:
+headers = list(paramd['additional_details'].keys()) + headers
-dwriter = csv.DictWriter(merged_outfile,
-fieldnames=headers, delimiter='\t')
+with open(result_pth, 'a') as merged_outfile:
-dwriter.writeheader()
+dwriter = csv.DictWriter(merged_outfile,
+fieldnames=headers, delimiter='\t')
-for fn in sorted(outfiles):
+dwriter.writeheader()
-print(fn)
+for fn in sorted(outfiles):
-with open(fn) as infile:
+print(fn)
-reader = csv.DictReader(infile, delimiter='\t')
+with open(fn) as infile:
-ad = paramds[fn.split(os.sep)[-3]]['additional_details']
+reader = csv.DictReader(infile, delimiter='\t')
-for line in reader:
+ad = paramds[fn.split(os.sep)[-2]]['additional_details']
-if 0 < int(args.rank_filter) < int(line['rank']):
-# filter out those annotations greater than rank filter
+for line in reader:
-# If rank_filter is zero then skip
+if 'rank' in line and \
-continue
+0 < int(rank_filter) < int(line['rank']):
-line.update(ad)
+# filter out those annotations greater than rank filter
-# round score to 5 d.p.
+# If rank_filter is zero then skip
-line['score'] = round(float(line['score']), 5)
+continue
-dwriter.writerow(line)
+if 'ConfidenceScore' in line \
+and 0 < int(confidence_filter) < int(line['rank']):
+# filter out those annotations greater than rank filter
+# If rank_filter is zero then skip
+continue
+line.update(ad)
+dwriter.writerow(line)
+if backwards_compatible:
+# Headers required in this format for tools that used
+# v4.9.3 of SIRIUS-CSI:FingerID
+s1 = "sed 's/InChIkey2D/inchikey2d/g' {r} > {r}".format(r=result_pth)
+os.system(s1)
+s2 = "sed 's/CSI:FingerIDScore/Score/' {r} > {r}".format(r=result_pth)
+os.system(s2)
+concat_output('canopus_summary.tsv',
+args.canopus_result_pth,
+args.rank_filter,
+args.confidence_filter,
+args.backwards_compatible)
+concat_output('compound_identifications.tsv',
+args.annotations_result_pth,
+0,
+0,
+False)

Mercurial > repos > computational-metabolomics > sirius_csifingerid

comparison sirius_csifingerid.py @ 3:4cbfd3d0a4c4 draft