sirius_csifingerid: sirius_csifingerid.py comparison

comparison sirius_csifingerid.py @ 2:856b3761277d draft

"planemo upload for repository https://github.com/computational-metabolomics/sirius_csifingerid_galaxy commit 3e3dee9a853b6133cf089b3c063f53c52b39463d"

author	computational-metabolomics
date	Thu, 02 Jul 2020 11:01:45 -0400
parents	9e6bf7278257
children	4cbfd3d0a4c4

comparison

equal deleted inserted replaced

-:1db83da40c54
+:856b3761277d
 parser.add_argument('--polarity')
 parser.add_argument('--results_name')
 parser.add_argument('--out_dir')
 parser.add_argument('--tool_directory')
 parser.add_argument('--temp_dir')
 parser.add_argument('--meta_select_col', default='all')
 parser.add_argument('--cores_top_level', default=1)
 parser.add_argument('--chunks', default=1)
 parser.add_argument('--minMSMSpeaks', default=1)
+parser.add_argument('--rank_filter', default=0)
 parser.add_argument('--schema', default='msp')
+parser.add_argument('-a', '--adducts', action='append', nargs=1,
+required=False, default=[], help='Adducts used')
 args = parser.parse_args()
 print(args)
 if os.stat(args.input_pth).st_size == 0:
 print('Input file empty')
 exit()
 os.mkdir(wd)
 else:
 td = tempfile.mkdtemp()
 wd = os.path.join(td, str(uuid.uuid4()))
 os.mkdir(wd)
+print(args.adducts)
+if args.adducts:
+adducts_from_cli = [
+a[0].replace('__ob__', '[').replace('__cb__', ']') for a in
+args.adducts
+]
+else:
+adducts_from_cli = []
 ######################################################################
 # Setup regular expressions for MSP parsing dictionary
 ######################################################################
 regex_msp = {}
 r'^precursor.*mz(?:=|:)\s*(\d*[.,]?\d*)$']
 regex_msp['precursor_type'] = [r'^precursor.*type(?:=|:)(.*)$',
 r'^adduct(?:=|:)(.*)$',
 r'^ADDUCTIONNAME(?:=|:)(.*)$']
 regex_msp['num_peaks'] = [r'^Num.*Peaks(?:=|:)\s*(\d*)$']
+regex_msp['retention_time'] = [r'^RETENTION.*TIME(?:=|:)\s*(.*)$',
+r'^rt(?:=|:)\s*(.*)$',
+r'^time(?:=|:)\s*(.*)$']
+# From example winter_pos.mspy from kristian
+regex_msp['AlignmentID'] = [r'^AlignmentID(?:=|:)\s*(.*)$']
 regex_msp['msp'] = [r'^Name(?:=|:)(.*)$']  # Flag for standard MSP format
 regex_massbank = {}
 regex_massbank['name'] = [r'^RECORD_TITLE:(.*)$']
 regex_massbank['polarity'] = \
 regex_massbank['precursor_mz'] = \
 [r'^MS\$FOCUSED_ION:\s+PRECURSOR_M/Z\s+(\d*[.,]?\d*)$']
 regex_massbank['precursor_type'] = \
 [r'^MS\$FOCUSED_ION:\s+PRECURSOR_TYPE\s+(.*)$']
 regex_massbank['num_peaks'] = [r'^PK\$NUM_PEAK:\s+(\d*)']
+regex_massbank['retention_time'] = [
+r'^AC\$CHROMATOGRAPHY:\s+RETENTION_TIME\s*(\d*\.?\d+).*']
 regex_massbank['cols'] = [r'^PK\$PEAK:\s+(.*)']
 regex_massbank['massbank'] = [r'^RECORD_TITLE:(.*)$']  # Flag for massbank
 if args.schema == 'msp':
 meta_regex = regex_msp
 elif args.schema == 'massbank':
 meta_regex = regex_massbank
 # the msPurity pipeline) choose between getting additional details to
 # add as columns as either all meta data from msp, just details from the
 # record name (i.e. when using msPurity and we have the columns
 # coded into the name) or just the spectra index (spectrac)
 paramd = init_paramd(args)
+meta_info = {k: v for k, v in meta_info.items() if k
+not in ['msp', 'massbank', 'cols']}
 if args.meta_select_col == 'name':
 # have additional column of just the name
 paramd['additional_details'] = {'name': meta_info['name']}
 elif args.meta_select_col == 'name_split':
 # =============== Update param based on MSP metadata ======================
 # Replace param details with details from MSP if required
 if 'precursor_type' in meta_info and meta_info['precursor_type']:
 paramd["cli"]["--ion"] = meta_info['precursor_type']
+adduct = meta_info['precursor_type']
 else:
 if paramd["default_ion"]:
 paramd["cli"]["--ion"] = paramd["default_ion"]
+adduct = paramd["default_ion"]
 else:
 paramd["cli"]["--auto-charge"] = ''
 if 'precursor_mz' in meta_info and meta_info['precursor_mz']:
 paramd["cli"]["--precursor"] = meta_info['precursor_mz']
+if not ('precursor_type' in paramd['additional_details'] or 'adduct'
+in paramd['additional_details']):
+# If possible always good to have the adduct in output as a column
+paramd['additional_details']['adduct'] = adduct
 # ============== Create CLI cmd for metfrag ===============================
 cmd = "sirius --fingerid"
 for k, v in six.iteritems(paramd["cli"]):
 cmd += " {} {}".format(str(k), str(v))
 peaklist.append(save_line)
 elif plinesread and plinesread == pnumlines:
 # ======= Get sample name and additional details for output =======
-spectrac += 1
+if adducts_from_cli:
-paramd, cmd = run_sirius(meta_info, peaklist, args, wd, spectrac)
+for adduct in adducts_from_cli:
+print(adduct)
-paramds[paramd["SampleName"]] = paramd
+spectrac += 1
-cmds.append(cmd)
+meta_info['precursor_type'] = adduct
+paramd, cmd = run_sirius(meta_info, peaklist, args, wd,
+spectrac)
+paramds[paramd["SampleName"]] = paramd
+cmds.append(cmd)
+else:
+spectrac += 1
+paramd, cmd = run_sirius(meta_info, peaklist, args, wd,
+spectrac)
+paramds[paramd["SampleName"]] = paramd
+cmds.append(cmd)
 meta_info = {}
 pnumlines = 0
 plinesread = 0
 # end of file. Check if there is a MSP spectra to
 # run metfrag on still
 if plinesread and plinesread == pnumlines:
-paramd, cmd = run_sirius(meta_info, peaklist, args, wd, spectrac + 1)
+if adducts_from_cli:
+for adduct in adducts_from_cli:
-paramds[paramd["SampleName"]] = paramd
+print(adduct)
-cmds.append(cmd)
+spectrac += 1
+meta_info['precursor_type'] = adduct
+paramd, cmd = run_sirius(meta_info, peaklist, args, wd,
+spectrac)
+paramds[paramd["SampleName"]] = paramd
+cmds.append(cmd)
+else:
+spectrac += 1
+paramd, cmd = run_sirius(meta_info, peaklist, args, wd,
+spectrac)
+paramds[paramd["SampleName"]] = paramd
+cmds.append(cmd)
 # Perform multiprocessing on command line call level
 if int(args.cores_top_level) > 1:
 cmds_chunks = [cmds[x:x + int(args.chunks)]
 for x in list(range(0, len(cmds), int(args.chunks)))]
 reader = csv.DictReader(infile, delimiter='\t')
 ad = paramds[fn.split(os.sep)[-3]]['additional_details']
 for line in reader:
+if 0 < int(args.rank_filter) < int(line['rank']):
+# filter out those annotations greater than rank filter
+# If rank_filter is zero then skip
+continue
 line.update(ad)
 # round score to 5 d.p.
 line['score'] = round(float(line['score']), 5)
 dwriter.writerow(line)

Mercurial > repos > computational-metabolomics > sirius_csifingerid

comparison sirius_csifingerid.py @ 2:856b3761277d draft