dgidb_annotator: dgidb_annotator.py comparison

comparison dgidb_annotator.py @ 3:c5bb987015c5 draft default tip

Uploaded

author	devteam
date	Fri, 07 Mar 2014 16:34:26 -0500
parents	792f3cb0eff4
children

comparison

equal deleted inserted replaced

-:792f3cb0eff4
+:c5bb987015c5
 '''
 Annotates a tabular file with information from the Drug-Gene Interaction (DGI) database.
 '''
-import optparse, json, urllib2, sys, re
+import optparse, json, urllib2, sys
 def __main__():
 # -- Parse command line. --
 parser = optparse.OptionParser()
 parser.add_option('-g', '--gene-name-col', dest='gene_name_col', help='column of gene names')
 if len(args) > 0:
 input_file = open(args[0], 'r')
 else:
 input_file = sys.stdin
-# -- Make connection and get results. --
+# -- Set up gene list queries. --
 # Get gene list.
 gene_list = []
 lines = []
 for line in input_file:
 # Some annotations may be of the form
 #    <gene_name>(<splicing_info>) or <gene_name>;<gene_name>(splicing_info)
 gene_list.append(entry.split(';')[0].split('(')[0])
 lines.append(line.strip())
+# Set up gene lists to be ~8K because this is near the max HTTP request length.
+gene_list = ','.join(set(gene_list))
+queries = []
+MAX_QUERY_SIZE = 8000
+if len(gene_list) > MAX_QUERY_SIZE:
+# Break queries.
+queries = [ gene_list[i:i + MAX_QUERY_SIZE] for i in range(0, len(gene_list), MAX_QUERY_SIZE) ]
+# Adjust queries to include whole genes.
+for i, query in enumerate( queries[1:] ):
+part_gene, comma, remainder = query.partition(',')
+queries[i] += part_gene
+queries[i+1] = remainder
+else:
+queries = [ gene_list ]
+# -- Query and process results. --
 # Query for results.
-query_str = 'http://dgidb.genome.wustl.edu/api/v1/interactions.json?genes=%s' % ','.join(set(gene_list))
+results = []
-if options.expert_curated:
+for genes in queries:
-query_str += '&source_trust_levels=Expert%20curated'
+query_str = 'http://dgidb.genome.wustl.edu/api/v1/interactions.json?genes=%s' % genes
-results = urllib2.urlopen(query_str).read()
+if options.expert_curated:
-results_dict = json.loads(results)
+query_str += '&source_trust_levels=Expert%20curated'
+raw_results = urllib2.urlopen(query_str).read()
+results_dict = json.loads(raw_results)
+results.extend(results_dict['matchedTerms'])
 # Process results.
-matched_results = results_dict['matchedTerms']
+for result in results:
-for result in matched_results:
 # Process result.
 processed_results = []
 result_fields = [ result['geneName'], result['geneLongName'], ','.join( result['geneCategories'] ) ]
 for interaction in result['interactions']:
 result_fields = result_fields[0:3]

Mercurial > repos > devteam > dgidb_annotator

comparison dgidb_annotator.py @ 3:c5bb987015c5 draft default tip