chemical_data_sources: get_pubchem/get_pubchem

annotate get_pubchem/get_pubchem_assays.py @ 5:c2055dd1927b draft default tip

Uploaded

author	bgruening
date	Thu, 24 Apr 2014 13:19:33 -0400
parents
children

rev	line source
5 c2055dd1927b Uploaded bgruening parents: diff changeset	1 #!/usr/bin/env python
c2055dd1927b Uploaded bgruening parents: diff changeset	2
c2055dd1927b Uploaded bgruening parents: diff changeset	3 __author__ = 'Bjoern Gruening'
c2055dd1927b Uploaded bgruening parents: diff changeset	4 __version__ = '0.1'
c2055dd1927b Uploaded bgruening parents: diff changeset	5 __date__ = '2014'
c2055dd1927b Uploaded bgruening parents: diff changeset	6 __license__ = 'GLP3+'
c2055dd1927b Uploaded bgruening parents: diff changeset	7
c2055dd1927b Uploaded bgruening parents: diff changeset	8 import ftplib
c2055dd1927b Uploaded bgruening parents: diff changeset	9 import os, sys
c2055dd1927b Uploaded bgruening parents: diff changeset	10 import argparse
c2055dd1927b Uploaded bgruening parents: diff changeset	11 import subprocess
c2055dd1927b Uploaded bgruening parents: diff changeset	12 from multiprocessing import Pool
c2055dd1927b Uploaded bgruening parents: diff changeset	13 import tempfile
c2055dd1927b Uploaded bgruening parents: diff changeset	14 import shutil
c2055dd1927b Uploaded bgruening parents: diff changeset	15 import urllib
c2055dd1927b Uploaded bgruening parents: diff changeset	16 import zipfile
c2055dd1927b Uploaded bgruening parents: diff changeset	17 import gzip
c2055dd1927b Uploaded bgruening parents: diff changeset	18
c2055dd1927b Uploaded bgruening parents: diff changeset	19
c2055dd1927b Uploaded bgruening parents: diff changeset	20 PUBCHEM_URL = "ftp://ftp.ncbi.nlm.nih.gov/pubchem/Bioassay/CSV/Data/"
c2055dd1927b Uploaded bgruening parents: diff changeset	21
c2055dd1927b Uploaded bgruening parents: diff changeset	22 def main(output, processors = 4, white_list = ['Active','Inconclusive', 'Inactive']):
c2055dd1927b Uploaded bgruening parents: diff changeset	23 """
c2055dd1927b Uploaded bgruening parents: diff changeset	24 Starting multiple processes to download and extract PubChem Assay data.
c2055dd1927b Uploaded bgruening parents: diff changeset	25 """
c2055dd1927b Uploaded bgruening parents: diff changeset	26 td = tempfile.mkdtemp()
c2055dd1927b Uploaded bgruening parents: diff changeset	27 ftp = ftplib.FTP('ftp.ncbi.nih.gov')
c2055dd1927b Uploaded bgruening parents: diff changeset	28 ftp.login()
c2055dd1927b Uploaded bgruening parents: diff changeset	29 ftp.cwd( PUBCHEM_URL )
c2055dd1927b Uploaded bgruening parents: diff changeset	30 filelist = ftp.nlst()
c2055dd1927b Uploaded bgruening parents: diff changeset	31
c2055dd1927b Uploaded bgruening parents: diff changeset	32 pool = Pool(processes = processors)
c2055dd1927b Uploaded bgruening parents: diff changeset	33 triplestore = zip(filelist, [td]len(filelist), [white_list]len(filelist))
c2055dd1927b Uploaded bgruening parents: diff changeset	34
c2055dd1927b Uploaded bgruening parents: diff changeset	35 result = pool.map_async(fetch_convert, triplestore)
c2055dd1927b Uploaded bgruening parents: diff changeset	36 result.get()
c2055dd1927b Uploaded bgruening parents: diff changeset	37
c2055dd1927b Uploaded bgruening parents: diff changeset	38 with open(output,'w+') as output_handle:
c2055dd1927b Uploaded bgruening parents: diff changeset	39 for filename in os.listdir( td ):
c2055dd1927b Uploaded bgruening parents: diff changeset	40 path = os.path.join( td, filename )
c2055dd1927b Uploaded bgruening parents: diff changeset	41 shutil.copyfileobj(open(path, 'rb'), output_handle)
c2055dd1927b Uploaded bgruening parents: diff changeset	42
c2055dd1927b Uploaded bgruening parents: diff changeset	43 shutil.rmtree( td )
c2055dd1927b Uploaded bgruening parents: diff changeset	44
c2055dd1927b Uploaded bgruening parents: diff changeset	45 def fetch_convert(args):
c2055dd1927b Uploaded bgruening parents: diff changeset	46 (filename, td, white_list) = args
c2055dd1927b Uploaded bgruening parents: diff changeset	47 tmp_name = os.path.join( td, filename)
c2055dd1927b Uploaded bgruening parents: diff changeset	48 urllib.urlretrieve(os.path.join(PUBCHEM_URL, filename), tmp_name)
c2055dd1927b Uploaded bgruening parents: diff changeset	49
c2055dd1927b Uploaded bgruening parents: diff changeset	50 temp_dir = tempfile.mkdtemp()
c2055dd1927b Uploaded bgruening parents: diff changeset	51 with zipfile.ZipFile(tmp_name, "r") as z:
c2055dd1927b Uploaded bgruening parents: diff changeset	52 z.extractall(temp_dir)
c2055dd1927b Uploaded bgruening parents: diff changeset	53
c2055dd1927b Uploaded bgruening parents: diff changeset	54 output = os.path.join(td, filename) + '.tsv'
c2055dd1927b Uploaded bgruening parents: diff changeset	55 with open(output, 'w+') as out_handle:
c2055dd1927b Uploaded bgruening parents: diff changeset	56 for root, dirs, files in os.walk( temp_dir ):
c2055dd1927b Uploaded bgruening parents: diff changeset	57 for filename in files:
c2055dd1927b Uploaded bgruening parents: diff changeset	58 # filename encodes the assay_id, it looks like 1.csv.gz
c2055dd1927b Uploaded bgruening parents: diff changeset	59 # extract the assay id and insert it as column one
c2055dd1927b Uploaded bgruening parents: diff changeset	60 assay_id = filename.split('.', 1)
c2055dd1927b Uploaded bgruening parents: diff changeset	61 gzfile_path = os.path.join( root, filename )
c2055dd1927b Uploaded bgruening parents: diff changeset	62 with gzip.open(gzfile_path, 'rb') as gzfile:
c2055dd1927b Uploaded bgruening parents: diff changeset	63 gzfile.readline() # skip first line
c2055dd1927b Uploaded bgruening parents: diff changeset	64 for line in gzfile:
c2055dd1927b Uploaded bgruening parents: diff changeset	65 cols = line.split(',')
c2055dd1927b Uploaded bgruening parents: diff changeset	66 PUBCHEM_ACTIVITY_OUTCOME = cols[2]
c2055dd1927b Uploaded bgruening parents: diff changeset	67 cols = line.pop(4) # removing the URL column
c2055dd1927b Uploaded bgruening parents: diff changeset	68 cols.insert(0, assay_id) # insert assay_id as first column
c2055dd1927b Uploaded bgruening parents: diff changeset	69 if PUBCHEM_ACTIVITY_OUTCOME in white_list:
c2055dd1927b Uploaded bgruening parents: diff changeset	70 out_handle.write( '%s' % line.replace(',', '\t') )
c2055dd1927b Uploaded bgruening parents: diff changeset	71 os.remove(tmp_name)
c2055dd1927b Uploaded bgruening parents: diff changeset	72
c2055dd1927b Uploaded bgruening parents: diff changeset	73
c2055dd1927b Uploaded bgruening parents: diff changeset	74 if __name__ == '__main__':
c2055dd1927b Uploaded bgruening parents: diff changeset	75 parser = argparse.ArgumentParser(description='Download the whole PubChem and converts it to canonical SMILES on the fly.')
c2055dd1927b Uploaded bgruening parents: diff changeset	76 parser.add_argument("-o", "--output", dest="output",
c2055dd1927b Uploaded bgruening parents: diff changeset	77 required=True,
c2055dd1927b Uploaded bgruening parents: diff changeset	78 help="Path to the output file.")
c2055dd1927b Uploaded bgruening parents: diff changeset	79 parser.add_argument("-p", "--processors", dest="processors",
c2055dd1927b Uploaded bgruening parents: diff changeset	80 type=int, default=10,
c2055dd1927b Uploaded bgruening parents: diff changeset	81 help="How many processors you want to use.")
c2055dd1927b Uploaded bgruening parents: diff changeset	82 parser.add_argument("-w", "--white-list", dest="white_list",
c2055dd1927b Uploaded bgruening parents: diff changeset	83 default="Active,Inconclusive,Inactive",
c2055dd1927b Uploaded bgruening parents: diff changeset	84 help="List of comma separated PUBCHEM_ACTIVITY_OUTCOME values that should be fetched.")
c2055dd1927b Uploaded bgruening parents: diff changeset	85
c2055dd1927b Uploaded bgruening parents: diff changeset	86 options = parser.parse_args()
c2055dd1927b Uploaded bgruening parents: diff changeset	87 main( options.output, options.processors, options.white_list.split(',') )
c2055dd1927b Uploaded bgruening parents: diff changeset	88

Mercurial > repos > bgruening > chemical_data_sources

annotate get_pubchem/get_pubchem_assays.py @ 5:c2055dd1927b draft default tip