chemfp: chemfp_clustering/butina_clustering.py annotate

annotate chemfp_clustering/butina_clustering.py @ 1:43a9e7d9b24f draft

planemo upload for repository https://github.com/bgruening/galaxytools/tree/master/chemicaltoolbox/chemfp commit a44c0a13283e873a740eabcad04f021208290dfe-dirty

author	bgruening
date	Sun, 01 Nov 2015 10:27:01 -0500
parents	354d3c6bb894
children

rev	line source
0 354d3c6bb894 Uploaded bgruening parents: diff changeset	1 #!/usr/bin/env python
354d3c6bb894 Uploaded bgruening parents: diff changeset	2 """
354d3c6bb894 Uploaded bgruening parents: diff changeset	3 Modified version of code examples from the chemfp project.
354d3c6bb894 Uploaded bgruening parents: diff changeset	4 http://code.google.com/p/chem-fingerprints/
354d3c6bb894 Uploaded bgruening parents: diff changeset	5 Thanks to Andrew Dalke of Andrew Dalke Scientific!
354d3c6bb894 Uploaded bgruening parents: diff changeset	6 """
354d3c6bb894 Uploaded bgruening parents: diff changeset	7
354d3c6bb894 Uploaded bgruening parents: diff changeset	8 import chemfp
354d3c6bb894 Uploaded bgruening parents: diff changeset	9 import sys
354d3c6bb894 Uploaded bgruening parents: diff changeset	10 import os
354d3c6bb894 Uploaded bgruening parents: diff changeset	11 import tempfile
354d3c6bb894 Uploaded bgruening parents: diff changeset	12 import argparse
354d3c6bb894 Uploaded bgruening parents: diff changeset	13 import subprocess
354d3c6bb894 Uploaded bgruening parents: diff changeset	14 from chemfp import search
354d3c6bb894 Uploaded bgruening parents: diff changeset	15
354d3c6bb894 Uploaded bgruening parents: diff changeset	16 def unix_sort(results):
354d3c6bb894 Uploaded bgruening parents: diff changeset	17 temp_unsorted = tempfile.NamedTemporaryFile(delete=False)
354d3c6bb894 Uploaded bgruening parents: diff changeset	18 for (i,indices) in enumerate( results.iter_indices() ):
354d3c6bb894 Uploaded bgruening parents: diff changeset	19 temp_unsorted.write('%s %s\n' % (len(indices), i))
354d3c6bb894 Uploaded bgruening parents: diff changeset	20 temp_unsorted.close()
354d3c6bb894 Uploaded bgruening parents: diff changeset	21 temp_sorted = tempfile.NamedTemporaryFile(delete=False)
354d3c6bb894 Uploaded bgruening parents: diff changeset	22 temp_sorted.close()
354d3c6bb894 Uploaded bgruening parents: diff changeset	23 p = subprocess.Popen(['sort', '-n', '-r', '-k', '1,1'], stdin=open(temp_unsorted.name), stdout=open(temp_sorted.name, 'w+'))
354d3c6bb894 Uploaded bgruening parents: diff changeset	24 stdout, stderr = p.communicate()
354d3c6bb894 Uploaded bgruening parents: diff changeset	25 return_code = p.returncode
354d3c6bb894 Uploaded bgruening parents: diff changeset	26
354d3c6bb894 Uploaded bgruening parents: diff changeset	27 if return_code:
354d3c6bb894 Uploaded bgruening parents: diff changeset	28 sys.stdout.write(stdout)
354d3c6bb894 Uploaded bgruening parents: diff changeset	29 sys.stderr.write(stderr)
354d3c6bb894 Uploaded bgruening parents: diff changeset	30 sys.stderr.write("Return error code %i from command:\n" % return_code)
354d3c6bb894 Uploaded bgruening parents: diff changeset	31 temp_sorted.close()
354d3c6bb894 Uploaded bgruening parents: diff changeset	32 os.remove(temp_unsorted.name)
354d3c6bb894 Uploaded bgruening parents: diff changeset	33
354d3c6bb894 Uploaded bgruening parents: diff changeset	34 for line in open(temp_sorted.name):
354d3c6bb894 Uploaded bgruening parents: diff changeset	35 size, fp_idx = line.strip().split()
354d3c6bb894 Uploaded bgruening parents: diff changeset	36 yield (int(size), int(fp_idx))
354d3c6bb894 Uploaded bgruening parents: diff changeset	37
354d3c6bb894 Uploaded bgruening parents: diff changeset	38 os.remove(temp_sorted.name)
354d3c6bb894 Uploaded bgruening parents: diff changeset	39
354d3c6bb894 Uploaded bgruening parents: diff changeset	40 def butina( args ):
354d3c6bb894 Uploaded bgruening parents: diff changeset	41 """
354d3c6bb894 Uploaded bgruening parents: diff changeset	42 Taylor-Butina clustering from the chemfp help.
354d3c6bb894 Uploaded bgruening parents: diff changeset	43 """
354d3c6bb894 Uploaded bgruening parents: diff changeset	44 out = args.output_path
354d3c6bb894 Uploaded bgruening parents: diff changeset	45 targets = chemfp.open( args.input_path, format='fps' )
354d3c6bb894 Uploaded bgruening parents: diff changeset	46 arena = chemfp.load_fingerprints( targets )
354d3c6bb894 Uploaded bgruening parents: diff changeset	47
354d3c6bb894 Uploaded bgruening parents: diff changeset	48 chemfp.set_num_threads( args.processors )
354d3c6bb894 Uploaded bgruening parents: diff changeset	49 results = search.threshold_tanimoto_search_symmetric(arena, threshold = args.tanimoto_threshold)
354d3c6bb894 Uploaded bgruening parents: diff changeset	50 results.reorder_all("move-closest-first")
354d3c6bb894 Uploaded bgruening parents: diff changeset	51
354d3c6bb894 Uploaded bgruening parents: diff changeset	52 sorted_ids = unix_sort(results)
354d3c6bb894 Uploaded bgruening parents: diff changeset	53
354d3c6bb894 Uploaded bgruening parents: diff changeset	54 # Determine the true/false singletons and the clusters
354d3c6bb894 Uploaded bgruening parents: diff changeset	55 true_singletons = []
354d3c6bb894 Uploaded bgruening parents: diff changeset	56 false_singletons = []
354d3c6bb894 Uploaded bgruening parents: diff changeset	57 clusters = []
354d3c6bb894 Uploaded bgruening parents: diff changeset	58
354d3c6bb894 Uploaded bgruening parents: diff changeset	59 seen = set()
354d3c6bb894 Uploaded bgruening parents: diff changeset	60 #for (size, fp_idx, members) in results:
354d3c6bb894 Uploaded bgruening parents: diff changeset	61 for (size, fp_idx) in sorted_ids:
354d3c6bb894 Uploaded bgruening parents: diff changeset	62 members = results[fp_idx].get_indices()
354d3c6bb894 Uploaded bgruening parents: diff changeset	63 #print arena.ids[ fp_idx ], [arena.ids[ m ] for m in members]
354d3c6bb894 Uploaded bgruening parents: diff changeset	64 if fp_idx in seen:
354d3c6bb894 Uploaded bgruening parents: diff changeset	65 # Can't use a centroid which is already assigned
354d3c6bb894 Uploaded bgruening parents: diff changeset	66 continue
354d3c6bb894 Uploaded bgruening parents: diff changeset	67 seen.add(fp_idx)
354d3c6bb894 Uploaded bgruening parents: diff changeset	68
354d3c6bb894 Uploaded bgruening parents: diff changeset	69 if size == 0:
354d3c6bb894 Uploaded bgruening parents: diff changeset	70 # The only fingerprint in the exclusion sphere is itself
354d3c6bb894 Uploaded bgruening parents: diff changeset	71 true_singletons.append( fp_idx )
354d3c6bb894 Uploaded bgruening parents: diff changeset	72 continue
354d3c6bb894 Uploaded bgruening parents: diff changeset	73
354d3c6bb894 Uploaded bgruening parents: diff changeset	74 # Figure out which ones haven't yet been assigned
354d3c6bb894 Uploaded bgruening parents: diff changeset	75 unassigned = set(members) - seen
354d3c6bb894 Uploaded bgruening parents: diff changeset	76
354d3c6bb894 Uploaded bgruening parents: diff changeset	77 if not unassigned:
354d3c6bb894 Uploaded bgruening parents: diff changeset	78 false_singletons.append(fp_idx)
354d3c6bb894 Uploaded bgruening parents: diff changeset	79 continue
354d3c6bb894 Uploaded bgruening parents: diff changeset	80
354d3c6bb894 Uploaded bgruening parents: diff changeset	81 # this is a new cluster
354d3c6bb894 Uploaded bgruening parents: diff changeset	82 clusters.append( (fp_idx, unassigned) )
354d3c6bb894 Uploaded bgruening parents: diff changeset	83 seen.update(unassigned)
354d3c6bb894 Uploaded bgruening parents: diff changeset	84
354d3c6bb894 Uploaded bgruening parents: diff changeset	85 len_cluster = len(clusters)
354d3c6bb894 Uploaded bgruening parents: diff changeset	86 #out.write( "#%s true singletons: %s\n" % ( len(true_singletons), " ".join(sorted(arena.ids[idx] for idx in true_singletons)) ) )
354d3c6bb894 Uploaded bgruening parents: diff changeset	87 #out.write( "#%s false singletons: %s\n" % ( len(false_singletons), " ".join(sorted(arena.ids[idx] for idx in false_singletons)) ) )
354d3c6bb894 Uploaded bgruening parents: diff changeset	88
354d3c6bb894 Uploaded bgruening parents: diff changeset	89 out.write( "#%s true singletons\n" % len(true_singletons) )
354d3c6bb894 Uploaded bgruening parents: diff changeset	90 out.write( "#%s false singletons\n" % len(false_singletons) )
354d3c6bb894 Uploaded bgruening parents: diff changeset	91 out.write( "#clusters: %s\n" % len_cluster )
354d3c6bb894 Uploaded bgruening parents: diff changeset	92
354d3c6bb894 Uploaded bgruening parents: diff changeset	93 # Sort so the cluster with the most compounds comes first,
354d3c6bb894 Uploaded bgruening parents: diff changeset	94 # then by alphabetically smallest id
354d3c6bb894 Uploaded bgruening parents: diff changeset	95 def cluster_sort_key(cluster):
354d3c6bb894 Uploaded bgruening parents: diff changeset	96 centroid_idx, members = cluster
354d3c6bb894 Uploaded bgruening parents: diff changeset	97 return -len(members), arena.ids[centroid_idx]
354d3c6bb894 Uploaded bgruening parents: diff changeset	98
354d3c6bb894 Uploaded bgruening parents: diff changeset	99 clusters.sort(key=cluster_sort_key)
354d3c6bb894 Uploaded bgruening parents: diff changeset	100
354d3c6bb894 Uploaded bgruening parents: diff changeset	101 for centroid_idx, members in clusters:
354d3c6bb894 Uploaded bgruening parents: diff changeset	102 centroid_name = arena.ids[centroid_idx]
354d3c6bb894 Uploaded bgruening parents: diff changeset	103 out.write("%s\t%s\t%s\n" % (centroid_name, len(members), " ".join(arena.ids[idx] for idx in members)))
354d3c6bb894 Uploaded bgruening parents: diff changeset	104 #ToDo: len(members) need to be some biggest top 90% or something ...
354d3c6bb894 Uploaded bgruening parents: diff changeset	105
354d3c6bb894 Uploaded bgruening parents: diff changeset	106 for idx in true_singletons:
354d3c6bb894 Uploaded bgruening parents: diff changeset	107 out.write("%s\t%s\n" % (arena.ids[idx], 0))
354d3c6bb894 Uploaded bgruening parents: diff changeset	108
354d3c6bb894 Uploaded bgruening parents: diff changeset	109 out.close()
354d3c6bb894 Uploaded bgruening parents: diff changeset	110
354d3c6bb894 Uploaded bgruening parents: diff changeset	111
354d3c6bb894 Uploaded bgruening parents: diff changeset	112 if __name__ == "__main__":
354d3c6bb894 Uploaded bgruening parents: diff changeset	113 parser = argparse.ArgumentParser(description="""Taylor-Butina clustering for fps files.
354d3c6bb894 Uploaded bgruening parents: diff changeset	114 For more details please see the original publication or the chemfp documentation:
354d3c6bb894 Uploaded bgruening parents: diff changeset	115 http://www.chemomine.co.uk/dbclus-paper.pdf
354d3c6bb894 Uploaded bgruening parents: diff changeset	116 https://chemfp.readthedocs.org
354d3c6bb894 Uploaded bgruening parents: diff changeset	117 """)
354d3c6bb894 Uploaded bgruening parents: diff changeset	118
354d3c6bb894 Uploaded bgruening parents: diff changeset	119 parser.add_argument("-i", "--input", dest="input_path",
354d3c6bb894 Uploaded bgruening parents: diff changeset	120 required=True,
354d3c6bb894 Uploaded bgruening parents: diff changeset	121 help="Path to the input file.")
354d3c6bb894 Uploaded bgruening parents: diff changeset	122
354d3c6bb894 Uploaded bgruening parents: diff changeset	123 parser.add_argument("-o", "--output", dest="output_path", type=argparse.FileType('w'),
354d3c6bb894 Uploaded bgruening parents: diff changeset	124 default=sys.stdout,
354d3c6bb894 Uploaded bgruening parents: diff changeset	125 help="Path to the output file.")
354d3c6bb894 Uploaded bgruening parents: diff changeset	126
354d3c6bb894 Uploaded bgruening parents: diff changeset	127 parser.add_argument("-t", "--threshold", dest="tanimoto_threshold", type=float,
354d3c6bb894 Uploaded bgruening parents: diff changeset	128 default=0.8,
354d3c6bb894 Uploaded bgruening parents: diff changeset	129 help="Tanimoto threshold [0.8]")
354d3c6bb894 Uploaded bgruening parents: diff changeset	130
354d3c6bb894 Uploaded bgruening parents: diff changeset	131 parser.add_argument('-p', '--processors', type=int,
354d3c6bb894 Uploaded bgruening parents: diff changeset	132 default=4)
354d3c6bb894 Uploaded bgruening parents: diff changeset	133
354d3c6bb894 Uploaded bgruening parents: diff changeset	134 options = parser.parse_args()
354d3c6bb894 Uploaded bgruening parents: diff changeset	135 butina( options )

Mercurial > repos > bgruening > chemfp

annotate chemfp_clustering/butina_clustering.py @ 1:43a9e7d9b24f draft