re_utils: cluster_table2krona

annotate cluster_table2krona_format.py @ 17:d14b68e9fd1d draft

Uploaded - new tools added

author	petr-novak
date	Wed, 28 Apr 2021 08:37:20 +0000
parents
children	2f1b5d5c5dd5

rev	line source
17 d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	1 #!/usr/bin/env python
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	2 import sys
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	3 import re
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	4 from collections import defaultdict
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	5 import argparse
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	6
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	7 parser = argparse.ArgumentParser()
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	8 parser.add_argument("-i" ,"--input", type=argparse.FileType('r'), help="path to file CLUSTER_table.csv")
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	9 parser.add_argument("-o" ,"--output", type=argparse.FileType('w'), help="output file name")
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	10 parser.add_argument("-m", "--use_manual", action='store_true', default=False)
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	11
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	12 args = parser.parse_args()
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	13
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	14 column = 6 if args.use_manual else 4
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	15
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	16
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	17 header = False
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	18 clust_info = {}
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	19 counts = defaultdict(lambda: 0)
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	20 top_clusters = 0
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	21 with open(args.input.name, 'r') as f:
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	22 for l in f:
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	23 parts = l.split()
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	24 if re.match('.*Cluster.+Supercluster.+Size.+Size_adjusted.+Automatic_annotation.+TAREAN_annotation.+Final_annotation', l):
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	25 print("header detected")
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	26 header = True
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	27 continue
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	28 if header:
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	29 classification = "Top_clusters\t" + "\t".join(parts[column].split("/")[1:]).replace('"','')
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	30 counts[classification] += int(parts[3])
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	31 top_clusters += int(parts[3])
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	32
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	33 elif len(parts) >= 2:
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	34 clust_info[parts[0].replace('"', '')] = int(parts[1])
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	35
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	36 counts['Singlets'] = clust_info['Number_of_singlets']
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	37 counts['Small_cluster'] = int(clust_info['Number_of_reads_in_clusters']) - top_clusters
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	38
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	39 with open(args.output.name, 'w') as fout:
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	40 for cls_line, nreads in counts.items():
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	41 fout.write(str(nreads) +"\t" + cls_line + "\n")
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	42
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	43
d14b68e9fd1d Uploaded - new tools added petr-novak parents: diff changeset	44

Mercurial > repos > petr-novak > re_utils

annotate cluster_table2krona_format.py @ 17:d14b68e9fd1d draft