dante: dante_gff_output_filtering.py annotate

annotate dante_gff_output_filtering.py @ 15:3151a72a6671 draft

Uploaded

author	petr-novak
date	Tue, 03 Sep 2019 05:20:02 -0400
parents	77d9f2ecb28a
children	1a766f9f623d

rev	line source
0 77d9f2ecb28a Uploaded petr-novak parents: diff changeset	1 #!/usr/bin/env python3
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	2
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	3 import time
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	4 import configuration
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	5 import os
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	6 import textwrap
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	7 import subprocess
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	8 from tempfile import NamedTemporaryFile
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	9 from collections import defaultdict
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	10
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	11
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	12 class Range():
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	13 '''
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	14 This class is used to check float range in argparse
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	15 '''
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	16
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	17 def __init__(self, start, end):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	18 self.start = start
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	19 self.end = end
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	20
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	21 def __eq__(self, other):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	22 return self.start <= other <= self.end
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	23
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	24 def __str__(self):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	25 return "float range {}..{}".format(self.start, self.end)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	26
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	27 def __repr__(self):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	28 return "float range {}..{}".format(self.start, self.end)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	29
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	30
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	31 def check_file_start(gff_file):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	32 count_comment = 0
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	33 with open(gff_file, "r") as gff_all:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	34 line = gff_all.readline()
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	35 while line.startswith("#"):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	36 line = gff_all.readline()
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	37 count_comment += 1
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	38 return count_comment
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	39
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	40
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	41 def write_info(filt_dom_tmp, FILT_DOM_GFF, orig_class_dict, filt_class_dict,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	42 dom_dict, version_lines):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	43 '''
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	44 Write domains statistics in beginning of filtered GFF
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	45 '''
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	46 with open(FILT_DOM_GFF, "w") as filt_gff:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	47 for line in version_lines:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	48 filt_gff.write(line)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	49 filt_gff.write("##CLASSIFICATION\tORIGINAL_COUNTS\tFILTERED_COUNTS\n")
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	50 if not orig_class_dict:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	51 filt_gff.write("##NO DOMAINS CLASSIFICATIONS\n")
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	52 for classification in sorted(orig_class_dict.keys()):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	53 if classification in filt_class_dict.keys():
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	54 filt_gff.write("##{}\t{}\t{}\n".format(
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	55 classification, orig_class_dict[
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	56 classification], filt_class_dict[classification]))
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	57 else:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	58 filt_gff.write("##{}\t{}\t{}\n".format(
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	59 classification, orig_class_dict[classification], 0))
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	60 filt_gff.write("##-----------------------------------------------\n"
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	61 "##SEQ\tDOMAIN\tCOUNTS\n")
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	62 if not dom_dict:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	63 filt_gff.write("##NO DOMAINS\n")
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	64 for seq in sorted(dom_dict.keys()):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	65 for dom, count in sorted(dom_dict[seq].items()):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	66 filt_gff.write("##{}\t{}\t{}\n".format(seq, dom, count))
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	67 filt_gff.write("##-----------------------------------------------\n")
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	68 with open(filt_dom_tmp.name, "r") as filt_tmp:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	69 for line in filt_tmp:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	70 filt_gff.write(line)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	71
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	72
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	73 def get_file_start(gff_file):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	74 count_comment = 0
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	75 lines = []
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	76 with open(gff_file, "r") as gff_all:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	77 line = gff_all.readline()
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	78 while line.startswith("#"):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	79 lines.append(line)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	80 line = gff_all.readline()
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	81 count_comment += 1
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	82 return count_comment, lines
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	83
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	84
15 3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	85 def parse_gff_line(line):
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	86 '''Return dictionary with gff fields and atributers
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	87 Note - type of fields is strings
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	88 '''
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	89 # order of first 9 column is fixed
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	90 gff_line = dict(
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	91 zip(
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	92 ['seqid', 'source', 'type', 'start', 'end',
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	93 'score', 'strand', 'phase', 'attributes'],
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	94 line.split("\t")
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	95 )
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	96 )
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	97 # split attributes and replace:
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	98 gff_line['attributes'] = dict([i.split("=") for i in gff_line['attributes'].split(";")])
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	99 return gff_line
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	100
0 77d9f2ecb28a Uploaded petr-novak parents: diff changeset	101 def filter_qual_dom(DOM_GFF, FILT_DOM_GFF, TH_IDENTITY, TH_SIMILARITY,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	102 TH_LENGTH, TH_INTERRUPT, TH_LEN_RATIO, SELECTED_DOM,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	103 ELEMENT):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	104 ''' Filter gff output based on domain and quality of alignment '''
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	105 [count_comment, version_lines] = get_file_start(DOM_GFF)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	106 filt_dom_tmp = NamedTemporaryFile(delete=False)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	107 with open(DOM_GFF, "r") as gff_all, open(filt_dom_tmp.name,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	108 "w") as gff_filtered:
15 3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	109 for _ in range(count_comment):
0 77d9f2ecb28a Uploaded petr-novak parents: diff changeset	110 next(gff_all)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	111 dom_dict = defaultdict(lambda: defaultdict(int))
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	112 orig_class_dict = defaultdict(int)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	113 filt_class_dict = defaultdict(int)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	114 seq_ids_all = []
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	115 xminimals = []
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	116 xmaximals = []
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	117 domains = []
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	118 xminimals_all = []
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	119 xmaximals_all = []
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	120 domains_all = []
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	121 start = True
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	122 for line in gff_all:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	123 attributes = line.rstrip().split("\t")[-1]
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	124 classification = attributes.split(";")[1].split("=")[1]
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	125 orig_class_dict[classification] += 1
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	126 ## ambiguous domains filtered out automatically
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	127 if classification != configuration.AMBIGUOUS_TAG:
15 3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	128 gff_line = parse_gff_line(line)
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	129 al_identity = float(gff_line['attributes']['Identity'])
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	130 al_similarity = float(gff_line['attributes']['Similarity'])
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	131 al_length = float(gff_line['attributes']['Relat_Length'])
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	132 relat_interrupt = float(gff_line['attributes']['Relat_Interruptions'])
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	133 db_len_proportion = float(gff_line['attributes']['Hit_to_DB_Length'])
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	134 dom_type = gff_line['attributes']['Final_Classification']
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	135 seq_id = gff_line['seqid']
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	136 xminimal = int(gff_line['start'])
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	137 xmaximal = int(gff_line['end'])
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	138 c1 = al_identity >= TH_IDENTITY
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	139 c2 = al_similarity >= TH_SIMILARITY
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	140 if (c1 and c2 and al_length >= TH_LENGTH and relat_interrupt <= TH_INTERRUPT and
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	141 db_len_proportion <= TH_LEN_RATIO and
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	142 (dom_type == SELECTED_DOM or SELECTED_DOM == "All") and
3151a72a6671 Uploaded petr-novak parents: 0 diff changeset	143 (ELEMENT in classification)):
0 77d9f2ecb28a Uploaded petr-novak parents: diff changeset	144 gff_filtered.writelines(line)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	145 filt_class_dict[classification] += 1
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	146 dom_dict[seq_id][dom_type] += 1
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	147 if start:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	148 seq_ids_all.append(line.split("\t")[0])
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	149 start = False
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	150 if seq_id != seq_ids_all[-1]:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	151 seq_ids_all.append(seq_id)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	152 xminimals_all.append(xminimals)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	153 xmaximals_all.append(xmaximals)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	154 domains_all.append(domains)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	155 xminimals = []
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	156 xmaximals = []
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	157 domains = []
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	158 xminimals.append(xminimal)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	159 xmaximals.append(xmaximal)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	160 domains.append(dom_type)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	161 path = os.path.dirname(os.path.realpath(__file__))
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	162 write_info(filt_dom_tmp, FILT_DOM_GFF, orig_class_dict, filt_class_dict,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	163 dom_dict, version_lines)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	164 os.unlink(filt_dom_tmp.name)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	165 xminimals_all.append(xminimals)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	166 xmaximals_all.append(xmaximals)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	167 domains_all.append(domains)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	168 return xminimals_all, xmaximals_all, domains_all, seq_ids_all
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	169
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	170
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	171 def get_domains_protseq(FILT_DOM_GFF, DOMAIN_PROT_SEQ):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	172 ''' Get the translated protein sequence of original DNA seq for all the filtered domains regions
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	173 The translated sequences are taken from alignment reported by LASTAL (Query_Seq attribute in GFF)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	174 '''
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	175 count_comment = check_file_start(FILT_DOM_GFF)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	176 with open(FILT_DOM_GFF, "r") as filt_gff:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	177 for comment_idx in range(count_comment):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	178 next(filt_gff)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	179 with open(DOMAIN_PROT_SEQ, "w") as dom_prot_file:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	180 for line in filt_gff:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	181 attributes = line.rstrip().split("\t")[8]
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	182 positions = attributes.split(";")[3].split("=")[1].split(":")[
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	183 -1].split("[")[0]
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	184 dom = attributes.split(";")[0].split("=")[1]
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	185 dom_class = attributes.split(";")[1].split("=")[1]
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	186 seq_id = line.rstrip().split("\t")[0]
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	187 prot_seq_align = line.rstrip().split("\t")[8].split(";")[
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	188 6].split("=")[1]
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	189 prot_seq = prot_seq_align.translate({ord(i): None
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	190 for i in '/\\-'})
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	191 header_prot_seq = ">{}:{} {} {}".format(seq_id, positions, dom,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	192 dom_class)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	193 dom_prot_file.write("{}\n{}\n".format(
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	194 header_prot_seq, textwrap.fill(prot_seq,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	195 configuration.FASTA_LINE)))
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	196
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	197
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	198 def main(args):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	199
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	200 t = time.time()
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	201
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	202 DOM_GFF = args.dom_gff
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	203 DOMAIN_PROT_SEQ = args.domains_prot_seq
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	204 TH_IDENTITY = args.th_identity
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	205 TH_LENGTH = args.th_length
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	206 TH_INTERRUPT = args.interruptions
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	207 TH_SIMILARITY = args.th_similarity
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	208 TH_LEN_RATIO = args.max_len_proportion
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	209 FILT_DOM_GFF = args.domains_filtered
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	210 SELECTED_DOM = args.selected_dom
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	211 OUTPUT_DIR = args.output_dir
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	212 # DELETE : ELEMENT = args.element_type.replace("_pipe_", "\|")
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	213 ELEMENT = args.element_type
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	214
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	215 if DOMAIN_PROT_SEQ is None:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	216 DOMAIN_PROT_SEQ = configuration.DOM_PROT_SEQ
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	217 if FILT_DOM_GFF is None:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	218 FILT_DOM_GFF = configuration.FILT_DOM_GFF
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	219
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	220 if OUTPUT_DIR and not os.path.exists(OUTPUT_DIR):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	221 os.makedirs(OUTPUT_DIR)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	222
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	223 if not os.path.isabs(FILT_DOM_GFF):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	224 if OUTPUT_DIR is None:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	225 OUTPUT_DIR = os.path.dirname(os.path.abspath(DOM_GFF))
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	226 FILT_DOM_GFF = os.path.join(OUTPUT_DIR, os.path.basename(FILT_DOM_GFF))
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	227 DOMAIN_PROT_SEQ = os.path.join(OUTPUT_DIR,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	228 os.path.basename(DOMAIN_PROT_SEQ))
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	229
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	230 [xminimals_all, xmaximals_all, domains_all, seq_ids_all] = filter_qual_dom(
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	231 DOM_GFF, FILT_DOM_GFF, TH_IDENTITY, TH_SIMILARITY, TH_LENGTH,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	232 TH_INTERRUPT, TH_LEN_RATIO, SELECTED_DOM, ELEMENT)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	233 get_domains_protseq(FILT_DOM_GFF, DOMAIN_PROT_SEQ)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	234
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	235 print("ELAPSED_TIME_DOMAINS = {} s".format(time.time() - t))
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	236
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	237
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	238 if __name__ == "__main__":
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	239 import argparse
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	240 from argparse import RawDescriptionHelpFormatter
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	241
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	242 class CustomFormatter(argparse.ArgumentDefaultsHelpFormatter,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	243 argparse.RawDescriptionHelpFormatter):
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	244 pass
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	245
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	246 parser = argparse.ArgumentParser(
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	247 description=
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	248 '''The script performs DANTE's output filtering for quality and/or extracting specific type of protein domain or mobile elements of origin. For the filtered domains it reports their translated protein sequence of original DNA.
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	249 WHEN NO PARAMETERS GIVEN, IT PERFORMS QUALITY FILTERING USING THE DEFAULT PARAMETRES (optimized for Viridiplantae species)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	250
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	251 INPUTS:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	252 - GFF3 file produced by protein_domains.py OR already filtered GFF3
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	253
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	254 FILTERING OPTIONS:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	255 > QUALITY: - Min relative length of alignemnt to the protein domain from DB (without gaps)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	256 - Identity
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	257 - Similarity (scoring matrix: BLOSUM82)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	258 - Interruption in the reading frame (frameshifts + stop codons) per every starting 100 AA
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	259 - Max alignment proportion to the original length of database domain sequence
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	260 > DOMAIN TYPE: choose from choices ('Name' attribute in GFF)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	261 Records for ambiguous domain type (e.g. INT/RH) are filtered out automatically
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	262
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	263 > MOBILE ELEMENT TYPE:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	264 arbitrary substring of the element classification ('Final_Classification' attribute in GFF)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	265
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	266 OUTPUTS:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	267 - filtered GFF3 file
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	268 - fasta file of translated protein sequences (from original DNA) for the aligned domains that match the filtering criteria
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	269
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	270 DEPENDENCIES:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	271 - python 3.4 or higher
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	272 > ProfRep modules:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	273 - configuration.py
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	274
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	275 EXAMPLE OF USAGE:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	276 Getting quality filtered integrase(INT) domains of all gypsy transposable elements:
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	277 ./domains_filtering.py -dom_gff PATH_TO_INPUT_GFF -pdb PATH_TO_PROTEIN_DB -cs PATH_TO_CLASSIFICATION_FILE --selected_dom INT --element_type Ty3/gypsy
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	278
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	279 ''',
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	280 epilog="""""",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	281 formatter_class=CustomFormatter)
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	282 requiredNamed = parser.add_argument_group('required named arguments')
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	283 requiredNamed.add_argument("-dg",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	284 "--dom_gff",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	285 type=str,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	286 required=True,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	287 help="basic unfiltered gff file of all domains")
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	288 parser.add_argument("-ouf",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	289 "--domains_filtered",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	290 type=str,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	291 help="output filtered domains gff file")
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	292 parser.add_argument("-dps",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	293 "--domains_prot_seq",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	294 type=str,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	295 help="output file containg domains protein sequences")
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	296 parser.add_argument("-thl",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	297 "--th_length",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	298 type=float,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	299 choices=[Range(0.0, 1.0)],
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	300 default=0.8,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	301 help="proportion of alignment length threshold")
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	302 parser.add_argument("-thi",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	303 "--th_identity",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	304 type=float,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	305 choices=[Range(0.0, 1.0)],
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	306 default=0.35,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	307 help="proportion of alignment identity threshold")
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	308 parser.add_argument("-ths",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	309 "--th_similarity",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	310 type=float,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	311 choices=[Range(0.0, 1.0)],
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	312 default=0.45,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	313 help="threshold for alignment proportional similarity")
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	314 parser.add_argument(
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	315 "-ir",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	316 "--interruptions",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	317 type=int,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	318 default=3,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	319 help=
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	320 "interruptions (frameshifts + stop codons) tolerance threshold per 100 AA")
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	321 parser.add_argument(
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	322 "-mlen",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	323 "--max_len_proportion",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	324 type=float,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	325 default=1.2,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	326 help=
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	327 "maximal proportion of alignment length to the original length of protein domain from database")
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	328 parser.add_argument(
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	329 "-sd",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	330 "--selected_dom",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	331 type=str,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	332 default="All",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	333 choices=[
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	334 "All", "GAG", "INT", "PROT", "RH", "RT", "aRH", "CHDCR", "CHDII",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	335 "TPase", "YR", "HEL1", "HEL2", "ENDO"
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	336 ],
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	337 help="filter output domains based on the domain type")
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	338 parser.add_argument(
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	339 "-el",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	340 "--element_type",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	341 type=str,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	342 default="",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	343 help="filter output domains by typing substring from classification")
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	344 parser.add_argument(
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	345 "-dir",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	346 "--output_dir",
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	347 type=str,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	348 default=None,
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	349 help="specify if you want to change the output directory")
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	350 args = parser.parse_args()
77d9f2ecb28a Uploaded petr-novak parents: diff changeset	351 main(args)

Mercurial > repos > petr-novak > dante

annotate dante_gff_output_filtering.py @ 15:3151a72a6671 draft