fibronectin: fibronectin/fibronectin.py annotate

annotate fibronectin/fibronectin.py @ 0:0c6cfb9906f3 draft default tip

Uploaded

author	cbib
date	Wed, 10 Nov 2021 15:15:50 +0000
parents
children

rev	line source
0 0c6cfb9906f3 Uploaded cbib parents: diff changeset	1 #!/usr/bin/env python
0c6cfb9906f3 Uploaded cbib parents: diff changeset	2 # title :fibronectin.py
0c6cfb9906f3 Uploaded cbib parents: diff changeset	3 # description :This script will analyze fasta files, look for restriction sites, cut the sequences around the restriction sites, translate the nucleic sequences into amino acids sequences.
0c6cfb9906f3 Uploaded cbib parents: diff changeset	4 # author :Fabienne Wong Jun Tai
0c6cfb9906f3 Uploaded cbib parents: diff changeset	5 # date :20121107
0c6cfb9906f3 Uploaded cbib parents: diff changeset	6 # version :1.0
0c6cfb9906f3 Uploaded cbib parents: diff changeset	7 # usage :python fibronectin.py -i file.fasta -o /output/dir/ -p pattern -5 seq_restric_5'-3 seq_restric_3'
0c6cfb9906f3 Uploaded cbib parents: diff changeset	8 # notes :
0c6cfb9906f3 Uploaded cbib parents: diff changeset	9 # python_version :3.7.11
0c6cfb9906f3 Uploaded cbib parents: diff changeset	10 # biopython_max_version :1.72
0c6cfb9906f3 Uploaded cbib parents: diff changeset	11 # ==============================================================================
0c6cfb9906f3 Uploaded cbib parents: diff changeset	12 import math
0c6cfb9906f3 Uploaded cbib parents: diff changeset	13 import matplotlib
0c6cfb9906f3 Uploaded cbib parents: diff changeset	14 import numpy
0c6cfb9906f3 Uploaded cbib parents: diff changeset	15 import re
0c6cfb9906f3 Uploaded cbib parents: diff changeset	16 import subprocess
0c6cfb9906f3 Uploaded cbib parents: diff changeset	17 import matplotlib.pyplot as plot
0c6cfb9906f3 Uploaded cbib parents: diff changeset	18 from args import *
0c6cfb9906f3 Uploaded cbib parents: diff changeset	19 from Bio import SeqIO, Seq
0c6cfb9906f3 Uploaded cbib parents: diff changeset	20 from Bio.SubsMat import MatrixInfo as matlist
0c6cfb9906f3 Uploaded cbib parents: diff changeset	21 from Bio import pairwise2
0c6cfb9906f3 Uploaded cbib parents: diff changeset	22 from Bio.pairwise2 import format_alignment
0c6cfb9906f3 Uploaded cbib parents: diff changeset	23 matplotlib.use('Agg')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	24
0c6cfb9906f3 Uploaded cbib parents: diff changeset	25 args = Args()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	26 print(sys.path[0])
0c6cfb9906f3 Uploaded cbib parents: diff changeset	27 # Variables initialization
0c6cfb9906f3 Uploaded cbib parents: diff changeset	28 fibronectin_script_dir = sys.path[0]
0c6cfb9906f3 Uploaded cbib parents: diff changeset	29 print(fibronectin_script_dir)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	30 directory = args.output_dir
0c6cfb9906f3 Uploaded cbib parents: diff changeset	31 mcl_file = directory + "mcl.in"
0c6cfb9906f3 Uploaded cbib parents: diff changeset	32 mcl_output = directory + "mcl.out"
0c6cfb9906f3 Uploaded cbib parents: diff changeset	33 html_file = directory + "fibronectin_report.html"
0c6cfb9906f3 Uploaded cbib parents: diff changeset	34 graph_pic = directory + "distri.png"
0c6cfb9906f3 Uploaded cbib parents: diff changeset	35 input_file = os.path.basename(args.input)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	36 site_res_5 = args.site_res_5
0c6cfb9906f3 Uploaded cbib parents: diff changeset	37 site_res_3 = args.site_res_3
0c6cfb9906f3 Uploaded cbib parents: diff changeset	38 tag = {'mut': [], 'ok_stop_ext': [], 'stop': [], 'no_restric': [], 'no_multiple': [], 'amber': []}
0c6cfb9906f3 Uploaded cbib parents: diff changeset	39 all_seq = []
0c6cfb9906f3 Uploaded cbib parents: diff changeset	40 all_seq_fasta = {} # dictionnary that will store information about all the sequences
0c6cfb9906f3 Uploaded cbib parents: diff changeset	41 good_seq = {} # dictionnary that will store information about the valid sequences
0c6cfb9906f3 Uploaded cbib parents: diff changeset	42 identical_clones = {}
0c6cfb9906f3 Uploaded cbib parents: diff changeset	43 var_seq_common = {} # dictionnary that will store the number of sequences that share the same variable parts
0c6cfb9906f3 Uploaded cbib parents: diff changeset	44 align_scores = []
0c6cfb9906f3 Uploaded cbib parents: diff changeset	45 nb_var_part = 0
0c6cfb9906f3 Uploaded cbib parents: diff changeset	46
0c6cfb9906f3 Uploaded cbib parents: diff changeset	47
0c6cfb9906f3 Uploaded cbib parents: diff changeset	48 def reverse_complement(seq):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	49 # Generate the reverse complement
0c6cfb9906f3 Uploaded cbib parents: diff changeset	50 complement_nuc = {'A': 'T', 'T': 'A', 'G': 'C', 'C': 'G'}
0c6cfb9906f3 Uploaded cbib parents: diff changeset	51 rev_com = ""
0c6cfb9906f3 Uploaded cbib parents: diff changeset	52 for n in (seq[::-1]):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	53 rev_com += complement_nuc[n]
0c6cfb9906f3 Uploaded cbib parents: diff changeset	54 return rev_com
0c6cfb9906f3 Uploaded cbib parents: diff changeset	55
0c6cfb9906f3 Uploaded cbib parents: diff changeset	56
0c6cfb9906f3 Uploaded cbib parents: diff changeset	57 def generate_aln(seq_dic, ids):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	58 # Multiple Sequence Alignment via ClustalO
0c6cfb9906f3 Uploaded cbib parents: diff changeset	59 input = ''
0c6cfb9906f3 Uploaded cbib parents: diff changeset	60 for k in ids:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	61 input += '>%s\n%s\n' % (k, re.sub("(.{80})", "\\1\n", seq_dic[k]['prot'], re.DOTALL))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	62 p = subprocess.Popen("clustalo -i - --outfmt clu", shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE, stdin=subprocess.PIPE, universal_newlines=True)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	63 aln_out, aln_err = p.communicate(input=input)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	64 print(type(aln_out))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	65 return aln_out
0c6cfb9906f3 Uploaded cbib parents: diff changeset	66
0c6cfb9906f3 Uploaded cbib parents: diff changeset	67
0c6cfb9906f3 Uploaded cbib parents: diff changeset	68 def report_html(html_file, tag, all_seq, good_seq, all_seq_fasta, identical_clones, nb_var_part, var_seq_common, align_scores, args):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	69 # Generate the html file for the report
0c6cfb9906f3 Uploaded cbib parents: diff changeset	70 all_seq.sort()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	71 no_restric = tag['no_restric']
0c6cfb9906f3 Uploaded cbib parents: diff changeset	72 no_restric.sort()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	73 no_multiple = tag['no_multiple']
0c6cfb9906f3 Uploaded cbib parents: diff changeset	74 no_multiple.sort()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	75 stop = tag['stop']
0c6cfb9906f3 Uploaded cbib parents: diff changeset	76 stop.sort()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	77 amber = tag['amber']
0c6cfb9906f3 Uploaded cbib parents: diff changeset	78 amber.sort()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	79 mut = tag['mut']
0c6cfb9906f3 Uploaded cbib parents: diff changeset	80 mut.sort()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	81 # good_ids = good_seq.keys()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	82
0c6cfb9906f3 Uploaded cbib parents: diff changeset	83 good_seq = dict(sorted(good_seq.items()))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	84 good_ids = good_seq.keys()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	85
0c6cfb9906f3 Uploaded cbib parents: diff changeset	86 # good_ids.sort()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	87
0c6cfb9906f3 Uploaded cbib parents: diff changeset	88 w = open(html_file, 'w')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	89 w.write(
0c6cfb9906f3 Uploaded cbib parents: diff changeset	90 '<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN""http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"><html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en"><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><title>Fibronectin Report</title><link href="http://twitter.github.com/bootstrap/assets/css/bootstrap.css" rel="stylesheet" /><style type="text/css">body {padding-top: 40px;}.subhead {padding: 40px 0;}.subhead h1 {font-size: 60px;}.fasta { font-family: Monaco, Menlo, Consolas, "Courier New", monospace; font-size: 12px;}code.grey{color: #636D71;}</style></head><body><a id="top"></a><div class="navbar navbar-fixed-top"><div class="navbar-inner"><div class="container"><a class="brand" href="#top">Fibronectin Report</a><div class="nav-collapse collapse"><ul class="nav"><li><a href="#input">Input data</a></li><li><a href="#analysis">Sequences analysis</a></li><li><a href="#variable">Variable regions analysis</a></li><li><a href="#cluster">Clustering</a></li><li><a href="#stat">Statistics</a></li><li><a href="#annex">Annex</a></li></ul></div></div></div></div><div class="container-fluid"><header class="subhead"><h1>Fibronectin Report</h1></header><div class="page-header"><a id="input"></a><h2>Input data</h2></div>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	91 # Input data
0c6cfb9906f3 Uploaded cbib parents: diff changeset	92 w.write(
0c6cfb9906f3 Uploaded cbib parents: diff changeset	93 '<p>Input file:<br/><code class="grey">%s</code></p><p>Number of sequences in input file:<br/><code class="grey">%d</code></p><p>Pattern of the sequence bank:<br/><code class="grey">%s</code></p><p>5\' restriction site:<br/><code class="grey">%s</code></p><p>3\' restriction site:<br/><code class="grey">%s</code></p>' % (
0c6cfb9906f3 Uploaded cbib parents: diff changeset	94 input_file, len(all_seq), args.pattern, args.site_res_5, args.site_res_3))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	95 # Sequence analysis
0c6cfb9906f3 Uploaded cbib parents: diff changeset	96 w.write(
0c6cfb9906f3 Uploaded cbib parents: diff changeset	97 '<div class="page-header"><a id="analysis"></a><h2>Sequences analysis</h2></div><p>Caption:</p><ul><li class="text-success">Valid sequences that will be part of the next analysis </li><li class="text-warning">Good sequences but will not be part of the next analysis</li><li class="text-error">Rejected sequences</li></ul><table class="table table-striped table-bordered"><tr><th class="text-error">Absence of restriction sites</th><th class="text-error">Incorrect number of nucleotides between the restriction sites</th><th class="text-error">Stop codon <u>inside</u> the area of interest</th><th class="text-warning">Mutation in the conserved regions</th><th class="text-success">Valid sequences</th><th>Amber codon in the sequence (<u>inside</u> the area of interest)</th></tr>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	98 w.write(
0c6cfb9906f3 Uploaded cbib parents: diff changeset	99 '<tr><td class="text-error">%d sequence(s) (%.2f%%)</td><td class="text-error">%d sequence(s) (%.2f%%)</td><td class="text-error">%d sequence(s) (%.2f%%)</td><td class="text-warning">%d sequence(s) (%.2f%%)</td><td class="text-success">%d sequence(s) (%.2f%%)</td><td>%d sequence(s)</td></tr>' % (
0c6cfb9906f3 Uploaded cbib parents: diff changeset	100 len(no_restric), float(len(no_restric)) / float(len(all_seq)) * 100, len(no_multiple), float(len(no_multiple)) / float(len(all_seq)) * 100, len(stop),
0c6cfb9906f3 Uploaded cbib parents: diff changeset	101 float(len(stop)) / float(len(all_seq)) * 100, len(mut), float(len(mut)) / float(len(all_seq)) * 100, len(good_ids), float(len(good_ids)) / float(len(all_seq)) * 100,
0c6cfb9906f3 Uploaded cbib parents: diff changeset	102 len(amber)))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	103 w.write(
0c6cfb9906f3 Uploaded cbib parents: diff changeset	104 '<tr><td class="text-error">%s</td><td class="text-error">%s</td><td class="text-error">%s</td><td class="text-warning">%s</td><td class="text-success">%s</td><td>%s</td></tr></table>' % (
0c6cfb9906f3 Uploaded cbib parents: diff changeset	105 '<br/>'.join(no_restric), '<br/>'.join(no_multiple), '<br/>'.join(stop), '<br/>'.join(mut), '<br/>'.join(good_ids), '<br/>'.join(amber)))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	106 # Variable regions analysis
0c6cfb9906f3 Uploaded cbib parents: diff changeset	107 w.write(
0c6cfb9906f3 Uploaded cbib parents: diff changeset	108 '<div class="page-header"><a id="variable"></a><h2>Variable regions analysis</h2></div><p>The following group of sequences are identical clones on the variable regions:</p>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	109 identical_clones_seq = identical_clones.keys()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	110 if identical_clones_seq:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	111 for seq in identical_clones_seq:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	112 ids = list(set(identical_clones[seq])) # return only one occurrence of each item in the list
0c6cfb9906f3 Uploaded cbib parents: diff changeset	113 w.write('<div class="row-fluid"><div class="span5"><pre>%d sequences (%.2f%% of valid sequences)<br/>%s</pre></div>' % (
0c6cfb9906f3 Uploaded cbib parents: diff changeset	114 len(ids), float(len(ids)) / float(len(good_ids)) * 100, '<br/>'.join(ids)))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	115 w.write('<div class="span3"><table class="table table-striped table-bordered"><thead><tr><th>Variable region</th><th>Repeated sequence</th></tr></thead><tbody>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	116 for z in range(len(good_seq[ids[0]]['var'])):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	117 w.write('<td>%d</td><td>%s</td></tr>' % (z + 1, good_seq[ids[0]]['var'][z]))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	118 w.write('</tbody></table></div></div>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	119 else:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	120 w.write('<p>No clone was found.</p>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	121
0c6cfb9906f3 Uploaded cbib parents: diff changeset	122 first = True
0c6cfb9906f3 Uploaded cbib parents: diff changeset	123 for i in range(nb_var_part):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	124 keys = []
0c6cfb9906f3 Uploaded cbib parents: diff changeset	125 for k in (var_seq_common[str(i + 1)].keys()):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	126 nb = var_seq_common[str(i + 1)][k]
0c6cfb9906f3 Uploaded cbib parents: diff changeset	127 if nb > 1:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	128 if first:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	129 w.write(
0c6cfb9906f3 Uploaded cbib parents: diff changeset	130 '<p>Here\'s the distribution of the repeated sequences in variable regions:</p><table class="table table-striped table-bordered"><thead><tr><th>Variable region</th><th>Repeated sequence</th><th>Number of occurrences (percentage of valid sequences)</th></tr></thead><tbody>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	131 first = False
0c6cfb9906f3 Uploaded cbib parents: diff changeset	132 keys.append(k)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	133 else:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	134 keys.append(k)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	135 nb = len(keys)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	136 if nb != 0:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	137 w.write('<tr>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	138 for z in range(nb):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	139 if z == 0:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	140 w.write('<td rowspan="%d">%d</td>' % (nb, i + 1))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	141 w.write('<td>%s</td><td>%d (%.2f%%)</td></tr>' % (
0c6cfb9906f3 Uploaded cbib parents: diff changeset	142 keys[z], var_seq_common[str(i + 1)][keys[z]], float(var_seq_common[str(i + 1)][keys[z]]) / float(len(good_ids)) * 100))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	143 w.write('</tbody></table>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	144 # Clustering
0c6cfb9906f3 Uploaded cbib parents: diff changeset	145 w.write('<div class="page-header"><a id="cluster"></a><h2>Clustering</h2></div><p>The following clusters were generated by MCL:</p>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	146 for line in open(mcl_output, 'r'):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	147 w.write('<div class="row-fluid"><div class="span6"><pre>%d sequences (%.2f%% of valid sequences)<br/>%s</pre></div></div>' % (
0c6cfb9906f3 Uploaded cbib parents: diff changeset	148 len(line.split("\t")), float(len(line.split("\t"))) / float(len(good_ids)) * 100, '<br/>'.join(line.split("\t"))))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	149 # Statistics
0c6cfb9906f3 Uploaded cbib parents: diff changeset	150 w.write('<div class="page-header"><a id="stat"></a><h2>Statistics</h2></div>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	151 w.write('<p>Here\'s some statistics about the valid sequences:</p><p>Mean for the pairwise alignement scores: %.2f<br/>Standard deviation: %.2f</p>' % (
0c6cfb9906f3 Uploaded cbib parents: diff changeset	152 numpy.mean(align_scores), numpy.std(align_scores)))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	153 w.write('<div class="row-fluid"><div class="span6"><img src="%s" alt="Distribution of the pairwise alignment score"></div>' % os.path.basename(graph_pic))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	154 w.write('<div class="span6"><table class="table table-striped table-bordered"><thead><tr><th>Pairwise Alignment Score</th><th>Number of occurrences</th></tr></thead><tbody>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	155 uniq_scores = sorted(list(set(align_scores)))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	156 scores_dic = {}
0c6cfb9906f3 Uploaded cbib parents: diff changeset	157 for score in uniq_scores:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	158 scores_dic[score] = align_scores.count(score)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	159
0c6cfb9906f3 Uploaded cbib parents: diff changeset	160 scores_dic = dict(sorted(scores_dic.items()))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	161 scores = scores_dic.items()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	162 # scores.sort()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	163
0c6cfb9906f3 Uploaded cbib parents: diff changeset	164 for el in scores:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	165 w.write('<tr><td>%.2f</td><td>%d</td></tr>' % (el[0], el[1]))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	166 w.write('</tbody></table></div></div>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	167 # Annex
0c6cfb9906f3 Uploaded cbib parents: diff changeset	168 w.write('<div class="page-header"><a id="annex"></a><h2>Annex</h2></div>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	169 w.write('<p><strong>Valid protein sequences</strong> in FASTA format:</p><textarea class="span8 fasta" type="text" rows="20" readonly="readonly">')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	170 for _id in good_ids:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	171 w.write('>%s\n%s\n' % (_id, re.sub("(.{80})", "\\1\n", good_seq[_id]['prot'], re.DOTALL)))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	172 w.write('</textarea>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	173 aln_out = generate_aln(good_seq, good_ids)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	174 print(str(aln_out))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	175 w.write(
0c6cfb9906f3 Uploaded cbib parents: diff changeset	176 '<p>Multiple sequence alignment of the <strong>valid sequences</strong> generated by Clustal Omega:</p><textarea class="span8 fasta" type="text" rows="20" readonly="readonly">%s</textarea>' % str(
0c6cfb9906f3 Uploaded cbib parents: diff changeset	177 aln_out))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	178
0c6cfb9906f3 Uploaded cbib parents: diff changeset	179 if no_multiple:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	180 w.write(
0c6cfb9906f3 Uploaded cbib parents: diff changeset	181 '<p><strong>Protein sequences with an incorrect number of nucleotides between the restriction sites</strong> in FASTA format:</p><textarea class="span8 fasta" type="text" rows="20" readonly="readonly">')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	182 for _id in no_multiple:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	183 w.write('>%s\n%s\n' % (_id, re.sub("(.{80})", "\\1\n", all_seq_fasta[_id]['prot'], re.DOTALL)))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	184 w.write('</textarea>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	185
0c6cfb9906f3 Uploaded cbib parents: diff changeset	186 if mut:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	187 w.write('<p><strong>Mutated protein sequences</strong> in FASTA format:</p><textarea class="span8 fasta" type="text" rows="20" readonly="readonly">')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	188 for _id in mut:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	189 w.write('>%s\n%s\n' % (_id, re.sub("(.{80})", "\\1\n", all_seq_fasta[_id]['prot'], re.DOTALL)))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	190 w.write('</textarea>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	191 aln_out = generate_aln(all_seq_fasta, mut)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	192
0c6cfb9906f3 Uploaded cbib parents: diff changeset	193 w.write(
0c6cfb9906f3 Uploaded cbib parents: diff changeset	194 '<p>Multiple sequence alignment of the <strong>mutated sequences</strong> generated by Clustal Omega:</p><textarea class="span8 fasta" type="text" rows="20" readonly="readonly">%s</textarea>' % str(
0c6cfb9906f3 Uploaded cbib parents: diff changeset	195 aln_out))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	196
0c6cfb9906f3 Uploaded cbib parents: diff changeset	197 if stop:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	198 w.write('<p><strong>Protein sequences with a stop codon</strong> in FASTA format:</p><textarea class="span8 fasta" type="text" rows="20" readonly="readonly">')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	199 for _id in stop:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	200 w.write('>%s\n%s\n' % (_id, re.sub("(.{80})", "\\1\n", all_seq_fasta[_id]['prot'], re.DOTALL)))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	201 w.write('</textarea>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	202
0c6cfb9906f3 Uploaded cbib parents: diff changeset	203 if amber:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	204 w.write('<p><strong>Protein sequences with an amber codon</strong> in FASTA format:</p><textarea class="span8 fasta" type="text" rows="20" readonly="readonly">')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	205 for _id in amber:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	206 w.write('>%s\n%s\n' % (_id, re.sub("(.{80})", "\\1\n", all_seq_fasta[_id]['prot'], re.DOTALL)))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	207 w.write('</textarea>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	208
0c6cfb9906f3 Uploaded cbib parents: diff changeset	209 w.write('</div></body></html>')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	210 w.close()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	211
0c6cfb9906f3 Uploaded cbib parents: diff changeset	212
0c6cfb9906f3 Uploaded cbib parents: diff changeset	213 nb_seq = len(list(SeqIO.parse(args.input, "fasta")))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	214
0c6cfb9906f3 Uploaded cbib parents: diff changeset	215 for seq_record in SeqIO.parse(args.input, "fasta"):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	216 seq_id = seq_record.id
0c6cfb9906f3 Uploaded cbib parents: diff changeset	217 seq = str(seq_record.seq)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	218 seq = seq.upper()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	219 all_seq.append(seq_id)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	220 # Checking if both restriction sites are present in the sequence
0c6cfb9906f3 Uploaded cbib parents: diff changeset	221 if site_res_5 in seq and site_res_3 in seq:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	222 valid = True
0c6cfb9906f3 Uploaded cbib parents: diff changeset	223 else:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	224 valid = False
0c6cfb9906f3 Uploaded cbib parents: diff changeset	225 tag['no_restric'].append(seq_id)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	226 # If sequence has both restriction sites, checking if it is necessary to take the reverse complement strand
0c6cfb9906f3 Uploaded cbib parents: diff changeset	227 if valid:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	228 site_res_5_pos = seq.index(site_res_5)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	229 site_res_3_pos = seq.index(site_res_3)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	230 # If site_res_5_pos > site_res_3_pos, reverse complement strand has to be calculated
0c6cfb9906f3 Uploaded cbib parents: diff changeset	231 if site_res_5_pos > site_res_3_pos:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	232 # Checking if the number of nucleic acids between the restriction sites is a multiple of 3
0c6cfb9906f3 Uploaded cbib parents: diff changeset	233 length = math.fabs((site_res_5_pos + len(site_res_5)) - site_res_3_pos)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	234 valid = length % 3 == 0
0c6cfb9906f3 Uploaded cbib parents: diff changeset	235 cut_seq = seq[:site_res_5_pos + len(site_res_5)]
0c6cfb9906f3 Uploaded cbib parents: diff changeset	236 cut_seq = reverse_complement(cut_seq)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	237 # Else if site_res_5_pos < site_res_3_pos, use the sequence as it is
0c6cfb9906f3 Uploaded cbib parents: diff changeset	238 else:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	239 # Checking if the number of nucleic acids between the restriction sites is a multiple of 3
0c6cfb9906f3 Uploaded cbib parents: diff changeset	240 length = math.fabs((site_res_3_pos + len(site_res_3)) - site_res_5_pos)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	241 valid = length % 3 == 0
0c6cfb9906f3 Uploaded cbib parents: diff changeset	242 cut_seq = seq[site_res_5_pos:]
0c6cfb9906f3 Uploaded cbib parents: diff changeset	243 # If the number of nucleic acids between the restriction sites isn't a multiple of 3, put the sequence away
0c6cfb9906f3 Uploaded cbib parents: diff changeset	244 if not valid:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	245 tag['no_multiple'].append(seq_id)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	246 prot_seq = Seq.translate(cut_seq)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	247 all_seq_fasta[seq_id] = {}
0c6cfb9906f3 Uploaded cbib parents: diff changeset	248 all_seq_fasta[seq_id]['prot'] = prot_seq
0c6cfb9906f3 Uploaded cbib parents: diff changeset	249 else:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	250 # Translate nucleic sequence into amino acid sequence
0c6cfb9906f3 Uploaded cbib parents: diff changeset	251 prot_seq = Seq.translate(cut_seq)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	252 all_seq_fasta[seq_id] = {}
0c6cfb9906f3 Uploaded cbib parents: diff changeset	253 all_seq_fasta[seq_id]['prot'] = prot_seq
0c6cfb9906f3 Uploaded cbib parents: diff changeset	254
0c6cfb9906f3 Uploaded cbib parents: diff changeset	255 # Looking for stop codon in the sequence and getting their position in the sequence
0c6cfb9906f3 Uploaded cbib parents: diff changeset	256 if '*' in prot_seq:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	257 pos_stop = [m.start() for m in re.finditer("\*", prot_seq)]
0c6cfb9906f3 Uploaded cbib parents: diff changeset	258 stop = False
0c6cfb9906f3 Uploaded cbib parents: diff changeset	259 # Checking if stop codon is between the restriction sites, also checking if it is an amber codon. if stop codon other than amber codon -> tag stop
0c6cfb9906f3 Uploaded cbib parents: diff changeset	260 for i in range(len(pos_stop)):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	261 if pos_stop[i] < length / 3:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	262 stop_codon_nuc = cut_seq[pos_stop[i] * 3:pos_stop[i] * 3 + 3]
0c6cfb9906f3 Uploaded cbib parents: diff changeset	263 if stop_codon_nuc != "TAG":
0c6cfb9906f3 Uploaded cbib parents: diff changeset	264 tag['stop'].append(seq_id)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	265 stop = True
0c6cfb9906f3 Uploaded cbib parents: diff changeset	266 break
0c6cfb9906f3 Uploaded cbib parents: diff changeset	267 else:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	268 if seq_id not in tag['amber']:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	269 tag['amber'].append(seq_id)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	270 # If stop codon wasn't found between the restriction sites
0c6cfb9906f3 Uploaded cbib parents: diff changeset	271 if not stop:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	272 """
0c6cfb9906f3 Uploaded cbib parents: diff changeset	273 # Checking if there is a stop codon outside the restriction sites. If yes -> tag ok_stop_ext
0c6cfb9906f3 Uploaded cbib parents: diff changeset	274 for i in range(len(pos_stop)):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	275 if (pos_stop[i] > length/3):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	276 stop_codon_nuc = cut_seq[pos_stop[i]3:pos_stop[i]3+3]
0c6cfb9906f3 Uploaded cbib parents: diff changeset	277 if stop_codon_nuc != "TAG":
0c6cfb9906f3 Uploaded cbib parents: diff changeset	278 tag['ok_stop_ext'].append(seq_id)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	279 stop = True
0c6cfb9906f3 Uploaded cbib parents: diff changeset	280 break
0c6cfb9906f3 Uploaded cbib parents: diff changeset	281 else:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	282 if (seq_id not in tag['amber']):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	283 tag['amber'].append(seq_id)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	284 """
0c6cfb9906f3 Uploaded cbib parents: diff changeset	285 # Checking if there was a mutation in the fix part, if yes -> tag mut else retrieve variable parts
0c6cfb9906f3 Uploaded cbib parents: diff changeset	286 mut = False
0c6cfb9906f3 Uploaded cbib parents: diff changeset	287 pattern_part = args.pattern.split(":")
0c6cfb9906f3 Uploaded cbib parents: diff changeset	288 tmp_prot_seq = prot_seq
0c6cfb9906f3 Uploaded cbib parents: diff changeset	289 var_parts = []
0c6cfb9906f3 Uploaded cbib parents: diff changeset	290 for i in range(len(pattern_part) - 1): # not checking the latest fix part
0c6cfb9906f3 Uploaded cbib parents: diff changeset	291 part = pattern_part[i]
0c6cfb9906f3 Uploaded cbib parents: diff changeset	292 # If part is fix
0c6cfb9906f3 Uploaded cbib parents: diff changeset	293 if not part[0].isdigit():
0c6cfb9906f3 Uploaded cbib parents: diff changeset	294 # If part not in prot_seq -> mutation, flag then break
0c6cfb9906f3 Uploaded cbib parents: diff changeset	295 if part not in tmp_prot_seq:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	296 mut = True
0c6cfb9906f3 Uploaded cbib parents: diff changeset	297 tag['mut'].append(seq_id)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	298 break
0c6cfb9906f3 Uploaded cbib parents: diff changeset	299 # Else, store the variable part if exist then remove the fix part + variable part (tmp_prot_seq starts at the end of part)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	300 else:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	301 pos_fix = tmp_prot_seq.index(part)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	302 if pos_fix != 0:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	303 var_parts.append(tmp_prot_seq[0:pos_fix])
0c6cfb9906f3 Uploaded cbib parents: diff changeset	304 tmp_prot_seq = tmp_prot_seq[pos_fix + len(part):]
0c6cfb9906f3 Uploaded cbib parents: diff changeset	305 # Else part is variable
0c6cfb9906f3 Uploaded cbib parents: diff changeset	306 else:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	307 nb_var_part += 1
0c6cfb9906f3 Uploaded cbib parents: diff changeset	308 # Treating latest fix part if no mutation before
0c6cfb9906f3 Uploaded cbib parents: diff changeset	309 if not mut:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	310 last_part = pattern_part[-1]
0c6cfb9906f3 Uploaded cbib parents: diff changeset	311 last_var = pattern_part[-2]
0c6cfb9906f3 Uploaded cbib parents: diff changeset	312 if '-' in last_var:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	313 var_max = int(last_var.split('-')[1])
0c6cfb9906f3 Uploaded cbib parents: diff changeset	314 else:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	315 var_max = int(last_var)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	316 last_part = last_part[0:var_max + 1]
0c6cfb9906f3 Uploaded cbib parents: diff changeset	317 if last_part not in tmp_prot_seq:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	318 mut = True
0c6cfb9906f3 Uploaded cbib parents: diff changeset	319 tag['mut'].append(seq_id)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	320 else:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	321 pos_fix = tmp_prot_seq.index(last_part)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	322 if pos_fix != 0:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	323 var_parts.append(tmp_prot_seq[0:pos_fix])
0c6cfb9906f3 Uploaded cbib parents: diff changeset	324 # If no mutation the sequence is validated and all the info are stored
0c6cfb9906f3 Uploaded cbib parents: diff changeset	325 if not mut:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	326 good_seq[seq_id] = {}
0c6cfb9906f3 Uploaded cbib parents: diff changeset	327 good_seq[seq_id]['dna'] = cut_seq
0c6cfb9906f3 Uploaded cbib parents: diff changeset	328 good_seq[seq_id]['prot'] = prot_seq
0c6cfb9906f3 Uploaded cbib parents: diff changeset	329 good_seq[seq_id]['var'] = var_parts
0c6cfb9906f3 Uploaded cbib parents: diff changeset	330
0c6cfb9906f3 Uploaded cbib parents: diff changeset	331 # If all sequences are invalid, the program will exit as there is no data to continue
0c6cfb9906f3 Uploaded cbib parents: diff changeset	332 if not good_seq:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	333 print("All sequences are invalid. At least 2 valid sequences are necessary to proceed to the next step. The program will now exit.")
0c6cfb9906f3 Uploaded cbib parents: diff changeset	334 sys.exit()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	335 elif len(good_seq.keys()) == 1:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	336 print("There is only one valid sequence among the input data. At least 2 valid sequences are necessary to proceed to the next step. The program will now exit")
0c6cfb9906f3 Uploaded cbib parents: diff changeset	337 sys.exit()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	338
0c6cfb9906f3 Uploaded cbib parents: diff changeset	339 # Initialization of dict var_seq_common
0c6cfb9906f3 Uploaded cbib parents: diff changeset	340 for n in range(nb_var_part):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	341 var_seq_common[str(n + 1)] = {}
0c6cfb9906f3 Uploaded cbib parents: diff changeset	342
0c6cfb9906f3 Uploaded cbib parents: diff changeset	343 # Opening the file where the mcl input will be written
0c6cfb9906f3 Uploaded cbib parents: diff changeset	344 mcl = open(mcl_file, 'w')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	345
0c6cfb9906f3 Uploaded cbib parents: diff changeset	346 id = good_seq.keys()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	347 for i in range(len(id)):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	348 var_1 = good_seq[list(id)[i]]['var']
0c6cfb9906f3 Uploaded cbib parents: diff changeset	349
0c6cfb9906f3 Uploaded cbib parents: diff changeset	350 # Classifying variable sequences
0c6cfb9906f3 Uploaded cbib parents: diff changeset	351 for k in range(len(var_1)):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	352 try:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	353 var_seq_common[str(k + 1)][var_1[k]] += 1
0c6cfb9906f3 Uploaded cbib parents: diff changeset	354 except KeyError:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	355 var_seq_common[str(k + 1)][var_1[k]] = 1
0c6cfb9906f3 Uploaded cbib parents: diff changeset	356
0c6cfb9906f3 Uploaded cbib parents: diff changeset	357 for j in range(i + 1, len(id)):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	358 var_2 = good_seq[list(id)[j]]['var']
0c6cfb9906f3 Uploaded cbib parents: diff changeset	359 # Comparing the sequences' variable parts to find identical clones
0c6cfb9906f3 Uploaded cbib parents: diff changeset	360 if var_1 == var_2:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	361 try:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	362 s = "".join(var_1)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	363 identical_clones[s].extend([id[i], id[j]])
0c6cfb9906f3 Uploaded cbib parents: diff changeset	364 except KeyError:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	365 identical_clones[s] = [id[i], id[j]]
0c6cfb9906f3 Uploaded cbib parents: diff changeset	366
0c6cfb9906f3 Uploaded cbib parents: diff changeset	367 # Align the 2 sequences using NWalign_PAM30
0c6cfb9906f3 Uploaded cbib parents: diff changeset	368 seq_1 = ''.join(var_1)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	369 seq_2 = ''.join(var_2)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	370 print(seq_1)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	371 print(seq_2)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	372 matrix = matlist.pam30
0c6cfb9906f3 Uploaded cbib parents: diff changeset	373 cpt = 0
0c6cfb9906f3 Uploaded cbib parents: diff changeset	374 if len(seq_2) > len(seq_1):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	375 print(pairwise2.align.globalds(seq_1, seq_2, matrix, -11, -1))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	376 for a in pairwise2.align.globalds(seq_1, seq_2, matrix, -11, -1):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	377 for k in range(a[4]):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	378 if a[0][k] == a[1][k]:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	379 cpt += 1
0c6cfb9906f3 Uploaded cbib parents: diff changeset	380 print(format_alignment(*a, full_sequences=True))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	381 else:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	382 print(pairwise2.align.globalds(seq_2, seq_1, matrix, -11, -1))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	383 for a in pairwise2.align.globalds(seq_2, seq_1, matrix, -11, -1):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	384 for k in range(a[4]):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	385 if a[0][k] == a[1][k]:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	386 cpt += 1
0c6cfb9906f3 Uploaded cbib parents: diff changeset	387 print(format_alignment(*a, full_sequences=True))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	388 print("######################################@")
0c6cfb9906f3 Uploaded cbib parents: diff changeset	389 print(cpt)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	390
0c6cfb9906f3 Uploaded cbib parents: diff changeset	391 if len(seq_2) > len(seq_1):
0c6cfb9906f3 Uploaded cbib parents: diff changeset	392 p = subprocess.Popen(fibronectin_script_dir + "/NWalign_PAM30 %s %s 3" % (seq_1, seq_2), shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	393 else:
0c6cfb9906f3 Uploaded cbib parents: diff changeset	394 p = subprocess.Popen(fibronectin_script_dir + "/NWalign_PAM30 %s %s 3" % (seq_2, seq_1), shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	395
0c6cfb9906f3 Uploaded cbib parents: diff changeset	396 out, err = p.communicate()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	397
0c6cfb9906f3 Uploaded cbib parents: diff changeset	398 print(out)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	399 print("######################################@")
0c6cfb9906f3 Uploaded cbib parents: diff changeset	400 lines = out.split(bytes("\n", encoding='utf8'))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	401 print(lines[5].split(bytes(' ', encoding='utf8'))[5])
0c6cfb9906f3 Uploaded cbib parents: diff changeset	402 score = float(lines[5].split(bytes(' ', encoding='utf8'))[5]) * 100
0c6cfb9906f3 Uploaded cbib parents: diff changeset	403 align_scores.append(score)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	404 mcl.write('%s\t%s\t%0.2f\n' % (list(id)[i], list(id)[j], score))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	405 mcl.close()
0c6cfb9906f3 Uploaded cbib parents: diff changeset	406
0c6cfb9906f3 Uploaded cbib parents: diff changeset	407 # Clusters formation
0c6cfb9906f3 Uploaded cbib parents: diff changeset	408 subprocess.call("mcl %s --abc -I 6.0 -o %s" % (mcl_file, mcl_output), shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	409
0c6cfb9906f3 Uploaded cbib parents: diff changeset	410 # Producing distribution graph
0c6cfb9906f3 Uploaded cbib parents: diff changeset	411 plot.hist(align_scores, bins=numpy.arange(0, 101, 2))
0c6cfb9906f3 Uploaded cbib parents: diff changeset	412 plot.xlabel('Pairwise Alignment Score')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	413 plot.ylabel('Number of occurrences')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	414 plot.title('Distribution of the pairwise alignment score')
0c6cfb9906f3 Uploaded cbib parents: diff changeset	415 plot.grid(True)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	416 plot.savefig(graph_pic)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	417
0c6cfb9906f3 Uploaded cbib parents: diff changeset	418 # Generating html report
0c6cfb9906f3 Uploaded cbib parents: diff changeset	419 report_html(html_file, tag, all_seq, good_seq, all_seq_fasta, identical_clones, nb_var_part, var_seq_common, align_scores, args)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	420
0c6cfb9906f3 Uploaded cbib parents: diff changeset	421 # Removing intermediate files
0c6cfb9906f3 Uploaded cbib parents: diff changeset	422 subprocess.call("rm %s %s " % (mcl_file, mcl_output), shell=True)
0c6cfb9906f3 Uploaded cbib parents: diff changeset	423
0c6cfb9906f3 Uploaded cbib parents: diff changeset	424 print("HTML report has been generated in the output directory. The program will now exit.")

Mercurial > repos > cbib > fibronectin

annotate fibronectin/fibronectin.py @ 0:0c6cfb9906f3 draft default tip