pyrocleaner: pyrocleaner_galaxy_tool_V1.2/pyrocleaner.py annotate

author	g2cmnty@test-web1.g2.bx.psu.edu
date	Thu, 09 Jun 2011 06:09:09 -0400
parents
children

rev	line source
0 ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	1 #
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	2 # Pyrocleaner
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	3 # Copyright (C) 2009 INRA
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	4 #
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	5 # This program is free software: you can redistribute it and/or modify
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	6 # it under the terms of the GNU General Public License as published by
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	7 # the Free Software Foundation, either version 3 of the License, or
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	8 # (at your option) any later version.
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	9 #
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	10 # This program is distributed in the hope that it will be useful,
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	11 # but WITHOUT ANY WARRANTY; without even the implied warranty of
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	12 # MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	13 # GNU General Public License for more details.
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	14 #
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	15 # You should have received a copy of the GNU General Public License
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	16 # along with this program. If not, see <http://www.gnu.org/licenses/>.
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	17 #
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	18 # ChangeLog
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	19 # v1.2 (05/2011) : Correct a bug with --clean-pairends option introduced when adding the
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	20 # --clean-quality option
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	21 # v1.1 (02/2011) : Add the option --clean-quality to clean reads based on their bases quality
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	22 # Add the --aggressive option in order to keep only one read per cluster
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	23 # Modify the duplication strategy so the longer read is keept
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	24 # v1.0 (09/2009) : Pyrocleaner first version
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	25 #
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	26
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	27 __author__ = 'Plateforme bioinformatique Midi Pyrenees'
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	28 __copyright__ = 'Copyright (C) 2009 INRA'
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	29 __license__ = 'GNU General Public License'
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	30 __version__ = '1.2'
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	31 __email__ = 'support.genopole@toulouse.inra.fr'
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	32 __status__ = 'beta'
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	33
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	34 from Bio import SeqIO
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	35 from igraph import *
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	36 from optparse import *
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	37 import os, math, datetime, zlib, sys, re, glob, string, gzip
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	38
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	39
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	40 def create_roche_pairends_spacer_file(out_dir):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	41 """
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	42 Create the Roche pairends fasta file
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	43 @param out_dir : the directory where will be writen the fasta file
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	44 """
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	45 file = open(os.path.join(out_dir, "roche_spacers.fna"), 'wr')
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	46 file.write(">flx\nGTTGGAACCGAAAGGGTTTGAATTCAAACCCTTTCGGTTCCAAC\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	47 file.write(">titanium1\nTCGTATAACTTCGTATAATGTATGCTATACGAAGTTATTACG\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	48 file.write(">titanium2\nCGTAATAACTTCGTATAGCATACATTATACGAAGTTATACGA\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	49 file.close()
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	50 return file.name
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	51
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	52
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	53 def version_string ():
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	54 """
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	55 Return the pyrocleaner version
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	56 """
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	57 return "pyrocleaner " + __version__
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	58
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	59
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	60 def reads_to_sff (sff_file, seqs, output_file):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	61 """
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	62 Extract seqs reads from the sff_file
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	63 @dependences sfffile : the sff software is required to execute this function
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	64 @param sff_file : the input sff file
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	65 @param seqs : table of seqs to extract
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	66 @param output_file : the name of the output sff file
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	67 """
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	68 # First creates the to_write file
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	69 tmp_file = os.path.join(os.path.dirname(output_file), "reads_to_sff.txt")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	70 to_write_file = open(tmp_file, 'wr')
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	71 for read in seqs:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	72 to_write_file.write(read.id + "\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	73 to_write_file.close()
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	74 # Use the sfffile tools
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	75 cmd = "sfffile -i " + tmp_file + " -o " + output_file + " " + sff_file
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	76 os.system(cmd)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	77 # Clean temporary files
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	78 try: os.remove(tmp_file)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	79 except: pass
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	80
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	81
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	82 def filter_reads (seqs, options):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	83 """
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	84 Filter input seqs by length, ns and complexity if options are asked by user
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	85 @param seqs : table of seqs to filter
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	86 @param options : the options asked by the user
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	87 """
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	88 reads_id = []
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	89 reads_length = []
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	90 reads_ok = []
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	91 del_by_ns = 0
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	92 del_by_complexity = 0
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	93 del_by_length = 0
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	94 del_by_quality = 0
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	95 log.write("## Start Basic cleaning (" + str(datetime.datetime.now()) + ")\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	96
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	97 # Go throught all sequences
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	98 for i, reads_record in enumerate(seqs) :
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	99 reads_id.append(reads_record.id)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	100 reads_ok.append(0)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	101
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	102 # If is asked to clean sequences by length using the standard
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	103 # deviation, save length to compute some statistics
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	104 if options.clean_length_std :
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	105 reads_length.append(len(reads_record))
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	106
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	107 # If is asked to clean sequences by length using a window
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	108 # and the sequence has not been flagged as deleted
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	109 if options.clean_length_win and reads_ok[i] == 0:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	110 # Check if the sequence is longer than the min asked, if not flagged it as deleted
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	111 if len(reads_record) < int(options.min):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	112 reads_ok[i] = 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	113 del_by_length += 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	114 log.write(reads_id[i] + " deleted -> Length ( " + str(len(reads_record)) + "<" + str(options.min) + " )\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	115 # Check if the sequence is smaller than the max asked, if not flagged it as deleted
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	116 elif len(reads_record) > int(options.max):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	117 reads_ok[i] = 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	118 del_by_length += 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	119 log.write(reads_id[i] + " deleted -> Length ( " + str(len(reads_record)) + ">" + str(options.max) + " )\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	120
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	121 # If is asked to clean sequences with too much Ns
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	122 # and the sequence has not been flagged as deleted
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	123 if options.clean_ns and reads_ok[i] == 0:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	124 # Compute the rate of Ns into the current sequence
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	125 nb_n = (float(reads_record.seq.count("n")+reads_record.seq.count("N"))/float(len(reads_record)))*float(100)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	126 # If the rate is higher than the threshold flagged it as deleted
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	127 if nb_n > float(options.ns_percent) :
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	128 reads_ok[i] = 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	129 del_by_ns += 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	130 log.write(reads_id[i] + " deleted -> Ns ( Reads containing " + str(nb_n) + "% of Ns > to the limit : " + str(options.ns_percent) + "% )\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	131
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	132 # If is asked to clean sequences with low complexity using a sliding window
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	133 # and the sequence has not been flagged as deleted
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	134 if options.clean_complexity_win and reads_ok[i] == 0:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	135 is_complex = False
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	136 # For each window
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	137 for win in range(0, len(reads_record)-options.window, options.step):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	138 start = win
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	139 stop = start + options.window
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	140 # Compute the window complexity
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	141 w_cplx = (float(len(zlib.compress(str(reads_record.seq[start:stop]))))/float(stop-start+1))*float(100)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	142 # if the window complexity is higher to the threshold, flag the whole sequence as complex
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	143 if w_cplx >= float(options.complexity):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	144 is_complex = True
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	145 break
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	146 # If no window has been flagged as complex, then flagg the sequence as deleted
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	147 if not is_complex:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	148 reads_ok[i] = 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	149 del_by_complexity += 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	150 log.write(reads_id[i] + " deleted -> Complexity ( No window complexity > " + str(options.complexity) + " found )\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	151
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	152 # If is asked to clean sequences with low complexity working on the whole sequence
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	153 # and the sequence has not been flagged as deleted
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	154 if options.clean_complexity_full and reads_ok[i] == 0:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	155 # Compute the complexity on the whole sequence
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	156 cplx = (float(len(zlib.compress(str(reads_record.seq))))/float(len(reads_record)))*float(100)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	157 # If the complexity is higher to the threshold, flag the sequence as deleted
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	158 if cplx < float(options.complexity) :
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	159 reads_ok[i] = 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	160 del_by_complexity += 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	161 log.write(reads_id[i] + " deleted -> Complexity ( Reads complexity " + str(cplx) + " < to the minimum : " + str(options.complexity) + " )\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	162
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	163 # If is asked to clean sequences with low quality and quality information is available
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	164 # and the sequence has not been flagged as deleted
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	165 if options.clean_quality and reads_ok[i] == 0 and reads_record.letter_annotations.has_key("phred_quality"):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	166 # If at least one base has a quality score higher than the threashold
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	167 maw_qual = max(reads_record.letter_annotations["phred_quality"])
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	168 if maw_qual < int(options.quality_threshold) :
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	169 reads_ok[i] = 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	170 del_by_quality += 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	171 log.write(reads_id[i] + " deleted -> Quality ( Reads minimum quality " + str(maw_qual) + " < to the threshold : " + str(options.quality_threshold) + " )\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	172
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	173 # If is asked to clean sequences by length using the standard deviation
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	174 if options.clean_length_std :
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	175 # Compute the mean and the standard deviation
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	176 mean = sum(reads_length) / len(reads_length)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	177 mq = mean**2
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	178 s = sum([ x**2 for x in reads_length])
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	179 var = s/len(reads_length) - mq
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	180 etype = math.sqrt(var)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	181 # For each sequences
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	182 for i, id in enumerate(reads_id):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	183 # If the sequence has not been flagged as deleted
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	184 if reads_ok[i] == 0 :
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	185 # If the sequence length is higher than the upper threshold, flag the sequence as deleted
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	186 if reads_length[i] > mean + options.std*etype:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	187 reads_ok[i] = 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	188 del_by_length += 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	189 log.write(reads_id[i] + " deleted -> Length ( " + str(reads_length[i]) + ">" + str(mean) + "+" + str(options.std) + "*" + str(etype) + " )\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	190 # If the sequence length is smaller than the lower threshold, flag the sequence as deleted
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	191 elif reads_length[i] < mean - options.std*etype:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	192 reads_ok[i] = 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	193 del_by_length += 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	194 log.write(reads_id[i] + " deleted -> Length ( " + str(reads_length[i]) + "<" + str(mean) + "+" + str(options.std) + "*" + str(etype) + " )\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	195
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	196 seqs_to_return = []
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	197 # Then get only sequences not flagged to be deleted
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	198 for i, reads_record in enumerate(seqs) :
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	199 if reads_ok[i] == 0:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	200 seqs_to_return.append(reads_record)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	201
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	202 # Return values
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	203 return [seqs_to_return, del_by_length, del_by_ns, del_by_complexity, del_by_quality]
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	204
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	205
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	206 def filter_same_reads (seqs, options):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	207 """
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	208 Filter input seqs by duplicat, if sequences are too similar keep only one to represent the cluster
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	209 @param seqs : table of seqs to filter
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	210 @param options : the options asked by the user
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	211 """
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	212
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	213 megablast_input = os.path.join(options.output, "megablast_input.fasta")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	214 log.write("## Start cleaning duplicated reads (" + str(datetime.datetime.now()) + ")\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	215 log.write("## formatdb the fasta file (" + str(datetime.datetime.now()) + ")\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	216
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	217 # First write down seqs
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	218 fasta = open(megablast_input, "w")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	219 SeqIO.write(seqs, fasta, "fasta")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	220 fasta.close()
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	221
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	222 # Then formatdb the fasta file (no formatdb utils in Biopython)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	223 cmd = "formatdb -i %s -p F" % megablast_input
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	224 os.system(cmd)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	225 log.write("## megablast (" + str(datetime.datetime.now()) + ")\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	226
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	227 # In case of pairends, use words of 50, so megablast cannot connect with spacers
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	228 opts = ""
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	229 if options.clean_pairends:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	230 opts = " -W 50 -H 10 "
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	231
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	232 # Megablast the fasta file versus itself
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	233 cmd = "megablast -d " + megablast_input + " -i " + megablast_input + opts + " -p 98 -a " + str(options.nb_cpus) + " -M 500000 -s 100 -D 3 \| grep -v '^#' \| perl -lne 'chomp; split; if ($_[0] ne $_[1]) { if (($_[6] == 1 ) && ($_[8] == 1) && ($_{$_[0]} < 30)) { print $_;$_{$_[0]}++; }}' > " + megablast_input + ".res"
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	234 os.system(cmd)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	235
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	236 # Let's get the reads length with the fasta file and creates the graph
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	237 log.write("## Parsing the megablast file (" + str(datetime.datetime.now()) + ")\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	238 gseqs = {}
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	239 vertices = []
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	240 for reads_record in seqs :
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	241 vertices.append({'name': reads_record.id})
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	242 gseqs[reads_record.id] = len(reads_record)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	243
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	244 # Connects reads from hits starting at 1 and with ends closed to each others
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	245 log.write("## Creating the graph (" + str(datetime.datetime.now()) + ")\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	246 edges = []
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	247 for read in open(megablast_input + ".res", 'rU').readlines() :
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	248 parts = read.rstrip().split()
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	249 len1 = gseqs[parts[0]]
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	250 len2 = gseqs[parts[1]]
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	251 if options.clean_aggressive :
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	252 edges.append({'source': parts[0], 'target': parts[1]})
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	253 elif math.fabs(len1-len2) < options.duplication_limit:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	254 if int(parts[7]) > (len1 - options.duplication_limit) and int(parts[9]) > len2 - options.duplication_limit:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	255 # This alignments are realy similar -> may be the same -> link them into the graph
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	256 edges.append({'source': parts[0], 'target': parts[1]})
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	257
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	258 # Then get connected components and extract one of them as cluster leader
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	259 log.write("## Comput connected components (" + str(datetime.datetime.now()) + ")\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	260 gr = Graph.DictList(vertices, edges)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	261 connex = gr.clusters().membership
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	262
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	263 clusters = {}
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	264 for i, vertex in enumerate(vertices):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	265 cluster_id = connex[i]
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	266 try:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	267 clusters[cluster_id].append(seqs[i])
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	268 except:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	269 clusters[cluster_id] = []
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	270 clusters[cluster_id].append(seqs[i])
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	271
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	272 del_by_duplicat = 0
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	273 # Write down into the log the composition of each cluster
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	274 clusters_stats = {}
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	275 seqs_to_return = []
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	276 for cluster_id in clusters:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	277 cl_elts = ""
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	278 del_by_duplicat += len(clusters[cluster_id]) - 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	279 longest_value = 0
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	280 cluster_leader = None
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	281 for seq_record in clusters[cluster_id]:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	282 # Find out which sequence is the longest
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	283 if len(seq_record.seq) > longest_value:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	284 cluster_leader = seq_record
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	285
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	286 seqs_to_return.append(cluster_leader)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	287 for seq_record in clusters[cluster_id]:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	288 if seq_record.id != cluster_leader.id:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	289 log.write(seq_record.id + " deleted -> Duplicated ( flagged as " + cluster_leader.id + " duplicat )\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	290 cl_elts += seq_record.id + " "
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	291 log.write("## cluster leader: " + cluster_leader.id + " of cluster composed by : " + cl_elts + "\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	292
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	293 try :
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	294 clusters_stats[len(clusters[cluster_id])] += 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	295 except:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	296 clusters_stats[len(clusters[cluster_id])] = 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	297
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	298 # Write down a summary of what has been done
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	299 log_header = "## header (duplicated) : "
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	300 log_summary = "## summary (duplicated) : "
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	301 for stat in sorted(clusters_stats.keys()):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	302 log_header += str(stat) + "\t"
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	303 log_summary += str(clusters_stats[stat]) + "\t"
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	304 log.write(log_header + "\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	305 log.write(log_summary + "\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	306
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	307 # Clean temporary files
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	308 try:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	309 os.remove(megablast_input)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	310 os.remove(megablast_input+".nhr")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	311 os.remove(megablast_input+".nin")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	312 os.remove(megablast_input+".nsq")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	313 os.remove(megablast_input+".res")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	314 os.remove("formatdb.log")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	315 os.remove("error.log")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	316 except:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	317 pass
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	318
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	319 # Returns results
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	320 return [seqs_to_return, del_by_duplicat]
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	321
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	322
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	323 def filter_pairends(seqs, options):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	324 """
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	325 Filter pairends sequences and split sequences without pairends into a fasta file
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	326 @param seqs : the table of sequences to filter
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	327 @param options : the options asked by the user
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	328 """
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	329
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	330 # Setup output files
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	331 shotgun_ffile = os.path.join(options.output, os.path.splitext(os.path.basename(options.input_file))[0]+".shotgun.clean.fasta")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	332 shotgun_qfile = os.path.join(options.output, os.path.splitext(os.path.basename(options.input_file))[0]+".shotgun.clean.qual")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	333 crossmatch_input = os.path.join(options.output, os.path.basename(options.input_file)+".cross_match_input.fasta")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	334 split_pairends_fasta = os.path.join(options.output, os.path.splitext(os.path.basename(options.input_file))[0]+".pairends.splited.clean.fasta")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	335 split_pairends_qual = os.path.join(options.output, os.path.splitext(os.path.basename(options.input_file))[0]+".pairends.splited.clean.qual")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	336
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	337 # First write down seqs
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	338 fasta = open(crossmatch_input, "w")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	339 SeqIO.write(seqs, fasta, "fasta")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	340 fasta.close()
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	341
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	342 # Write down the qual file for cross_match if possible
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	343 try:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	344 qual = open(crossmatch_input+".qual", "w")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	345 SeqIO.write(seqs, qual, "qual")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	346 qual.close()
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	347 except:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	348 os.remove(crossmatch_input+".qual")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	349
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	350 # Cross_match reverse matches pattern
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	351 rev_regex = re.compile("(\s+)?\d+\s+(\S+)\s+\S+\s+\S+\s+(\S+)\s+(\S+)\s+(\S+)\s+\S+\s+C\s+(\S+)\s+\S+\s+(\S+)\s+(\S+)")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	352 # Cross_match forward matches pattern
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	353 fwd_regex = re.compile("(\s+)?\d+\s+(\S+)\s+\S+\s+\S+\s+(\S+)\s+(\S+)\s+(\S+)\s+\S+\s+(\S+)\s+(\S+)\s+(\S+)\s+\S+")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	354
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	355 # Write the spacer file and execute cross_match against the input sequences
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	356 spacers_file = create_roche_pairends_spacer_file(options.output)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	357 cmd = "cross_match " + crossmatch_input + " " + spacers_file + " -minmatch 10 -minscore 25 > " + crossmatch_input + ".cross_match.res"
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	358 os.system(cmd)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	359
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	360 # Parse the cross_match file
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	361 cross_match_tab = {}
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	362 block_found = False
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	363 for line in open(crossmatch_input + ".cross_match.res", 'r'):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	364 save_line = False
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	365 rm = rev_regex.match(line)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	366 fm = fwd_regex.match(line)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	367 if rm != None: # If it's a reverse matches
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	368 block_found = True
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	369 (percentMis, primary_match, startFirstMatch, endFirstMatch, secondary_match, endSecondMatch, startSecondMatch)=(float(rm.group(2)), rm.group(3), int(rm.group(4)), int(rm.group(5)), rm.group(6), int(rm.group(7)), int(rm.group(8)))
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	370 save_line = True
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	371 elif fm != None: # If it's a forward matches
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	372 block_found = True
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	373 (percentMis, primary_match, startFirstMatch, endFirstMatch, secondary_match, startSecondMatch, endSecondMatch)=(float(fm.group(2)), fm.group(3), int(fm.group(4)), int(fm.group(5)), fm.group(6), int(fm.group(7)), int(fm.group(8)))
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	374 save_line = True
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	375 else : save_line = False
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	376
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	377 if line.startswith("Discrepancy summary:"): # This is the end of the section
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	378 break
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	379
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	380 # Save the line
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	381 if save_line:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	382 try:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	383 cross_match_tab[primary_match][secondary_match].append([startFirstMatch, endFirstMatch, startSecondMatch, endSecondMatch])
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	384 except:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	385 cross_match_tab[primary_match] = []
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	386 cross_match_tab[primary_match].append([secondary_match, int(startFirstMatch), int(endFirstMatch), int(startSecondMatch), int(endSecondMatch)])
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	387
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	388 # Then get the spacers_length
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	389 spacers_length = {}
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	390 for seq_record in SeqIO.parse(open(spacers_file, "rU"), "fasta") :
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	391 spacers_length[seq_record.id] = len(seq_record.seq.tostring())
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	392
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	393 # Finaly go throught all sequences
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	394 seqs_to_return = []
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	395 shotgun_seqs = []
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	396 del_by_pairends = 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	397 pe_splited = []
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	398
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	399 for i, seq_record in enumerate(seqs) :
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	400 if not cross_match_tab.has_key(seq_record.id):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	401 # No spacers found -> just add it to the shotgun_seqs tab
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	402 shotgun_seqs.append(seq_record)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	403 log.write(seq_record.id + " shotgun -> no spacer found\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	404 elif len(cross_match_tab[seq_record.id]) > 1:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	405 # If multiple linker -> delete the whole sequence
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	406 log.write(seq_record.id + " deleted -> multiple spacers found : " + str(len(cross_match_tab[seq_record.id])) + "\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	407 del_by_pairends += 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	408 elif (cross_match_tab[seq_record.id][0][2]-cross_match_tab[seq_record.id][0][1] < (spacers_length[cross_match_tab[seq_record.id][0][0]]-options.missmatch)):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	409 if (cross_match_tab[seq_record.id][0][1] == 1):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	410 shotgun_seqs.append(seq_record[cross_match_tab[seq_record.id][0][2]:])
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	411 log.write(seq_record.id + " shotgun -> spacer found at the begining\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	412 elif (cross_match_tab[seq_record.id][0][2] == len(seq_record)):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	413 shotgun_seqs.append(seq_record[:cross_match_tab[seq_record.id][0][1]])
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	414 log.write(seq_record.id + " shotgun -> spacer found at the end\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	415 else :
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	416 log.write(seq_record.id + " deleted -> partiel spacer found in the middle of the read \n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	417 del_by_pairends += 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	418 elif cross_match_tab[seq_record.id][0][1] >= options.border_limit and len(seq_record)-cross_match_tab[seq_record.id][0][2] >= options.border_limit:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	419 seqs_to_return.append(seq_record)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	420 if options.split_pairends:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	421 sub_seq1 = seq_record[cross_match_tab[seq_record.id][0][2]:]
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	422 sub_seq1.id = seq_record.id + ".r"
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	423 pe_splited.append(sub_seq1)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	424 sub_seq2 = seq_record[:cross_match_tab[seq_record.id][0][1]]
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	425 sub_seq2.id = seq_record.id + ".f"
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	426 pe_splited.append(sub_seq2)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	427 elif cross_match_tab[seq_record.id][0][1] < options.border_limit and len(seq_record)-cross_match_tab[seq_record.id][0][2] < options.border_limit:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	428 log.write(seq_record.id + " deleted -> both borders < to the border limit " + str(options.border_limit) + "\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	429 del_by_pairends += 1
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	430 elif cross_match_tab[seq_record.id][0][1] < options.border_limit:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	431 shotgun_seqs.append(seq_record[cross_match_tab[seq_record.id][0][2]:])
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	432 log.write(seq_record.id + " shotgun -> spacer found : left border way too short deleted \n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	433 elif len(seq_record)-cross_match_tab[seq_record.id][0][2] < options.border_limit:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	434 shotgun_seqs.append(seq_record[:cross_match_tab[seq_record.id][0][1]])
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	435 log.write(seq_record.id + " shotgun -> spacer found : right border way too short deleted \n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	436
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	437 # Write down if required the splited pairends file
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	438 if options.split_pairends:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	439 handle = open(split_pairends_fasta, "w")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	440 SeqIO.write(pe_splited, handle, "fasta")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	441 handle.close()
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	442 handle = open(split_pairends_qual, "w")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	443 SeqIO.write(pe_splited, handle, "qual")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	444 handle.close()
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	445
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	446 # Finaly clean up new shotguns seqs
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	447 [shotgun_seqs_clean, del_by_length, del_by_ns, del_by_complexity, del_by_quality] = filter_reads(shotgun_seqs, options)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	448 handle = open(shotgun_ffile, "w")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	449 SeqIO.write(shotgun_seqs_clean, handle, "fasta")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	450 handle.close()
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	451 in_shot_gun = 0
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	452 try:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	453 handle = open(shotgun_qfile, "w")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	454 SeqIO.write(shotgun_seqs_clean, handle, "qual")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	455 handle.close()
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	456 in_shot_gun = len(shotgun_seqs_clean)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	457 except:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	458 pass
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	459
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	460 log.write("## header (pairends) : pairends\ttotal shotgun\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	461 log.write("## summary (pairends) : " + str(len(seqs_to_return)) + "\t" + str(len(shotgun_seqs_clean)) + "\n")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	462
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	463 # Clean temporary files
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	464 try:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	465 os.remove(crossmatch_input)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	466 os.remove(spacers_file)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	467 os.remove(crossmatch_input+".cross_match.res")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	468 os.remove(crossmatch_input+".log")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	469 os.remove(crossmatch_input+".qual")
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	470 except:
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	471 pass
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	472
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	473 # Then returned pairends ones
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	474 return [seqs_to_return, in_shot_gun, del_by_length, del_by_ns, del_by_complexity, del_by_quality, del_by_pairends]
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	475
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	476
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	477 def get_seqs (options):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	478 """
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	479 Converts input seqs in a BioPython seq table
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	480 @param options : the options asked by the user
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	481 """
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	482
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	483 # First get fasta or/and qual input files
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	484 qual_file = ""
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	485 if options.format == "sff":
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	486 sff_file = options.input_file
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	487
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	488 if sff_file.endswith(".gz"):
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	489 '''Gunzip the given file and then remove the file.'''
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	490 r_file = gzip.GzipFile(sff_file, 'r')
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	491 write_file = os.path.join(options.output, string.rstrip(os.path.basename(sff_file), '.gz'))
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	492 w_file = open(write_file, 'w')
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	493 w_file.write(r_file.read())
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	494 w_file.close()
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	495 r_file.close()
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	496 sff_file = write_file
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	497
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	498 base = os.path.basename(sff_file)
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	499 fasta_file = os.path.join(options.output, base + '.fasta')
ef5dd11c01e6 pyrocleaner v1.2 g2cmnty@test-web1.g2.bx.psu.edu parents: diff changeset	500 qual_file = os.path.join(options.output, base + '.qual')

0

ef5dd11c01e6 pyrocleaner v1.2