ribogalaxy_bowtie_transcriptome: bowtie_transcriptome_wrapper/bowtie_transcriptome

annotate bowtie_transcriptome_wrapper/bowtie_transcriptome_wrapper.py @ 24:65e9b881213b draft default tip

Uploaded

author	jackcurragh
date	Mon, 27 Mar 2023 09:53:42 +0000
parents	f6ef1c85b045
children

rev	line source
1 14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	1 #!/usr/bin/env python
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	2
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	3 """
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	4 Runs Bowtie on single-end or paired-end data.
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	5
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	6 usage: bowtie_wrapper.py [options]
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	7 -t, --threads=t: The number of threads to run
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	8 -o, --output=o: The output file
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	9 --output_unmapped_reads=: File name for unmapped reads (single-end)
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	10 --output_unmapped_reads_l=: File name for unmapped reads (left, paired-end)
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	11 --output_unmapped_reads_r=: File name for unmapped reads (right, paired-end)
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	12 --output_suppressed_reads=: File name for suppressed reads because of max setting (single-end)
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	13 --output_suppressed_reads_l=: File name for suppressed reads because of max setting (left, paired-end)
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	14 --output_suppressed_reads_r=: File name for suppressed reads because of max setting (right, paired-end)
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	15 --output_mapping_stats=: File name for mapping statistics (output on stderr by bowtie)
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	16 -i, --input1=i: The (forward or single-end) reads file in Sanger FASTQ format
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	17 -I, --input2=I: The reverse reads file in Sanger FASTQ format
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	18 -4, --dataType=4: The type of data (SOLiD or Solexa)
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	19 -2, --paired=2: Whether the data is single- or paired-end
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	20 -g, --genomeSource=g: The type of reference provided
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	21 -r, --ref=r: The reference genome to use or index
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	22 -s, --skip=s: Skip the first n reads
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	23 -a, --alignLimit=a: Only align the first n reads
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	24 -T, --trimH=T: Trim n bases from high-quality (left) end of each read before alignment
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	25 -L, --trimL=L: Trim n bases from low-quality (right) end of each read before alignment
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	26 -m, --mismatchSeed=m: Maximum number of mismatches permitted in the seed
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	27 -M, --mismatchQual=M: Maximum permitted total of quality values at mismatched read positions
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	28 -l, --seedLen=l: Seed length
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	29 -n, --rounding=n: Whether or not to round to the nearest 10 and saturating at 30
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	30 -P, --maxMismatches=P: Maximum number of mismatches for -v alignment mode
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	31 -w, --tryHard=: Whether or not to try as hard as possible to find valid alignments when they exist
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	32 -V, --allValAligns=V: Whether or not to report all valid alignments per read or pair
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	33 -v, --valAlign=v: Report up to n valid alignments per read or pair
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	34 -G, --suppressAlign=G: Suppress all alignments for a read if more than n reportable alignments exist
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	35 -b, --best=b: Whether or not to make Bowtie guarantee that reported singleton alignments are 'best' in terms of stratum and in terms of the quality values at the mismatched positions
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	36 -B, --maxBacktracks=B: Maximum number of backtracks permitted when aligning a read
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	37 -R, --strata=R: Whether or not to report only those alignments that fall in the best stratum if many valid alignments exist and are reportable
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	38 -j, --minInsert=j: Minimum insert size for valid paired-end alignments
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	39 -J, --maxInsert=J: Maximum insert size for valid paired-end alignments
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	40 -O, --mateOrient=O: The upstream/downstream mate orientation for valid paired-end alignment against the forward reference strand
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	41 -A, --maxAlignAttempt=A: Maximum number of attempts Bowtie will make to match an alignment for one mate with an alignment for the opposite mate
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	42 -f, --forwardAlign=f: Whether or not to attempt to align the forward reference strand
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	43 -E, --reverseAlign=E: Whether or not to attempt to align the reverse-complement reference strand
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	44 -F, --offrate=F: Override the offrate of the index to n
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	45 -8, --snpphred=8: SNP penalty on Phred scale
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	46 -6, --snpfrac=6: Fraction of sites expected to be SNP sites
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	47 -7, --keepends=7: Keep extreme-end nucleotides and qualities
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	48 -S, --seed=S: Seed for pseudo-random number generator
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	49 -C, --params=C: Whether to use default or specified parameters
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	50 -u, --iautoB=u: Automatic or specified behavior
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	51 -K, --ipacked=K: Whether or not to use a packed representation for DNA strings
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	52 -Q, --ibmax=Q: Maximum number of suffixes allowed in a block
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	53 -Y, --ibmaxdivn=Y: Maximum number of suffixes allowed in a block as a fraction of the length of the reference
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	54 -D, --idcv=D: The period for the difference-cover sample
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	55 -U, --inodc=U: Whether or not to disable the use of the difference-cover sample
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	56 -y, --inoref=y: Whether or not to build the part of the reference index used only in paired-end alignment
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	57 -z, --ioffrate=z: How many rows get marked during annotation of some or all of the Burrows-Wheeler rows
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	58 -W, --iftab=W: The size of the lookup table used to calculate an initial Burrows-Wheeler range with respect to the first n characters of the query
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	59 -X, --intoa=X: Whether or not to convert Ns in the reference sequence to As
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	60 -N, --iendian=N: Endianness to use when serializing integers to the index file
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	61 -Z, --iseed=Z: Seed for the pseudorandom number generator
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	62 -x, --indexSettings=x: Whether or not indexing options are to be set
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	63 -H, --suppressHeader=H: Suppress header
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	64 --do_not_build_index: Flag to specify that provided file is already indexed and to just use 'as is'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	65 """
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	66
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	67 import optparse
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	68 import os
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	69 import shutil
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	70 import subprocess
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	71 import sys
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	72 import tempfile
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	73
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	74 # Allow more than Sanger encoded variants
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	75 DEFAULT_ASCII_ENCODING = '--phred33-quals'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	76 GALAXY_FORMAT_TO_QUALITY_SCORE_ENCODING_ARG = {'fastqsanger': '--phred33-quals', 'fastqillumina': '--phred64-quals', 'fastqsolexa': '--solexa-quals'}
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	77 # FIXME: Integer quality scores are supported only when the '--integer-quals' argument is specified to bowtie; this is not currently able to be set in the tool/wrapper/config
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	78
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	79
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	80 def stop_err( msg ):
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	81 sys.exit('%s\n' % msg)
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	82
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	83
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	84 def __main__():
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	85 parser = optparse.OptionParser()
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	86 parser.add_option( '-t', '--threads', dest='threads', help='The number of threads to run' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	87 parser.add_option( '-o', '--output', dest='output', help='The output file' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	88 parser.add_option( '', '--output_unmapped_reads', dest='output_unmapped_reads', help='File name for unmapped reads (single-end)' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	89 parser.add_option( '', '--output_unmapped_reads_l', dest='output_unmapped_reads_l', help='File name for unmapped reads (left, paired-end)' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	90 parser.add_option( '', '--output_unmapped_reads_r', dest='output_unmapped_reads_r', help='File name for unmapped reads (right, paired-end)' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	91 parser.add_option( '', '--output_suppressed_reads', dest='output_suppressed_reads', help='File name for suppressed reads because of max setting (single-end)' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	92 parser.add_option( '', '--output_suppressed_reads_l', dest='output_suppressed_reads_l', help='File name for suppressed reads because of max setting (left, paired-end)' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	93 parser.add_option( '', '--output_suppressed_reads_r', dest='output_suppressed_reads_r', help='File name for suppressed reads because of max setting (right, paired-end)' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	94 parser.add_option( '', '--output_mapping_stats', dest='output_mapping_stats', help='File for mapping statistics (i.e. stderr from bowtie)' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	95 parser.add_option( '-4', '--dataType', dest='dataType', help='The type of data (SOLiD or Solexa)' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	96 parser.add_option( '-i', '--input1', dest='input1', help='The (forward or single-end) reads file in Sanger FASTQ format' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	97 parser.add_option( '-I', '--input2', dest='input2', help='The reverse reads file in Sanger FASTQ format' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	98 parser.add_option( '-2', '--paired', dest='paired', help='Whether the data is single- or paired-end' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	99 parser.add_option( '-g', '--genomeSource', dest='genomeSource', help='The type of reference provided' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	100 parser.add_option( '-r', '--ref', dest='ref', help='The reference genome to use or index' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	101 parser.add_option( '-s', '--skip', dest='skip', help='Skip the first n reads' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	102 parser.add_option( '-a', '--alignLimit', dest='alignLimit', help='Only align the first n reads' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	103 parser.add_option( '-T', '--trimH', dest='trimH', help='Trim n bases from high-quality (left) end of each read before alignment' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	104 parser.add_option( '-L', '--trimL', dest='trimL', help='Trim n bases from low-quality (right) end of each read before alignment' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	105 parser.add_option( '-m', '--mismatchSeed', dest='mismatchSeed', help='Maximum number of mismatches permitted in the seed' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	106 parser.add_option( '-M', '--mismatchQual', dest='mismatchQual', help='Maximum permitted total of quality values at mismatched read positions' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	107 parser.add_option( '-l', '--seedLen', dest='seedLen', help='Seed length' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	108 parser.add_option( '-n', '--rounding', dest='rounding', help='Whether or not to round to the nearest 10 and saturating at 30' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	109 parser.add_option( '-P', '--maxMismatches', dest='maxMismatches', help='Maximum number of mismatches for -v alignment mode' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	110 parser.add_option( '-w', '--tryHard', dest='tryHard', help='Whether or not to try as hard as possible to find valid alignments when they exist' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	111 parser.add_option( '-V', '--allValAligns', dest='allValAligns', help='Whether or not to report all valid alignments per read or pair' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	112 parser.add_option( '-v', '--valAlign', dest='valAlign', help='Report up to n valid alignments per read or pair' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	113 parser.add_option( '-G', '--suppressAlign', dest='suppressAlign', help='Suppress all alignments for a read if more than n reportable alignments exist' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	114 parser.add_option( '-b', '--best', dest='best', help="Whether or not to make Bowtie guarantee that reported singleton alignments are 'best' in terms of stratum and in terms of the quality values at the mismatched positions" )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	115 parser.add_option( '-B', '--maxBacktracks', dest='maxBacktracks', help='Maximum number of backtracks permitted when aligning a read' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	116 parser.add_option( '-R', '--strata', dest='strata', help='Whether or not to report only those alignments that fall in the best stratum if many valid alignments exist and are reportable' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	117 parser.add_option( '-j', '--minInsert', dest='minInsert', help='Minimum insert size for valid paired-end alignments' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	118 parser.add_option( '-J', '--maxInsert', dest='maxInsert', help='Maximum insert size for valid paired-end alignments' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	119 parser.add_option( '-O', '--mateOrient', dest='mateOrient', help='The upstream/downstream mate orientation for valid paired-end alignment against the forward reference strand' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	120 parser.add_option( '-A', '--maxAlignAttempt', dest='maxAlignAttempt', help='Maximum number of attempts Bowtie will make to match an alignment for one mate with an alignment for the opposite mate' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	121 parser.add_option( '-f', '--forwardAlign', dest='forwardAlign', help='Whether or not to attempt to align the forward reference strand' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	122 parser.add_option( '-E', '--reverseAlign', dest='reverseAlign', help='Whether or not to attempt to align the reverse-complement reference strand' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	123 parser.add_option( '-F', '--offrate', dest='offrate', help='Override the offrate of the index to n' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	124 parser.add_option( '-S', '--seed', dest='seed', help='Seed for pseudo-random number generator' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	125 parser.add_option( '-8', '--snpphred', dest='snpphred', help='SNP penalty on Phred scale' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	126 parser.add_option( '-6', '--snpfrac', dest='snpfrac', help='Fraction of sites expected to be SNP sites' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	127 parser.add_option( '-7', '--keepends', dest='keepends', help='Keep extreme-end nucleotides and qualities' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	128 parser.add_option( '-C', '--params', dest='params', help='Whether to use default or specified parameters' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	129 parser.add_option( '-u', '--iautoB', dest='iautoB', help='Automatic or specified behavior' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	130 parser.add_option( '-K', '--ipacked', dest='ipacked', help='Whether or not to use a packed representation for DNA strings' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	131 parser.add_option( '-Q', '--ibmax', dest='ibmax', help='Maximum number of suffixes allowed in a block' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	132 parser.add_option( '-Y', '--ibmaxdivn', dest='ibmaxdivn', help='Maximum number of suffixes allowed in a block as a fraction of the length of the reference' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	133 parser.add_option( '-D', '--idcv', dest='idcv', help='The period for the difference-cover sample' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	134 parser.add_option( '-U', '--inodc', dest='inodc', help='Whether or not to disable the use of the difference-cover sample' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	135 parser.add_option( '-y', '--inoref', dest='inoref', help='Whether or not to build the part of the reference index used only in paired-end alignment' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	136 parser.add_option( '-z', '--ioffrate', dest='ioffrate', help='How many rows get marked during annotation of some or all of the Burrows-Wheeler rows' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	137 parser.add_option( '-W', '--iftab', dest='iftab', help='The size of the lookup table used to calculate an initial Burrows-Wheeler range with respect to the first n characters of the query' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	138 parser.add_option( '-X', '--intoa', dest='intoa', help='Whether or not to convert Ns in the reference sequence to As' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	139 parser.add_option( '-N', '--iendian', dest='iendian', help='Endianness to use when serializing integers to the index file' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	140 parser.add_option( '-Z', '--iseed', dest='iseed', help='Seed for the pseudorandom number generator' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	141 parser.add_option( '-x', '--indexSettings', dest='index_settings', help='Whether or not indexing options are to be set' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	142 parser.add_option( '-H', '--suppressHeader', dest='suppressHeader', help='Suppress header' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	143 parser.add_option( '--galaxy_input_format', dest='galaxy_input_format', default="fastqsanger", help='galaxy input format' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	144 parser.add_option( '--do_not_build_index', dest='do_not_build_index', action="store_true", default=False, help='Flag to specify that provided file is already indexed, use as is' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	145 (options, args) = parser.parse_args()
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	146 if options.mismatchSeed and options.maxMismatches:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	147 parser.error("options --mismatchSeed and --maxMismatches are mutually exclusive")
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	148 stdout = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	149
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	150 # make temp directory for placement of indices and copy reference file there if necessary
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	151 tmp_index_dir = tempfile.mkdtemp()
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	152 # get type of data (solid or solexa)
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	153 if options.dataType == 'solid':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	154 colorspace = '-C'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	155 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	156 colorspace = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	157 # index if necessary
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	158 if options.genomeSource == 'history' and not options.do_not_build_index:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	159 # set up commands
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	160 if options.index_settings == 'indexPreSet':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	161 indexing_cmds = '%s' % colorspace
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	162 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	163 try:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	164 if options.iautoB and options.iautoB == 'set':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	165 iautoB = '--noauto'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	166 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	167 iautoB = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	168 if options.ipacked and options.ipacked == 'packed':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	169 ipacked = '--packed'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	170 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	171 ipacked = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	172 if options.ibmax and int( options.ibmax ) >= 1:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	173 ibmax = '--bmax %s' % options.ibmax
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	174 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	175 ibmax = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	176 if options.ibmaxdivn and int( options.ibmaxdivn ) >= 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	177 ibmaxdivn = '--bmaxdivn %s' % options.ibmaxdivn
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	178 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	179 ibmaxdivn = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	180 if options.idcv and int( options.idcv ) >= 3:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	181 idcv = '--dcv %s' % options.idcv
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	182 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	183 idcv = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	184 if options.inodc and options.inodc == 'nodc':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	185 inodc = '--nodc'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	186 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	187 inodc = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	188 if options.inoref and options.inoref == 'noref':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	189 inoref = '--noref'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	190 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	191 inoref = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	192 if options.iftab and int( options.iftab ) >= 1:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	193 iftab = '--ftabchars %s' % options.iftab
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	194 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	195 iftab = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	196 if options.intoa and options.intoa == 'yes':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	197 intoa = '--ntoa'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	198 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	199 intoa = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	200 if options.iendian and options.iendian == 'big':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	201 iendian = '--big'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	202 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	203 iendian = '--little'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	204 if options.iseed and int( options.iseed ) > 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	205 iseed = '--seed %s' % options.iseed
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	206 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	207 iseed = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	208 indexing_cmds = '%s %s %s %s %s %s %s --offrate %s %s %s %s %s %s' % \
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	209 ( iautoB, ipacked, ibmax, ibmaxdivn, idcv, inodc,
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	210 inoref, options.ioffrate, iftab, intoa, iendian,
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	211 iseed, colorspace )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	212 except ValueError as e:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	213 # clean up temp dir
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	214 if os.path.exists( tmp_index_dir ):
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	215 shutil.rmtree( tmp_index_dir )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	216 stop_err( "Something is wrong with the indexing parameters and the indexing and alignment could not be run. Make sure you don't have any non-numeric values where they should be numeric.\n" + str( e ) )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	217 ref_file = tempfile.NamedTemporaryFile( dir=tmp_index_dir )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	218 ref_file_name = ref_file.name
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	219 ref_file.close()
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	220 os.symlink( options.ref, ref_file_name )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	221 cmd1 = 'bowtie-build %s -f %s %s' % ( indexing_cmds, ref_file_name, ref_file_name )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	222 try:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	223 tmp = tempfile.NamedTemporaryFile( dir=tmp_index_dir ).name
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	224 with open(tmp, 'w') as tmp_stderr:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	225 returncode = subprocess.call(args=cmd1, shell=True, cwd=tmp_index_dir, stderr=tmp_stderr.fileno())
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	226 if returncode != 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	227 # get stderr, allowing for case where it's very large
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	228 stderr = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	229 buffsize = 1048576
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	230 with open(tmp, 'r') as tmp_stderr:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	231 try:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	232 while True:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	233 stderr += tmp_stderr.read(buffsize)
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	234 if not stderr or len(stderr) % buffsize != 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	235 break
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	236 except OverflowError:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	237 pass
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	238 raise Exception(stderr)
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	239 except Exception as e:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	240 # clean up temp dir
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	241 if os.path.exists( tmp_index_dir ):
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	242 shutil.rmtree( tmp_index_dir )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	243 stop_err( 'Error indexing reference sequence\n' + str( e ) )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	244 stdout += 'File indexed. '
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	245 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	246 ref_file_name = options.ref
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	247 # set up aligning and generate aligning command options
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	248 # automatically set threads in both cases
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	249 tmp_suppressed_file_name = None
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	250 tmp_unmapped_file_name = None
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	251 if options.suppressHeader == 'true':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	252 suppressHeader = '--sam-nohead'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	253 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	254 suppressHeader = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	255 if options.maxInsert and int( options.maxInsert ) > 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	256 maxInsert = '-X %s' % options.maxInsert
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	257 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	258 maxInsert = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	259 if options.mateOrient:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	260 mateOrient = '--%s' % options.mateOrient
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	261 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	262 mateOrient = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	263 quality_score_encoding = GALAXY_FORMAT_TO_QUALITY_SCORE_ENCODING_ARG.get( options.galaxy_input_format, DEFAULT_ASCII_ENCODING )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	264 if options.params == 'preSet':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	265 aligning_cmds = '-q %s %s -p %s -S %s %s %s ' % \
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	266 ( maxInsert, mateOrient, options.threads, suppressHeader, colorspace, quality_score_encoding )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	267 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	268 try:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	269 if options.skip and int( options.skip ) > 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	270 skip = '-s %s' % options.skip
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	271 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	272 skip = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	273 if options.alignLimit and int( options.alignLimit ) >= 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	274 alignLimit = '-u %s' % options.alignLimit
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	275 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	276 alignLimit = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	277 if options.trimH and int( options.trimH ) > 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	278 trimH = '-5 %s' % options.trimH
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	279 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	280 trimH = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	281 if options.trimL and int( options.trimL ) > 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	282 trimL = '-3 %s' % options.trimL
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	283 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	284 trimL = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	285 if options.maxMismatches and (options.maxMismatches == '0' or options.maxMismatches == '1' or
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	286 options.maxMismatches == '2' or options.maxMismatches == '3'):
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	287 maxMismatches = '-v %s' % options.maxMismatches
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	288 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	289 maxMismatches = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	290 if options.mismatchSeed and (options.mismatchSeed == '0' or options.mismatchSeed == '1' or
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	291 options.mismatchSeed == '2' or options.mismatchSeed == '3'):
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	292 mismatchSeed = '-n %s' % options.mismatchSeed
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	293 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	294 mismatchSeed = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	295 if options.mismatchQual and int( options.mismatchQual ) >= 1:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	296 mismatchQual = '-e %s' % options.mismatchQual
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	297 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	298 mismatchQual = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	299 if options.seedLen and int( options.seedLen ) >= 5:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	300 seedLen = '-l %s' % options.seedLen
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	301 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	302 seedLen = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	303 if options.rounding == 'noRound':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	304 rounding = '--nomaqround'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	305 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	306 rounding = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	307 if options.minInsert and int( options.minInsert ) > 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	308 minInsert = '-I %s' % options.minInsert
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	309 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	310 minInsert = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	311 if options.maxAlignAttempt and int( options.maxAlignAttempt ) >= 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	312 maxAlignAttempt = '--pairtries %s' % options.maxAlignAttempt
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	313 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	314 maxAlignAttempt = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	315 if options.forwardAlign == 'noForward':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	316 forwardAlign = '--nofw'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	317 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	318 forwardAlign = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	319 if options.reverseAlign == 'noReverse':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	320 reverseAlign = '--norc'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	321 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	322 reverseAlign = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	323 if options.maxBacktracks and int( options.maxBacktracks ) > 0 and \
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	324 ( options.mismatchSeed == '2' or options.mismatchSeed == '3' ):
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	325 maxBacktracks = '--maxbts %s' % options.maxBacktracks
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	326 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	327 maxBacktracks = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	328 if options.tryHard == 'doTryHard':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	329 tryHard = '-y'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	330 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	331 tryHard = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	332 if options.valAlign and int( options.valAlign ) >= 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	333 valAlign = '-k %s' % options.valAlign
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	334 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	335 valAlign = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	336 if options.allValAligns == 'doAllValAligns':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	337 allValAligns = '-a'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	338 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	339 allValAligns = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	340 if options.suppressAlign and int( options.suppressAlign ) >= 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	341 suppressAlign = '-m %s' % options.suppressAlign
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	342 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	343 suppressAlign = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	344 if options.best == 'doBest':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	345 best = '--best'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	346 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	347 best = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	348 if options.strata == 'doStrata':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	349 strata = '--strata'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	350 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	351 strata = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	352 if options.offrate and int( options.offrate ) >= 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	353 offrate = '-o %s' % options.offrate
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	354 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	355 offrate = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	356 if options.seed and int( options.seed ) >= 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	357 seed = '--seed %s' % options.seed
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	358 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	359 seed = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	360 if options.paired == 'paired':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	361 if options.output_unmapped_reads_l and options.output_unmapped_reads_r:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	362 tmp_unmapped_file = tempfile.NamedTemporaryFile( dir=tmp_index_dir, suffix='.fastq' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	363 tmp_unmapped_file_name = tmp_unmapped_file.name
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	364 tmp_unmapped_file.close()
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	365 output_unmapped_reads = '--un %s' % tmp_unmapped_file_name
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	366 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	367 output_unmapped_reads = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	368 if options.output_suppressed_reads:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	369 tmp_suppressed_file = tempfile.NamedTemporaryFile( dir=tmp_index_dir, suffix='.fastq' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	370 tmp_suppressed_file_name = tmp_suppressed_file.name
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	371 tmp_suppressed_file.close()
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	372 output_suppressed_reads = '--max %s' % tmp_suppressed_file_name
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	373 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	374 output_suppressed_reads = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	375 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	376 if options.output_unmapped_reads:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	377 output_unmapped_reads = '--un %s' % options.output_unmapped_reads
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	378 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	379 output_unmapped_reads = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	380 if options.output_suppressed_reads:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	381 output_suppressed_reads = '--max %s' % options.output_suppressed_reads
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	382 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	383 output_suppressed_reads = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	384 snpfrac = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	385 if options.snpphred and int( options.snpphred ) >= 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	386 snpphred = '--snpphred %s' % options.snpphred
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	387 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	388 snpphred = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	389 if options.snpfrac and float( options.snpfrac ) >= 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	390 snpfrac = '--snpfrac %s' % options.snpfrac
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	391 if options.keepends and options.keepends == 'doKeepends':
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	392 keepends = '--col-keepends'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	393 else:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	394 keepends = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	395 aligning_cmds = '-q %s %s -p %s -S %s %s %s %s %s %s %s %s %s %s %s %s ' \
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	396 '%s %s %s %s %s %s %s %s %s %s %s %s %s %s %s %s %s %s ' % \
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	397 ( maxInsert, mateOrient, options.threads, suppressHeader,
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	398 colorspace, skip, alignLimit, trimH, trimL, maxMismatches,
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	399 mismatchSeed, mismatchQual, seedLen, rounding, minInsert,
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	400 maxAlignAttempt, forwardAlign, reverseAlign, maxBacktracks,
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	401 tryHard, valAlign, allValAligns, suppressAlign, best,
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	402 strata, offrate, seed, snpphred, snpfrac, keepends,
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	403 output_unmapped_reads, output_suppressed_reads,
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	404 quality_score_encoding )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	405 except ValueError as e:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	406 # clean up temp dir
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	407 if os.path.exists( tmp_index_dir ):
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	408 shutil.rmtree( tmp_index_dir )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	409 stop_err( 'Something is wrong with the alignment parameters and the alignment could not be run\n' + str( e ) )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	410 try:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	411 # have to nest try-except in try-finally to handle 2.4
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	412 try:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	413 # prepare actual mapping commands
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	414 if options.paired == 'paired':
8 f6ef1c85b045 Uploaded jackcurragh parents: 1 diff changeset	415 # cmd2 = 'bowtie %s %s -1 %s -2 %s > %s \| samtools view -b -S > %s' % ( aligning_cmds, ref_file_name, options.input1, options.input2, options.output, options.output )
f6ef1c85b045 Uploaded jackcurragh parents: 1 diff changeset	416 cmd2 = 'bowtie %s %s -1 %s -2 %s > %s ' % ( aligning_cmds, ref_file_name, options.input1, options.input2, options.output )
f6ef1c85b045 Uploaded jackcurragh parents: 1 diff changeset	417
1 14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	418 else:
8 f6ef1c85b045 Uploaded jackcurragh parents: 1 diff changeset	419 # cmd2 = 'bowtie %s %s %s > %s \| samtools view -b -S > %s' % ( aligning_cmds, ref_file_name, options.input1, options.output, options.output )
f6ef1c85b045 Uploaded jackcurragh parents: 1 diff changeset	420 cmd2 = 'bowtie %s %s %s > %s ' % ( aligning_cmds, ref_file_name, options.input1, options.output )
f6ef1c85b045 Uploaded jackcurragh parents: 1 diff changeset	421
1 14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	422 # align
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	423 tmp = tempfile.NamedTemporaryFile( dir=tmp_index_dir ).name
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	424 with open(tmp, 'w') as tmp_stderr:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	425 returncode = subprocess.call(args=cmd2, shell=True, cwd=tmp_index_dir, stderr=tmp_stderr.fileno())
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	426 # get stderr, allowing for case where it's very large
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	427 stderr = ''
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	428 buffsize = 1048576
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	429 with open(tmp, 'r') as tmp_stderr:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	430 try:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	431 while True:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	432 stderr += tmp_stderr.read(buffsize)
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	433 if not stderr or len(stderr) % buffsize != 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	434 break
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	435 except OverflowError:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	436 pass
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	437 if returncode != 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	438 raise Exception(stderr)
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	439 elif options.output_mapping_stats is not None:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	440 # Write stderr (containing the mapping statistics) to a named file
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	441 with open(options.output_mapping_stats, 'w') as mapping_stats:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	442 mapping_stats.write( stderr )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	443 # get suppressed and unmapped reads output files in place if appropriate
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	444 if options.paired == 'paired' and tmp_suppressed_file_name and \
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	445 options.output_suppressed_reads_l and options.output_suppressed_reads_r:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	446 try:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	447 left = tmp_suppressed_file_name.replace( '.fastq', '_1.fastq' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	448 right = tmp_suppressed_file_name.replace( '.fastq', '_1.fastq' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	449 shutil.move( left, options.output_suppressed_reads_l )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	450 shutil.move( right, options.output_suppressed_reads_r )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	451 except Exception as e:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	452 sys.stdout.write( 'Error producing the suppressed output file.\n' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	453 if options.paired == 'paired' and tmp_unmapped_file_name and \
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	454 options.output_unmapped_reads_l and options.output_unmapped_reads_r:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	455 try:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	456 left = tmp_unmapped_file_name.replace( '.fastq', '_1.fastq' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	457 right = tmp_unmapped_file_name.replace( '.fastq', '_2.fastq' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	458 shutil.move( left, options.output_unmapped_reads_l )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	459 shutil.move( right, options.output_unmapped_reads_r )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	460 except Exception as e:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	461 sys.stdout.write( 'Error producing the unmapped output file.\n' )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	462 # check that there are results in the output file
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	463 if os.path.getsize( options.output ) == 0:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	464 raise Exception('The output file is empty, there may be an error with your input file or settings.')
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	465 except Exception as e:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	466 stop_err( 'Error aligning sequence. ' + str( e ) )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	467 finally:
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	468 # clean up temp dir
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	469 if os.path.exists( tmp_index_dir ):
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	470 shutil.rmtree( tmp_index_dir )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	471 stdout += 'Sequence file aligned.\n'
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	472 sys.stdout.write( stdout )
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	473
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	474
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	475 if __name__ == "__main__":
14fb4b4872e3 Uploaded jackcurragh parents: diff changeset	476 __main__()

Mercurial > repos > jackcurragh > ribogalaxy_bowtie_transcriptome

annotate bowtie_transcriptome_wrapper/bowtie_transcriptome_wrapper.py @ 24:65e9b881213b draft default tip