bwa_tools_mini: bwa_wrapper.py annotate

annotate bwa_wrapper.py @ 0:11eda1d95d84 draft default tip

clone upstream

author	curtish
date	Mon, 26 Aug 2013 17:06:46 -0400
parents
children

rev	line source
0 11eda1d95d84 clone upstream curtish parents: diff changeset	1 #!/usr/bin/env python
11eda1d95d84 clone upstream curtish parents: diff changeset	2
11eda1d95d84 clone upstream curtish parents: diff changeset	3 """
11eda1d95d84 clone upstream curtish parents: diff changeset	4 Runs BWA on single-end or paired-end data.
11eda1d95d84 clone upstream curtish parents: diff changeset	5 Produces a SAM file containing the mappings.
11eda1d95d84 clone upstream curtish parents: diff changeset	6 Works with BWA version 0.5.9.
11eda1d95d84 clone upstream curtish parents: diff changeset	7
11eda1d95d84 clone upstream curtish parents: diff changeset	8 usage: bwa_wrapper.py [options]
11eda1d95d84 clone upstream curtish parents: diff changeset	9
11eda1d95d84 clone upstream curtish parents: diff changeset	10 See below for options
11eda1d95d84 clone upstream curtish parents: diff changeset	11 """
11eda1d95d84 clone upstream curtish parents: diff changeset	12
11eda1d95d84 clone upstream curtish parents: diff changeset	13 import optparse, os, shutil, subprocess, sys, tempfile
11eda1d95d84 clone upstream curtish parents: diff changeset	14
11eda1d95d84 clone upstream curtish parents: diff changeset	15 def stop_err( msg ):
11eda1d95d84 clone upstream curtish parents: diff changeset	16 sys.stderr.write( '%s\n' % msg )
11eda1d95d84 clone upstream curtish parents: diff changeset	17 sys.exit()
11eda1d95d84 clone upstream curtish parents: diff changeset	18
11eda1d95d84 clone upstream curtish parents: diff changeset	19 def check_is_double_encoded( fastq ):
11eda1d95d84 clone upstream curtish parents: diff changeset	20 # check that first read is bases, not one base followed by numbers
11eda1d95d84 clone upstream curtish parents: diff changeset	21 bases = [ 'A', 'C', 'G', 'T', 'a', 'c', 'g', 't', 'N' ]
11eda1d95d84 clone upstream curtish parents: diff changeset	22 nums = [ '0', '1', '2', '3' ]
11eda1d95d84 clone upstream curtish parents: diff changeset	23 for line in file( fastq, 'rb'):
11eda1d95d84 clone upstream curtish parents: diff changeset	24 if not line.strip() or line.startswith( '@' ):
11eda1d95d84 clone upstream curtish parents: diff changeset	25 continue
11eda1d95d84 clone upstream curtish parents: diff changeset	26 if len( [ b for b in line.strip() if b in nums ] ) > 0:
11eda1d95d84 clone upstream curtish parents: diff changeset	27 return False
11eda1d95d84 clone upstream curtish parents: diff changeset	28 elif line.strip()[0] in bases and len( [ b for b in line.strip() if b in bases ] ) == len( line.strip() ):
11eda1d95d84 clone upstream curtish parents: diff changeset	29 return True
11eda1d95d84 clone upstream curtish parents: diff changeset	30 else:
11eda1d95d84 clone upstream curtish parents: diff changeset	31 raise Exception, 'First line in first read does not appear to be a valid FASTQ read in either base-space or color-space'
11eda1d95d84 clone upstream curtish parents: diff changeset	32 raise Exception, 'There is no non-comment and non-blank line in your FASTQ file'
11eda1d95d84 clone upstream curtish parents: diff changeset	33
11eda1d95d84 clone upstream curtish parents: diff changeset	34 def __main__():
11eda1d95d84 clone upstream curtish parents: diff changeset	35 #Parse Command Line
11eda1d95d84 clone upstream curtish parents: diff changeset	36 parser = optparse.OptionParser()
11eda1d95d84 clone upstream curtish parents: diff changeset	37 parser.add_option( '-t', '--threads', dest='threads', help='The number of threads to use' )
11eda1d95d84 clone upstream curtish parents: diff changeset	38 parser.add_option( '-c', '--color-space', dest='color_space', action='store_true', help='If the input files are SOLiD format' )
11eda1d95d84 clone upstream curtish parents: diff changeset	39 parser.add_option( '-r', '--ref', dest='ref', help='The reference genome to use or index' )
11eda1d95d84 clone upstream curtish parents: diff changeset	40 parser.add_option( '-f', '--input1', dest='fastq', help='The (forward) fastq file to use for the mapping' )
11eda1d95d84 clone upstream curtish parents: diff changeset	41 parser.add_option( '-F', '--input2', dest='rfastq', help='The reverse fastq file to use for mapping if paired-end data' )
11eda1d95d84 clone upstream curtish parents: diff changeset	42 parser.add_option( '-u', '--output', dest='output', help='The file to save the output (SAM format)' )
11eda1d95d84 clone upstream curtish parents: diff changeset	43 parser.add_option( '-g', '--genAlignType', dest='genAlignType', help='The type of pairing (single or paired)' )
11eda1d95d84 clone upstream curtish parents: diff changeset	44 parser.add_option( '-p', '--params', dest='params', help='Parameter setting to use (pre_set or full)' )
11eda1d95d84 clone upstream curtish parents: diff changeset	45 parser.add_option( '-s', '--fileSource', dest='fileSource', help='Whether to use a previously indexed reference sequence or one form history (indexed or history)' )
11eda1d95d84 clone upstream curtish parents: diff changeset	46 parser.add_option( '-n', '--maxEditDist', dest='maxEditDist', help='Maximum edit distance if integer' )
11eda1d95d84 clone upstream curtish parents: diff changeset	47 parser.add_option( '-m', '--fracMissingAligns', dest='fracMissingAligns', help='Fraction of missing alignments given 2% uniform base error rate if fraction' )
11eda1d95d84 clone upstream curtish parents: diff changeset	48 parser.add_option( '-o', '--maxGapOpens', dest='maxGapOpens', help='Maximum number of gap opens' )
11eda1d95d84 clone upstream curtish parents: diff changeset	49 parser.add_option( '-e', '--maxGapExtens', dest='maxGapExtens', help='Maximum number of gap extensions' )
11eda1d95d84 clone upstream curtish parents: diff changeset	50 parser.add_option( '-d', '--disallowLongDel', dest='disallowLongDel', help='Disallow a long deletion within specified bps' )
11eda1d95d84 clone upstream curtish parents: diff changeset	51 parser.add_option( '-i', '--disallowIndel', dest='disallowIndel', help='Disallow indel within specified bps' )
11eda1d95d84 clone upstream curtish parents: diff changeset	52 parser.add_option( '-l', '--seed', dest='seed', help='Take the first specified subsequences' )
11eda1d95d84 clone upstream curtish parents: diff changeset	53 parser.add_option( '-k', '--maxEditDistSeed', dest='maxEditDistSeed', help='Maximum edit distance to the seed' )
11eda1d95d84 clone upstream curtish parents: diff changeset	54 parser.add_option( '-M', '--mismatchPenalty', dest='mismatchPenalty', help='Mismatch penalty' )
11eda1d95d84 clone upstream curtish parents: diff changeset	55 parser.add_option( '-O', '--gapOpenPenalty', dest='gapOpenPenalty', help='Gap open penalty' )
11eda1d95d84 clone upstream curtish parents: diff changeset	56 parser.add_option( '-E', '--gapExtensPenalty', dest='gapExtensPenalty', help='Gap extension penalty' )
11eda1d95d84 clone upstream curtish parents: diff changeset	57 parser.add_option( '-R', '--suboptAlign', dest='suboptAlign', default=None, help='Proceed with suboptimal alignments even if the top hit is a repeat' )
11eda1d95d84 clone upstream curtish parents: diff changeset	58 parser.add_option( '-N', '--noIterSearch', dest='noIterSearch', help='Disable iterative search' )
11eda1d95d84 clone upstream curtish parents: diff changeset	59 parser.add_option( '-T', '--outputTopN', dest='outputTopN', help='Maximum number of alignments to output in the XA tag for reads paired properly' )
11eda1d95d84 clone upstream curtish parents: diff changeset	60 parser.add_option( '', '--outputTopNDisc', dest='outputTopNDisc', help='Maximum number of alignments to output in the XA tag for disconcordant read pairs (excluding singletons)' )
11eda1d95d84 clone upstream curtish parents: diff changeset	61 parser.add_option( '-S', '--maxInsertSize', dest='maxInsertSize', help='Maximum insert size for a read pair to be considered mapped good' )
11eda1d95d84 clone upstream curtish parents: diff changeset	62 parser.add_option( '-P', '--maxOccurPairing', dest='maxOccurPairing', help='Maximum occurrences of a read for pairings' )
11eda1d95d84 clone upstream curtish parents: diff changeset	63 parser.add_option( '', '--rgid', dest='rgid', help='Read group identifier' )
11eda1d95d84 clone upstream curtish parents: diff changeset	64 parser.add_option( '', '--rgcn', dest='rgcn', help='Sequencing center that produced the read' )
11eda1d95d84 clone upstream curtish parents: diff changeset	65 parser.add_option( '', '--rgds', dest='rgds', help='Description' )
11eda1d95d84 clone upstream curtish parents: diff changeset	66 parser.add_option( '', '--rgdt', dest='rgdt', help='Date that run was produced (ISO8601 format date or date/time, like YYYY-MM-DD)' )
11eda1d95d84 clone upstream curtish parents: diff changeset	67 parser.add_option( '', '--rgfo', dest='rgfo', help='Flow order' )
11eda1d95d84 clone upstream curtish parents: diff changeset	68 parser.add_option( '', '--rgks', dest='rgks', help='The array of nucleotide bases that correspond to the key sequence of each read' )
11eda1d95d84 clone upstream curtish parents: diff changeset	69 parser.add_option( '', '--rglb', dest='rglb', help='Library name' )
11eda1d95d84 clone upstream curtish parents: diff changeset	70 parser.add_option( '', '--rgpg', dest='rgpg', help='Programs used for processing the read group' )
11eda1d95d84 clone upstream curtish parents: diff changeset	71 parser.add_option( '', '--rgpi', dest='rgpi', help='Predicted median insert size' )
11eda1d95d84 clone upstream curtish parents: diff changeset	72 parser.add_option( '', '--rgpl', dest='rgpl', choices=[ 'CAPILLARY', 'LS454', 'ILLUMINA', 'SOLID', 'HELICOS', 'IONTORRENT' and 'PACBIO' ], help='Platform/technology used to produce the reads' )
11eda1d95d84 clone upstream curtish parents: diff changeset	73 parser.add_option( '', '--rgpu', dest='rgpu', help='Platform unit (e.g. flowcell-barcode.lane for Illumina or slide for SOLiD)' )
11eda1d95d84 clone upstream curtish parents: diff changeset	74 parser.add_option( '', '--rgsm', dest='rgsm', help='Sample' )
11eda1d95d84 clone upstream curtish parents: diff changeset	75 parser.add_option( '-D', '--dbkey', dest='dbkey', help='Dbkey for reference genome' )
11eda1d95d84 clone upstream curtish parents: diff changeset	76 parser.add_option( '-X', '--do_not_build_index', dest='do_not_build_index', action='store_true', help="Don't build index" )
11eda1d95d84 clone upstream curtish parents: diff changeset	77 parser.add_option( '-H', '--suppressHeader', dest='suppressHeader', help='Suppress header' )
11eda1d95d84 clone upstream curtish parents: diff changeset	78 parser.add_option( '-I', '--illumina1.3', dest='illumina13qual', help='Input FASTQ files have Illuina 1.3 quality scores' )
11eda1d95d84 clone upstream curtish parents: diff changeset	79 (options, args) = parser.parse_args()
11eda1d95d84 clone upstream curtish parents: diff changeset	80
11eda1d95d84 clone upstream curtish parents: diff changeset	81 # output version # of tool
11eda1d95d84 clone upstream curtish parents: diff changeset	82 try:
11eda1d95d84 clone upstream curtish parents: diff changeset	83 tmp = tempfile.NamedTemporaryFile().name
11eda1d95d84 clone upstream curtish parents: diff changeset	84 tmp_stdout = open( tmp, 'wb' )
11eda1d95d84 clone upstream curtish parents: diff changeset	85 proc = subprocess.Popen( args='bwa 2>&1', shell=True, stdout=tmp_stdout )
11eda1d95d84 clone upstream curtish parents: diff changeset	86 tmp_stdout.close()
11eda1d95d84 clone upstream curtish parents: diff changeset	87 returncode = proc.wait()
11eda1d95d84 clone upstream curtish parents: diff changeset	88 stdout = None
11eda1d95d84 clone upstream curtish parents: diff changeset	89 for line in open( tmp_stdout.name, 'rb' ):
11eda1d95d84 clone upstream curtish parents: diff changeset	90 if line.lower().find( 'version' ) >= 0:
11eda1d95d84 clone upstream curtish parents: diff changeset	91 stdout = line.strip()
11eda1d95d84 clone upstream curtish parents: diff changeset	92 break
11eda1d95d84 clone upstream curtish parents: diff changeset	93 if stdout:
11eda1d95d84 clone upstream curtish parents: diff changeset	94 sys.stdout.write( 'BWA %s\n' % stdout )
11eda1d95d84 clone upstream curtish parents: diff changeset	95 else:
11eda1d95d84 clone upstream curtish parents: diff changeset	96 raise Exception
11eda1d95d84 clone upstream curtish parents: diff changeset	97 except:
11eda1d95d84 clone upstream curtish parents: diff changeset	98 sys.stdout.write( 'Could not determine BWA version\n' )
11eda1d95d84 clone upstream curtish parents: diff changeset	99
11eda1d95d84 clone upstream curtish parents: diff changeset	100 # check for color space fastq that's not double-encoded and exit if appropriate
11eda1d95d84 clone upstream curtish parents: diff changeset	101 if options.color_space:
11eda1d95d84 clone upstream curtish parents: diff changeset	102 if not check_is_double_encoded( options.fastq ):
11eda1d95d84 clone upstream curtish parents: diff changeset	103 stop_err( 'Your file must be double-encoded (it must be converted from "numbers" to "bases"). See the help section for details' )
11eda1d95d84 clone upstream curtish parents: diff changeset	104 if options.genAlignType == 'paired':
11eda1d95d84 clone upstream curtish parents: diff changeset	105 if not check_is_double_encoded( options.rfastq ):
11eda1d95d84 clone upstream curtish parents: diff changeset	106 stop_err( 'Your reverse reads file must also be double-encoded (it must be converted from "numbers" to "bases"). See the help section for details' )
11eda1d95d84 clone upstream curtish parents: diff changeset	107
11eda1d95d84 clone upstream curtish parents: diff changeset	108 fastq = options.fastq
11eda1d95d84 clone upstream curtish parents: diff changeset	109 if options.rfastq:
11eda1d95d84 clone upstream curtish parents: diff changeset	110 rfastq = options.rfastq
11eda1d95d84 clone upstream curtish parents: diff changeset	111
11eda1d95d84 clone upstream curtish parents: diff changeset	112 # set color space variable
11eda1d95d84 clone upstream curtish parents: diff changeset	113 if options.color_space:
11eda1d95d84 clone upstream curtish parents: diff changeset	114 color_space = '-c'
11eda1d95d84 clone upstream curtish parents: diff changeset	115 else:
11eda1d95d84 clone upstream curtish parents: diff changeset	116 color_space = ''
11eda1d95d84 clone upstream curtish parents: diff changeset	117
11eda1d95d84 clone upstream curtish parents: diff changeset	118 # make temp directory for placement of indices
11eda1d95d84 clone upstream curtish parents: diff changeset	119 tmp_index_dir = tempfile.mkdtemp()
11eda1d95d84 clone upstream curtish parents: diff changeset	120 tmp_dir = tempfile.mkdtemp()
11eda1d95d84 clone upstream curtish parents: diff changeset	121 # index if necessary
11eda1d95d84 clone upstream curtish parents: diff changeset	122 if options.fileSource == 'history' and not options.do_not_build_index:
11eda1d95d84 clone upstream curtish parents: diff changeset	123 ref_file = tempfile.NamedTemporaryFile( dir=tmp_index_dir )
11eda1d95d84 clone upstream curtish parents: diff changeset	124 ref_file_name = ref_file.name
11eda1d95d84 clone upstream curtish parents: diff changeset	125 ref_file.close()
11eda1d95d84 clone upstream curtish parents: diff changeset	126 os.symlink( options.ref, ref_file_name )
11eda1d95d84 clone upstream curtish parents: diff changeset	127 # determine which indexing algorithm to use, based on size
11eda1d95d84 clone upstream curtish parents: diff changeset	128 try:
11eda1d95d84 clone upstream curtish parents: diff changeset	129 size = os.stat( options.ref ).st_size
11eda1d95d84 clone upstream curtish parents: diff changeset	130 if size <= 2**30:
11eda1d95d84 clone upstream curtish parents: diff changeset	131 indexingAlg = 'is'
11eda1d95d84 clone upstream curtish parents: diff changeset	132 else:
11eda1d95d84 clone upstream curtish parents: diff changeset	133 indexingAlg = 'bwtsw'
11eda1d95d84 clone upstream curtish parents: diff changeset	134 except:
11eda1d95d84 clone upstream curtish parents: diff changeset	135 indexingAlg = 'is'
11eda1d95d84 clone upstream curtish parents: diff changeset	136 indexing_cmds = '%s -a %s' % ( color_space, indexingAlg )
11eda1d95d84 clone upstream curtish parents: diff changeset	137 cmd1 = 'bwa index %s %s' % ( indexing_cmds, ref_file_name )
11eda1d95d84 clone upstream curtish parents: diff changeset	138 try:
11eda1d95d84 clone upstream curtish parents: diff changeset	139 tmp = tempfile.NamedTemporaryFile( dir=tmp_index_dir ).name
11eda1d95d84 clone upstream curtish parents: diff changeset	140 tmp_stderr = open( tmp, 'wb' )
11eda1d95d84 clone upstream curtish parents: diff changeset	141 proc = subprocess.Popen( args=cmd1, shell=True, cwd=tmp_index_dir, stderr=tmp_stderr.fileno() )
11eda1d95d84 clone upstream curtish parents: diff changeset	142 returncode = proc.wait()
11eda1d95d84 clone upstream curtish parents: diff changeset	143 tmp_stderr.close()
11eda1d95d84 clone upstream curtish parents: diff changeset	144 # get stderr, allowing for case where it's very large
11eda1d95d84 clone upstream curtish parents: diff changeset	145 tmp_stderr = open( tmp, 'rb' )
11eda1d95d84 clone upstream curtish parents: diff changeset	146 stderr = ''
11eda1d95d84 clone upstream curtish parents: diff changeset	147 buffsize = 1048576
11eda1d95d84 clone upstream curtish parents: diff changeset	148 try:
11eda1d95d84 clone upstream curtish parents: diff changeset	149 while True:
11eda1d95d84 clone upstream curtish parents: diff changeset	150 stderr += tmp_stderr.read( buffsize )
11eda1d95d84 clone upstream curtish parents: diff changeset	151 if not stderr or len( stderr ) % buffsize != 0:
11eda1d95d84 clone upstream curtish parents: diff changeset	152 break
11eda1d95d84 clone upstream curtish parents: diff changeset	153 except OverflowError:
11eda1d95d84 clone upstream curtish parents: diff changeset	154 pass
11eda1d95d84 clone upstream curtish parents: diff changeset	155 tmp_stderr.close()
11eda1d95d84 clone upstream curtish parents: diff changeset	156 if returncode != 0:
11eda1d95d84 clone upstream curtish parents: diff changeset	157 raise Exception, stderr
11eda1d95d84 clone upstream curtish parents: diff changeset	158 except Exception, e:
11eda1d95d84 clone upstream curtish parents: diff changeset	159 # clean up temp dirs
11eda1d95d84 clone upstream curtish parents: diff changeset	160 if os.path.exists( tmp_index_dir ):
11eda1d95d84 clone upstream curtish parents: diff changeset	161 shutil.rmtree( tmp_index_dir )
11eda1d95d84 clone upstream curtish parents: diff changeset	162 if os.path.exists( tmp_dir ):
11eda1d95d84 clone upstream curtish parents: diff changeset	163 shutil.rmtree( tmp_dir )
11eda1d95d84 clone upstream curtish parents: diff changeset	164 stop_err( 'Error indexing reference sequence. ' + str( e ) )
11eda1d95d84 clone upstream curtish parents: diff changeset	165 else:
11eda1d95d84 clone upstream curtish parents: diff changeset	166 ref_file_name = options.ref
11eda1d95d84 clone upstream curtish parents: diff changeset	167 if options.illumina13qual:
11eda1d95d84 clone upstream curtish parents: diff changeset	168 illumina_quals = "-I"
11eda1d95d84 clone upstream curtish parents: diff changeset	169 else:
11eda1d95d84 clone upstream curtish parents: diff changeset	170 illumina_quals = ""
11eda1d95d84 clone upstream curtish parents: diff changeset	171
11eda1d95d84 clone upstream curtish parents: diff changeset	172 # set up aligning and generate aligning command options
11eda1d95d84 clone upstream curtish parents: diff changeset	173 if options.params == 'pre_set':
11eda1d95d84 clone upstream curtish parents: diff changeset	174 aligning_cmds = '-t %s %s %s' % ( options.threads, color_space, illumina_quals )
11eda1d95d84 clone upstream curtish parents: diff changeset	175 gen_alignment_cmds = ''
11eda1d95d84 clone upstream curtish parents: diff changeset	176 else:
11eda1d95d84 clone upstream curtish parents: diff changeset	177 if options.maxEditDist != '0':
11eda1d95d84 clone upstream curtish parents: diff changeset	178 editDist = options.maxEditDist
11eda1d95d84 clone upstream curtish parents: diff changeset	179 else:
11eda1d95d84 clone upstream curtish parents: diff changeset	180 editDist = options.fracMissingAligns
11eda1d95d84 clone upstream curtish parents: diff changeset	181 if options.seed != '-1':
11eda1d95d84 clone upstream curtish parents: diff changeset	182 seed = '-l %s' % options.seed
11eda1d95d84 clone upstream curtish parents: diff changeset	183 else:
11eda1d95d84 clone upstream curtish parents: diff changeset	184 seed = ''
11eda1d95d84 clone upstream curtish parents: diff changeset	185 if options.suboptAlign:
11eda1d95d84 clone upstream curtish parents: diff changeset	186 suboptAlign = '-R "%s"' % ( options.suboptAlign )
11eda1d95d84 clone upstream curtish parents: diff changeset	187 else:
11eda1d95d84 clone upstream curtish parents: diff changeset	188 suboptAlign = ''
11eda1d95d84 clone upstream curtish parents: diff changeset	189 if options.noIterSearch == 'true':
11eda1d95d84 clone upstream curtish parents: diff changeset	190 noIterSearch = '-N'
11eda1d95d84 clone upstream curtish parents: diff changeset	191 else:
11eda1d95d84 clone upstream curtish parents: diff changeset	192 noIterSearch = ''
11eda1d95d84 clone upstream curtish parents: diff changeset	193 aligning_cmds = '-n %s -o %s -e %s -d %s -i %s %s -k %s -t %s -M %s -O %s -E %s %s %s %s %s' % \
11eda1d95d84 clone upstream curtish parents: diff changeset	194 ( editDist, options.maxGapOpens, options.maxGapExtens, options.disallowLongDel,
11eda1d95d84 clone upstream curtish parents: diff changeset	195 options.disallowIndel, seed, options.maxEditDistSeed, options.threads,
11eda1d95d84 clone upstream curtish parents: diff changeset	196 options.mismatchPenalty, options.gapOpenPenalty, options.gapExtensPenalty,
11eda1d95d84 clone upstream curtish parents: diff changeset	197 suboptAlign, noIterSearch, color_space, illumina_quals )
11eda1d95d84 clone upstream curtish parents: diff changeset	198 if options.genAlignType == 'paired':
11eda1d95d84 clone upstream curtish parents: diff changeset	199 gen_alignment_cmds = '-a %s -o %s' % ( options.maxInsertSize, options.maxOccurPairing )
11eda1d95d84 clone upstream curtish parents: diff changeset	200 if options.outputTopNDisc:
11eda1d95d84 clone upstream curtish parents: diff changeset	201 gen_alignment_cmds += ' -N %s' % options.outputTopNDisc
11eda1d95d84 clone upstream curtish parents: diff changeset	202 else:
11eda1d95d84 clone upstream curtish parents: diff changeset	203 gen_alignment_cmds = ''
11eda1d95d84 clone upstream curtish parents: diff changeset	204 if options.rgid:
11eda1d95d84 clone upstream curtish parents: diff changeset	205 if not options.rglb or not options.rgpl or not options.rgsm:
11eda1d95d84 clone upstream curtish parents: diff changeset	206 stop_err( 'If you want to specify read groups, you must include the ID, LB, PL, and SM tags.' )
11eda1d95d84 clone upstream curtish parents: diff changeset	207 readGroup = '@RG\tID:%s\tLB:%s\tPL:%s\tSM:%s' % ( options.rgid, options.rglb, options.rgpl, options.rgsm )
11eda1d95d84 clone upstream curtish parents: diff changeset	208 if options.rgcn:
11eda1d95d84 clone upstream curtish parents: diff changeset	209 readGroup += '\tCN:%s' % options.rgcn
11eda1d95d84 clone upstream curtish parents: diff changeset	210 if options.rgds:
11eda1d95d84 clone upstream curtish parents: diff changeset	211 readGroup += '\tDS:%s' % options.rgds
11eda1d95d84 clone upstream curtish parents: diff changeset	212 if options.rgdt:
11eda1d95d84 clone upstream curtish parents: diff changeset	213 readGroup += '\tDT:%s' % options.rgdt
11eda1d95d84 clone upstream curtish parents: diff changeset	214 if options.rgfo:
11eda1d95d84 clone upstream curtish parents: diff changeset	215 readGroup += '\tFO:%s' % options.rgfo
11eda1d95d84 clone upstream curtish parents: diff changeset	216 if options.rgks:
11eda1d95d84 clone upstream curtish parents: diff changeset	217 readGroup += '\tKS:%s' % options.rgks
11eda1d95d84 clone upstream curtish parents: diff changeset	218 if options.rgpg:
11eda1d95d84 clone upstream curtish parents: diff changeset	219 readGroup += '\tPG:%s' % options.rgpg
11eda1d95d84 clone upstream curtish parents: diff changeset	220 if options.rgpi:
11eda1d95d84 clone upstream curtish parents: diff changeset	221 readGroup += '\tPI:%s' % options.rgpi
11eda1d95d84 clone upstream curtish parents: diff changeset	222 if options.rgpu:
11eda1d95d84 clone upstream curtish parents: diff changeset	223 readGroup += '\tPU:%s' % options.rgpu
11eda1d95d84 clone upstream curtish parents: diff changeset	224 gen_alignment_cmds += ' -r "%s"' % readGroup
11eda1d95d84 clone upstream curtish parents: diff changeset	225 if options.outputTopN:
11eda1d95d84 clone upstream curtish parents: diff changeset	226 gen_alignment_cmds += ' -n %s' % options.outputTopN
11eda1d95d84 clone upstream curtish parents: diff changeset	227 # set up output files
11eda1d95d84 clone upstream curtish parents: diff changeset	228 tmp_align_out = tempfile.NamedTemporaryFile( dir=tmp_dir )
11eda1d95d84 clone upstream curtish parents: diff changeset	229 tmp_align_out_name = tmp_align_out.name
11eda1d95d84 clone upstream curtish parents: diff changeset	230 tmp_align_out.close()
11eda1d95d84 clone upstream curtish parents: diff changeset	231 tmp_align_out2 = tempfile.NamedTemporaryFile( dir=tmp_dir )
11eda1d95d84 clone upstream curtish parents: diff changeset	232 tmp_align_out2_name = tmp_align_out2.name
11eda1d95d84 clone upstream curtish parents: diff changeset	233 tmp_align_out2.close()
11eda1d95d84 clone upstream curtish parents: diff changeset	234 # prepare actual aligning and generate aligning commands
11eda1d95d84 clone upstream curtish parents: diff changeset	235 cmd2 = 'bwa aln %s %s %s > %s' % ( aligning_cmds, ref_file_name, fastq, tmp_align_out_name )
11eda1d95d84 clone upstream curtish parents: diff changeset	236 cmd2b = ''
11eda1d95d84 clone upstream curtish parents: diff changeset	237 if options.genAlignType == 'paired':
11eda1d95d84 clone upstream curtish parents: diff changeset	238 cmd2b = 'bwa aln %s %s %s > %s' % ( aligning_cmds, ref_file_name, rfastq, tmp_align_out2_name )
11eda1d95d84 clone upstream curtish parents: diff changeset	239 cmd3 = 'bwa sampe %s %s %s %s %s %s >> %s' % ( gen_alignment_cmds, ref_file_name, tmp_align_out_name, tmp_align_out2_name, fastq, rfastq, options.output )
11eda1d95d84 clone upstream curtish parents: diff changeset	240 else:
11eda1d95d84 clone upstream curtish parents: diff changeset	241 cmd3 = 'bwa samse %s %s %s %s >> %s' % ( gen_alignment_cmds, ref_file_name, tmp_align_out_name, fastq, options.output )
11eda1d95d84 clone upstream curtish parents: diff changeset	242 # perform alignments
11eda1d95d84 clone upstream curtish parents: diff changeset	243 buffsize = 1048576
11eda1d95d84 clone upstream curtish parents: diff changeset	244 try:
11eda1d95d84 clone upstream curtish parents: diff changeset	245 # need to nest try-except in try-finally to handle 2.4
11eda1d95d84 clone upstream curtish parents: diff changeset	246 try:
11eda1d95d84 clone upstream curtish parents: diff changeset	247 # align
11eda1d95d84 clone upstream curtish parents: diff changeset	248 try:
11eda1d95d84 clone upstream curtish parents: diff changeset	249 tmp = tempfile.NamedTemporaryFile( dir=tmp_dir ).name
11eda1d95d84 clone upstream curtish parents: diff changeset	250 tmp_stderr = open( tmp, 'wb' )
11eda1d95d84 clone upstream curtish parents: diff changeset	251 proc = subprocess.Popen( args=cmd2, shell=True, cwd=tmp_dir, stderr=tmp_stderr.fileno() )
11eda1d95d84 clone upstream curtish parents: diff changeset	252 returncode = proc.wait()
11eda1d95d84 clone upstream curtish parents: diff changeset	253 tmp_stderr.close()
11eda1d95d84 clone upstream curtish parents: diff changeset	254 # get stderr, allowing for case where it's very large
11eda1d95d84 clone upstream curtish parents: diff changeset	255 tmp_stderr = open( tmp, 'rb' )
11eda1d95d84 clone upstream curtish parents: diff changeset	256 stderr = ''
11eda1d95d84 clone upstream curtish parents: diff changeset	257 try:
11eda1d95d84 clone upstream curtish parents: diff changeset	258 while True:
11eda1d95d84 clone upstream curtish parents: diff changeset	259 stderr += tmp_stderr.read( buffsize )
11eda1d95d84 clone upstream curtish parents: diff changeset	260 if not stderr or len( stderr ) % buffsize != 0:
11eda1d95d84 clone upstream curtish parents: diff changeset	261 break
11eda1d95d84 clone upstream curtish parents: diff changeset	262 except OverflowError:
11eda1d95d84 clone upstream curtish parents: diff changeset	263 pass
11eda1d95d84 clone upstream curtish parents: diff changeset	264 tmp_stderr.close()
11eda1d95d84 clone upstream curtish parents: diff changeset	265 if returncode != 0:
11eda1d95d84 clone upstream curtish parents: diff changeset	266 raise Exception, stderr
11eda1d95d84 clone upstream curtish parents: diff changeset	267 except Exception, e:
11eda1d95d84 clone upstream curtish parents: diff changeset	268 raise Exception, 'Error aligning sequence. ' + str( e )
11eda1d95d84 clone upstream curtish parents: diff changeset	269 # and again if paired data
11eda1d95d84 clone upstream curtish parents: diff changeset	270 try:
11eda1d95d84 clone upstream curtish parents: diff changeset	271 if cmd2b:
11eda1d95d84 clone upstream curtish parents: diff changeset	272 tmp = tempfile.NamedTemporaryFile( dir=tmp_dir ).name
11eda1d95d84 clone upstream curtish parents: diff changeset	273 tmp_stderr = open( tmp, 'wb' )
11eda1d95d84 clone upstream curtish parents: diff changeset	274 proc = subprocess.Popen( args=cmd2b, shell=True, cwd=tmp_dir, stderr=tmp_stderr.fileno() )
11eda1d95d84 clone upstream curtish parents: diff changeset	275 returncode = proc.wait()
11eda1d95d84 clone upstream curtish parents: diff changeset	276 tmp_stderr.close()
11eda1d95d84 clone upstream curtish parents: diff changeset	277 # get stderr, allowing for case where it's very large
11eda1d95d84 clone upstream curtish parents: diff changeset	278 tmp_stderr = open( tmp, 'rb' )
11eda1d95d84 clone upstream curtish parents: diff changeset	279 stderr = ''
11eda1d95d84 clone upstream curtish parents: diff changeset	280 try:
11eda1d95d84 clone upstream curtish parents: diff changeset	281 while True:
11eda1d95d84 clone upstream curtish parents: diff changeset	282 stderr += tmp_stderr.read( buffsize )
11eda1d95d84 clone upstream curtish parents: diff changeset	283 if not stderr or len( stderr ) % buffsize != 0:
11eda1d95d84 clone upstream curtish parents: diff changeset	284 break
11eda1d95d84 clone upstream curtish parents: diff changeset	285 except OverflowError:
11eda1d95d84 clone upstream curtish parents: diff changeset	286 pass
11eda1d95d84 clone upstream curtish parents: diff changeset	287 tmp_stderr.close()
11eda1d95d84 clone upstream curtish parents: diff changeset	288 if returncode != 0:
11eda1d95d84 clone upstream curtish parents: diff changeset	289 raise Exception, stderr
11eda1d95d84 clone upstream curtish parents: diff changeset	290 except Exception, e:
11eda1d95d84 clone upstream curtish parents: diff changeset	291 raise Exception, 'Error aligning second sequence. ' + str( e )
11eda1d95d84 clone upstream curtish parents: diff changeset	292 # generate align
11eda1d95d84 clone upstream curtish parents: diff changeset	293 try:
11eda1d95d84 clone upstream curtish parents: diff changeset	294 tmp = tempfile.NamedTemporaryFile( dir=tmp_dir ).name
11eda1d95d84 clone upstream curtish parents: diff changeset	295 tmp_stderr = open( tmp, 'wb' )
11eda1d95d84 clone upstream curtish parents: diff changeset	296 proc = subprocess.Popen( args=cmd3, shell=True, cwd=tmp_dir, stderr=tmp_stderr.fileno() )
11eda1d95d84 clone upstream curtish parents: diff changeset	297 returncode = proc.wait()
11eda1d95d84 clone upstream curtish parents: diff changeset	298 tmp_stderr.close()
11eda1d95d84 clone upstream curtish parents: diff changeset	299 # get stderr, allowing for case where it's very large
11eda1d95d84 clone upstream curtish parents: diff changeset	300 tmp_stderr = open( tmp, 'rb' )
11eda1d95d84 clone upstream curtish parents: diff changeset	301 stderr = ''
11eda1d95d84 clone upstream curtish parents: diff changeset	302 try:
11eda1d95d84 clone upstream curtish parents: diff changeset	303 while True:
11eda1d95d84 clone upstream curtish parents: diff changeset	304 stderr += tmp_stderr.read( buffsize )
11eda1d95d84 clone upstream curtish parents: diff changeset	305 if not stderr or len( stderr ) % buffsize != 0:
11eda1d95d84 clone upstream curtish parents: diff changeset	306 break
11eda1d95d84 clone upstream curtish parents: diff changeset	307 except OverflowError:
11eda1d95d84 clone upstream curtish parents: diff changeset	308 pass
11eda1d95d84 clone upstream curtish parents: diff changeset	309 tmp_stderr.close()
11eda1d95d84 clone upstream curtish parents: diff changeset	310 if returncode != 0:
11eda1d95d84 clone upstream curtish parents: diff changeset	311 raise Exception, stderr
11eda1d95d84 clone upstream curtish parents: diff changeset	312 except Exception, e:
11eda1d95d84 clone upstream curtish parents: diff changeset	313 raise Exception, 'Error generating alignments. ' + str( e )
11eda1d95d84 clone upstream curtish parents: diff changeset	314 # remove header if necessary
11eda1d95d84 clone upstream curtish parents: diff changeset	315 if options.suppressHeader == 'true':
11eda1d95d84 clone upstream curtish parents: diff changeset	316 tmp_out = tempfile.NamedTemporaryFile( dir=tmp_dir)
11eda1d95d84 clone upstream curtish parents: diff changeset	317 tmp_out_name = tmp_out.name
11eda1d95d84 clone upstream curtish parents: diff changeset	318 tmp_out.close()
11eda1d95d84 clone upstream curtish parents: diff changeset	319 try:
11eda1d95d84 clone upstream curtish parents: diff changeset	320 shutil.move( options.output, tmp_out_name )
11eda1d95d84 clone upstream curtish parents: diff changeset	321 except Exception, e:
11eda1d95d84 clone upstream curtish parents: diff changeset	322 raise Exception, 'Error moving output file before removing headers. ' + str( e )
11eda1d95d84 clone upstream curtish parents: diff changeset	323 fout = file( options.output, 'w' )
11eda1d95d84 clone upstream curtish parents: diff changeset	324 for line in file( tmp_out.name, 'r' ):
11eda1d95d84 clone upstream curtish parents: diff changeset	325 if not ( line.startswith( '@HD' ) or line.startswith( '@SQ' ) or line.startswith( '@RG' ) or line.startswith( '@PG' ) or line.startswith( '@CO' ) ):
11eda1d95d84 clone upstream curtish parents: diff changeset	326 fout.write( line )
11eda1d95d84 clone upstream curtish parents: diff changeset	327 fout.close()
11eda1d95d84 clone upstream curtish parents: diff changeset	328 # check that there are results in the output file
11eda1d95d84 clone upstream curtish parents: diff changeset	329 if os.path.getsize( options.output ) > 0:
11eda1d95d84 clone upstream curtish parents: diff changeset	330 sys.stdout.write( 'BWA run on %s-end data' % options.genAlignType )
11eda1d95d84 clone upstream curtish parents: diff changeset	331 else:
11eda1d95d84 clone upstream curtish parents: diff changeset	332 raise Exception, 'The output file is empty. You may simply have no matches, or there may be an error with your input file or settings.'
11eda1d95d84 clone upstream curtish parents: diff changeset	333 except Exception, e:
11eda1d95d84 clone upstream curtish parents: diff changeset	334 stop_err( 'The alignment failed.\n' + str( e ) )
11eda1d95d84 clone upstream curtish parents: diff changeset	335 finally:
11eda1d95d84 clone upstream curtish parents: diff changeset	336 # clean up temp dir
11eda1d95d84 clone upstream curtish parents: diff changeset	337 if os.path.exists( tmp_index_dir ):
11eda1d95d84 clone upstream curtish parents: diff changeset	338 shutil.rmtree( tmp_index_dir )
11eda1d95d84 clone upstream curtish parents: diff changeset	339 if os.path.exists( tmp_dir ):
11eda1d95d84 clone upstream curtish parents: diff changeset	340 shutil.rmtree( tmp_dir )
11eda1d95d84 clone upstream curtish parents: diff changeset	341
11eda1d95d84 clone upstream curtish parents: diff changeset	342 if __name__=="__main__": __main__()

Mercurial > repos > curtish > bwa_tools_mini

annotate bwa_wrapper.py @ 0:11eda1d95d84 draft default tip