bwa_wrappers: bwa_wrapper.py annotate

annotate bwa_wrapper.py @ 0:8d92246f41bb draft

Uploaded

author	evan
date	Thu, 05 Jun 2014 15:15:34 -0400
parents
children	3a001705dc94

rev	line source
0 8d92246f41bb Uploaded evan parents: diff changeset	1 #!/usr/bin/env python
8d92246f41bb Uploaded evan parents: diff changeset	2
8d92246f41bb Uploaded evan parents: diff changeset	3 """
8d92246f41bb Uploaded evan parents: diff changeset	4 Runs BWA on single-end or paired-end data.
8d92246f41bb Uploaded evan parents: diff changeset	5 Produces a SAM file containing the mappings.
8d92246f41bb Uploaded evan parents: diff changeset	6 Works with BWA version 0.5.9.
8d92246f41bb Uploaded evan parents: diff changeset	7
8d92246f41bb Uploaded evan parents: diff changeset	8 usage: bwa_wrapper.py [options]
8d92246f41bb Uploaded evan parents: diff changeset	9
8d92246f41bb Uploaded evan parents: diff changeset	10 See below for options
8d92246f41bb Uploaded evan parents: diff changeset	11 """
8d92246f41bb Uploaded evan parents: diff changeset	12
8d92246f41bb Uploaded evan parents: diff changeset	13 import optparse, os, shutil, subprocess, sys, tempfile
8d92246f41bb Uploaded evan parents: diff changeset	14
8d92246f41bb Uploaded evan parents: diff changeset	15 def stop_err( msg ):
8d92246f41bb Uploaded evan parents: diff changeset	16 sys.stderr.write( '%s\n' % msg )
8d92246f41bb Uploaded evan parents: diff changeset	17 sys.exit()
8d92246f41bb Uploaded evan parents: diff changeset	18
8d92246f41bb Uploaded evan parents: diff changeset	19 def check_is_double_encoded( fastq ):
8d92246f41bb Uploaded evan parents: diff changeset	20 # check that first read is bases, not one base followed by numbers
8d92246f41bb Uploaded evan parents: diff changeset	21 bases = [ 'A', 'C', 'G', 'T', 'a', 'c', 'g', 't', 'N' ]
8d92246f41bb Uploaded evan parents: diff changeset	22 nums = [ '0', '1', '2', '3' ]
8d92246f41bb Uploaded evan parents: diff changeset	23 for line in file( fastq, 'rb'):
8d92246f41bb Uploaded evan parents: diff changeset	24 if not line.strip() or line.startswith( '@' ):
8d92246f41bb Uploaded evan parents: diff changeset	25 continue
8d92246f41bb Uploaded evan parents: diff changeset	26 if len( [ b for b in line.strip() if b in nums ] ) > 0:
8d92246f41bb Uploaded evan parents: diff changeset	27 return False
8d92246f41bb Uploaded evan parents: diff changeset	28 elif line.strip()[0] in bases and len( [ b for b in line.strip() if b in bases ] ) == len( line.strip() ):
8d92246f41bb Uploaded evan parents: diff changeset	29 return True
8d92246f41bb Uploaded evan parents: diff changeset	30 else:
8d92246f41bb Uploaded evan parents: diff changeset	31 raise Exception, 'First line in first read does not appear to be a valid FASTQ read in either base-space or color-space'
8d92246f41bb Uploaded evan parents: diff changeset	32 raise Exception, 'There is no non-comment and non-blank line in your FASTQ file'
8d92246f41bb Uploaded evan parents: diff changeset	33
8d92246f41bb Uploaded evan parents: diff changeset	34 def __main__():
8d92246f41bb Uploaded evan parents: diff changeset	35 #Parse Command Line
8d92246f41bb Uploaded evan parents: diff changeset	36 parser = optparse.OptionParser()
8d92246f41bb Uploaded evan parents: diff changeset	37 parser.add_option( '-t', '--threads', dest='threads', help='The number of threads to use' )
8d92246f41bb Uploaded evan parents: diff changeset	38 parser.add_option( '-c', '--color-space', dest='color_space', action='store_true', help='If the input files are SOLiD format' )
8d92246f41bb Uploaded evan parents: diff changeset	39 parser.add_option( '-r', '--ref', dest='ref', help='The reference genome to use or index' )
8d92246f41bb Uploaded evan parents: diff changeset	40 parser.add_option( '-f', '--input1', dest='fastq', help='The (forward) fastq file to use for the mapping' )
8d92246f41bb Uploaded evan parents: diff changeset	41 parser.add_option( '-F', '--input2', dest='rfastq', help='The reverse fastq file to use for mapping if paired-end data' )
8d92246f41bb Uploaded evan parents: diff changeset	42 parser.add_option( '-u', '--output', dest='output', help='The file to save the output (SAM format)' )
8d92246f41bb Uploaded evan parents: diff changeset	43 parser.add_option( '-g', '--genAlignType', dest='genAlignType', help='The type of pairing (single or paired)' )
8d92246f41bb Uploaded evan parents: diff changeset	44 parser.add_option( '-p', '--params', dest='params', help='Parameter setting to use (pre_set or full)' )
8d92246f41bb Uploaded evan parents: diff changeset	45 parser.add_option( '-s', '--fileSource', dest='fileSource', help='Whether to use a previously indexed reference sequence or one form history (indexed or history)' )
8d92246f41bb Uploaded evan parents: diff changeset	46 parser.add_option( '-n', '--maxEditDist', dest='maxEditDist', help='Maximum edit distance if integer' )
8d92246f41bb Uploaded evan parents: diff changeset	47 parser.add_option( '-m', '--fracMissingAligns', dest='fracMissingAligns', help='Fraction of missing alignments given 2% uniform base error rate if fraction' )
8d92246f41bb Uploaded evan parents: diff changeset	48 parser.add_option( '-o', '--maxGapOpens', dest='maxGapOpens', help='Maximum number of gap opens' )
8d92246f41bb Uploaded evan parents: diff changeset	49 parser.add_option( '-e', '--maxGapExtens', dest='maxGapExtens', help='Maximum number of gap extensions' )
8d92246f41bb Uploaded evan parents: diff changeset	50 parser.add_option( '-d', '--disallowLongDel', dest='disallowLongDel', help='Disallow a long deletion within specified bps' )
8d92246f41bb Uploaded evan parents: diff changeset	51 parser.add_option( '-i', '--disallowIndel', dest='disallowIndel', help='Disallow indel within specified bps' )
8d92246f41bb Uploaded evan parents: diff changeset	52 parser.add_option( '-l', '--seed', dest='seed', help='Take the first specified subsequences' )
8d92246f41bb Uploaded evan parents: diff changeset	53 parser.add_option( '-k', '--maxEditDistSeed', dest='maxEditDistSeed', help='Maximum edit distance to the seed' )
8d92246f41bb Uploaded evan parents: diff changeset	54 parser.add_option( '-M', '--mismatchPenalty', dest='mismatchPenalty', help='Mismatch penalty' )
8d92246f41bb Uploaded evan parents: diff changeset	55 parser.add_option( '-O', '--gapOpenPenalty', dest='gapOpenPenalty', help='Gap open penalty' )
8d92246f41bb Uploaded evan parents: diff changeset	56 parser.add_option( '-E', '--gapExtensPenalty', dest='gapExtensPenalty', help='Gap extension penalty' )
8d92246f41bb Uploaded evan parents: diff changeset	57 parser.add_option( '-R', '--suboptAlign', dest='suboptAlign', default=None, help='Proceed with suboptimal alignments even if the top hit is a repeat' )
8d92246f41bb Uploaded evan parents: diff changeset	58 parser.add_option( '-N', '--noIterSearch', dest='noIterSearch', help='Disable iterative search' )
8d92246f41bb Uploaded evan parents: diff changeset	59 parser.add_option( '-T', '--outputTopN', dest='outputTopN', help='Maximum number of alignments to output in the XA tag for reads paired properly' )
8d92246f41bb Uploaded evan parents: diff changeset	60 parser.add_option( '', '--outputTopNDisc', dest='outputTopNDisc', help='Maximum number of alignments to output in the XA tag for disconcordant read pairs (excluding singletons)' )
8d92246f41bb Uploaded evan parents: diff changeset	61 parser.add_option( '-S', '--maxInsertSize', dest='maxInsertSize', help='Maximum insert size for a read pair to be considered mapped good' )
8d92246f41bb Uploaded evan parents: diff changeset	62 parser.add_option( '-P', '--maxOccurPairing', dest='maxOccurPairing', help='Maximum occurrences of a read for pairings' )
8d92246f41bb Uploaded evan parents: diff changeset	63 parser.add_option( '', '--rgid', dest='rgid', help='Read group identifier' )
8d92246f41bb Uploaded evan parents: diff changeset	64 parser.add_option( '', '--rgcn', dest='rgcn', help='Sequencing center that produced the read' )
8d92246f41bb Uploaded evan parents: diff changeset	65 parser.add_option( '', '--rgds', dest='rgds', help='Description' )
8d92246f41bb Uploaded evan parents: diff changeset	66 parser.add_option( '', '--rgdt', dest='rgdt', help='Date that run was produced (ISO8601 format date or date/time, like YYYY-MM-DD)' )
8d92246f41bb Uploaded evan parents: diff changeset	67 parser.add_option( '', '--rgfo', dest='rgfo', help='Flow order' )
8d92246f41bb Uploaded evan parents: diff changeset	68 parser.add_option( '', '--rgks', dest='rgks', help='The array of nucleotide bases that correspond to the key sequence of each read' )
8d92246f41bb Uploaded evan parents: diff changeset	69 parser.add_option( '', '--rglb', dest='rglb', help='Library name' )
8d92246f41bb Uploaded evan parents: diff changeset	70 parser.add_option( '', '--rgpg', dest='rgpg', help='Programs used for processing the read group' )
8d92246f41bb Uploaded evan parents: diff changeset	71 parser.add_option( '', '--rgpi', dest='rgpi', help='Predicted median insert size' )
8d92246f41bb Uploaded evan parents: diff changeset	72 parser.add_option( '', '--rgpl', dest='rgpl', choices=[ 'CAPILLARY', 'LS454', 'ILLUMINA', 'SOLID', 'HELICOS', 'IONTORRENT' and 'PACBIO' ], help='Platform/technology used to produce the reads' )
8d92246f41bb Uploaded evan parents: diff changeset	73 parser.add_option( '', '--rgpu', dest='rgpu', help='Platform unit (e.g. flowcell-barcode.lane for Illumina or slide for SOLiD)' )
8d92246f41bb Uploaded evan parents: diff changeset	74 parser.add_option( '', '--rgsm', dest='rgsm', help='Sample' )
8d92246f41bb Uploaded evan parents: diff changeset	75 parser.add_option( '-D', '--dbkey', dest='dbkey', help='Dbkey for reference genome' )
8d92246f41bb Uploaded evan parents: diff changeset	76 parser.add_option( '-X', '--do_not_build_index', dest='do_not_build_index', action='store_true', help="Don't build index" )
8d92246f41bb Uploaded evan parents: diff changeset	77 parser.add_option( '-H', '--suppressHeader', dest='suppressHeader', help='Suppress header' )
8d92246f41bb Uploaded evan parents: diff changeset	78 parser.add_option( '-I', '--illumina1.3', dest='illumina13qual', help='Input FASTQ files have Illuina 1.3 quality scores' )
8d92246f41bb Uploaded evan parents: diff changeset	79 (options, args) = parser.parse_args()
8d92246f41bb Uploaded evan parents: diff changeset	80
8d92246f41bb Uploaded evan parents: diff changeset	81 # output version # of tool
8d92246f41bb Uploaded evan parents: diff changeset	82 try:
8d92246f41bb Uploaded evan parents: diff changeset	83 tmp = tempfile.NamedTemporaryFile().name
8d92246f41bb Uploaded evan parents: diff changeset	84 tmp_stdout = open( tmp, 'wb' )
8d92246f41bb Uploaded evan parents: diff changeset	85 proc = subprocess.Popen( args='bwa 2>&1', shell=True, stdout=tmp_stdout )
8d92246f41bb Uploaded evan parents: diff changeset	86 tmp_stdout.close()
8d92246f41bb Uploaded evan parents: diff changeset	87 returncode = proc.wait()
8d92246f41bb Uploaded evan parents: diff changeset	88 stdout = None
8d92246f41bb Uploaded evan parents: diff changeset	89 for line in open( tmp_stdout.name, 'rb' ):
8d92246f41bb Uploaded evan parents: diff changeset	90 if line.lower().find( 'version' ) >= 0:
8d92246f41bb Uploaded evan parents: diff changeset	91 stdout = line.strip()
8d92246f41bb Uploaded evan parents: diff changeset	92 break
8d92246f41bb Uploaded evan parents: diff changeset	93 if stdout:
8d92246f41bb Uploaded evan parents: diff changeset	94 sys.stdout.write( 'BWA %s\n' % stdout )
8d92246f41bb Uploaded evan parents: diff changeset	95 else:
8d92246f41bb Uploaded evan parents: diff changeset	96 raise Exception
8d92246f41bb Uploaded evan parents: diff changeset	97 except:
8d92246f41bb Uploaded evan parents: diff changeset	98 sys.stdout.write( 'Could not determine BWA version\n' )
8d92246f41bb Uploaded evan parents: diff changeset	99
8d92246f41bb Uploaded evan parents: diff changeset	100 # check for color space fastq that's not double-encoded and exit if appropriate
8d92246f41bb Uploaded evan parents: diff changeset	101 if options.color_space:
8d92246f41bb Uploaded evan parents: diff changeset	102 if not check_is_double_encoded( options.fastq ):
8d92246f41bb Uploaded evan parents: diff changeset	103 stop_err( 'Your file must be double-encoded (it must be converted from "numbers" to "bases"). See the help section for details' )
8d92246f41bb Uploaded evan parents: diff changeset	104 if options.genAlignType == 'paired':
8d92246f41bb Uploaded evan parents: diff changeset	105 if not check_is_double_encoded( options.rfastq ):
8d92246f41bb Uploaded evan parents: diff changeset	106 stop_err( 'Your reverse reads file must also be double-encoded (it must be converted from "numbers" to "bases"). See the help section for details' )
8d92246f41bb Uploaded evan parents: diff changeset	107
8d92246f41bb Uploaded evan parents: diff changeset	108 fastq = options.fastq
8d92246f41bb Uploaded evan parents: diff changeset	109 if options.rfastq:
8d92246f41bb Uploaded evan parents: diff changeset	110 rfastq = options.rfastq
8d92246f41bb Uploaded evan parents: diff changeset	111
8d92246f41bb Uploaded evan parents: diff changeset	112 # set color space variable
8d92246f41bb Uploaded evan parents: diff changeset	113 if options.color_space:
8d92246f41bb Uploaded evan parents: diff changeset	114 color_space = '-c'
8d92246f41bb Uploaded evan parents: diff changeset	115 else:
8d92246f41bb Uploaded evan parents: diff changeset	116 color_space = ''
8d92246f41bb Uploaded evan parents: diff changeset	117
8d92246f41bb Uploaded evan parents: diff changeset	118 # make temp directory for placement of indices
8d92246f41bb Uploaded evan parents: diff changeset	119 tmp_index_dir = tempfile.mkdtemp()
8d92246f41bb Uploaded evan parents: diff changeset	120 tmp_dir = tempfile.mkdtemp()
8d92246f41bb Uploaded evan parents: diff changeset	121 # index if necessary
8d92246f41bb Uploaded evan parents: diff changeset	122 if options.fileSource == 'history' and not options.do_not_build_index:
8d92246f41bb Uploaded evan parents: diff changeset	123 ref_file = tempfile.NamedTemporaryFile( dir=tmp_index_dir )
8d92246f41bb Uploaded evan parents: diff changeset	124 ref_file_name = ref_file.name
8d92246f41bb Uploaded evan parents: diff changeset	125 ref_file.close()
8d92246f41bb Uploaded evan parents: diff changeset	126 os.symlink( options.ref, ref_file_name )
8d92246f41bb Uploaded evan parents: diff changeset	127 # determine which indexing algorithm to use, based on size
8d92246f41bb Uploaded evan parents: diff changeset	128 try:
8d92246f41bb Uploaded evan parents: diff changeset	129 size = os.stat( options.ref ).st_size
8d92246f41bb Uploaded evan parents: diff changeset	130 if size <= 2**30:
8d92246f41bb Uploaded evan parents: diff changeset	131 indexingAlg = 'is'
8d92246f41bb Uploaded evan parents: diff changeset	132 else:
8d92246f41bb Uploaded evan parents: diff changeset	133 indexingAlg = 'bwtsw'
8d92246f41bb Uploaded evan parents: diff changeset	134 except:
8d92246f41bb Uploaded evan parents: diff changeset	135 indexingAlg = 'is'
8d92246f41bb Uploaded evan parents: diff changeset	136 indexing_cmds = '%s -a %s' % ( color_space, indexingAlg )
8d92246f41bb Uploaded evan parents: diff changeset	137 cmd1 = 'bwa index %s %s' % ( indexing_cmds, ref_file_name )
8d92246f41bb Uploaded evan parents: diff changeset	138 try:
8d92246f41bb Uploaded evan parents: diff changeset	139 tmp = tempfile.NamedTemporaryFile( dir=tmp_index_dir ).name
8d92246f41bb Uploaded evan parents: diff changeset	140 tmp_stderr = open( tmp, 'wb' )
8d92246f41bb Uploaded evan parents: diff changeset	141 proc = subprocess.Popen( args=cmd1, shell=True, cwd=tmp_index_dir, stderr=tmp_stderr.fileno() )
8d92246f41bb Uploaded evan parents: diff changeset	142 returncode = proc.wait()
8d92246f41bb Uploaded evan parents: diff changeset	143 tmp_stderr.close()
8d92246f41bb Uploaded evan parents: diff changeset	144 # get stderr, allowing for case where it's very large
8d92246f41bb Uploaded evan parents: diff changeset	145 tmp_stderr = open( tmp, 'rb' )
8d92246f41bb Uploaded evan parents: diff changeset	146 stderr = ''
8d92246f41bb Uploaded evan parents: diff changeset	147 buffsize = 1048576
8d92246f41bb Uploaded evan parents: diff changeset	148 try:
8d92246f41bb Uploaded evan parents: diff changeset	149 while True:
8d92246f41bb Uploaded evan parents: diff changeset	150 stderr += tmp_stderr.read( buffsize )
8d92246f41bb Uploaded evan parents: diff changeset	151 if not stderr or len( stderr ) % buffsize != 0:
8d92246f41bb Uploaded evan parents: diff changeset	152 break
8d92246f41bb Uploaded evan parents: diff changeset	153 except OverflowError:
8d92246f41bb Uploaded evan parents: diff changeset	154 pass
8d92246f41bb Uploaded evan parents: diff changeset	155 tmp_stderr.close()
8d92246f41bb Uploaded evan parents: diff changeset	156 if returncode != 0:
8d92246f41bb Uploaded evan parents: diff changeset	157 raise Exception, stderr
8d92246f41bb Uploaded evan parents: diff changeset	158 except Exception, e:
8d92246f41bb Uploaded evan parents: diff changeset	159 # clean up temp dirs
8d92246f41bb Uploaded evan parents: diff changeset	160 if os.path.exists( tmp_index_dir ):
8d92246f41bb Uploaded evan parents: diff changeset	161 shutil.rmtree( tmp_index_dir )
8d92246f41bb Uploaded evan parents: diff changeset	162 if os.path.exists( tmp_dir ):
8d92246f41bb Uploaded evan parents: diff changeset	163 shutil.rmtree( tmp_dir )
8d92246f41bb Uploaded evan parents: diff changeset	164 stop_err( 'Error indexing reference sequence. ' + str( e ) )
8d92246f41bb Uploaded evan parents: diff changeset	165 else:
8d92246f41bb Uploaded evan parents: diff changeset	166 ref_file_name = options.ref
8d92246f41bb Uploaded evan parents: diff changeset	167 if options.illumina13qual:
8d92246f41bb Uploaded evan parents: diff changeset	168 illumina_quals = "-I"
8d92246f41bb Uploaded evan parents: diff changeset	169 else:
8d92246f41bb Uploaded evan parents: diff changeset	170 illumina_quals = ""
8d92246f41bb Uploaded evan parents: diff changeset	171
8d92246f41bb Uploaded evan parents: diff changeset	172 # set up aligning and generate aligning command options
8d92246f41bb Uploaded evan parents: diff changeset	173 if options.params == 'pre_set':
8d92246f41bb Uploaded evan parents: diff changeset	174 aligning_cmds = '-t %s %s %s' % ( options.threads, color_space, illumina_quals )
8d92246f41bb Uploaded evan parents: diff changeset	175 gen_alignment_cmds = ''
8d92246f41bb Uploaded evan parents: diff changeset	176 else:
8d92246f41bb Uploaded evan parents: diff changeset	177 if options.maxEditDist != '0':
8d92246f41bb Uploaded evan parents: diff changeset	178 editDist = options.maxEditDist
8d92246f41bb Uploaded evan parents: diff changeset	179 else:
8d92246f41bb Uploaded evan parents: diff changeset	180 editDist = options.fracMissingAligns
8d92246f41bb Uploaded evan parents: diff changeset	181 if options.seed != '-1':
8d92246f41bb Uploaded evan parents: diff changeset	182 seed = '-l %s' % options.seed
8d92246f41bb Uploaded evan parents: diff changeset	183 else:
8d92246f41bb Uploaded evan parents: diff changeset	184 seed = ''
8d92246f41bb Uploaded evan parents: diff changeset	185 if options.suboptAlign:
8d92246f41bb Uploaded evan parents: diff changeset	186 suboptAlign = '-R "%s"' % ( options.suboptAlign )
8d92246f41bb Uploaded evan parents: diff changeset	187 else:
8d92246f41bb Uploaded evan parents: diff changeset	188 suboptAlign = ''
8d92246f41bb Uploaded evan parents: diff changeset	189 if options.noIterSearch == 'true':
8d92246f41bb Uploaded evan parents: diff changeset	190 noIterSearch = '-N'
8d92246f41bb Uploaded evan parents: diff changeset	191 else:
8d92246f41bb Uploaded evan parents: diff changeset	192 noIterSearch = ''
8d92246f41bb Uploaded evan parents: diff changeset	193 aligning_cmds = '-n %s -o %s -e %s -d %s -i %s %s -k %s -t %s -M %s -O %s -E %s %s %s %s %s' % \
8d92246f41bb Uploaded evan parents: diff changeset	194 ( editDist, options.maxGapOpens, options.maxGapExtens, options.disallowLongDel,
8d92246f41bb Uploaded evan parents: diff changeset	195 options.disallowIndel, seed, options.maxEditDistSeed, options.threads,
8d92246f41bb Uploaded evan parents: diff changeset	196 options.mismatchPenalty, options.gapOpenPenalty, options.gapExtensPenalty,
8d92246f41bb Uploaded evan parents: diff changeset	197 suboptAlign, noIterSearch, color_space, illumina_quals )
8d92246f41bb Uploaded evan parents: diff changeset	198 if options.genAlignType == 'paired':
8d92246f41bb Uploaded evan parents: diff changeset	199 gen_alignment_cmds = '-a %s -o %s' % ( options.maxInsertSize, options.maxOccurPairing )
8d92246f41bb Uploaded evan parents: diff changeset	200 if options.outputTopNDisc:
8d92246f41bb Uploaded evan parents: diff changeset	201 gen_alignment_cmds += ' -N %s' % options.outputTopNDisc
8d92246f41bb Uploaded evan parents: diff changeset	202 else:
8d92246f41bb Uploaded evan parents: diff changeset	203 gen_alignment_cmds = ''
8d92246f41bb Uploaded evan parents: diff changeset	204 if options.metadata_tsv:
8d92246f41bb Uploaded evan parents: diff changeset	205 f = open(options.metadata_tsv, 'r')
8d92246f41bb Uploaded evan parents: diff changeset	206 cols = f.readline().split('\t')
8d92246f41bb Uploaded evan parents: diff changeset	207 readGroup = '@RG\tID:1\tDS:%s\tPU:%s\tLB:%s\tCN:BMGC\tDT:%s\tFR:%s\tRR:%s\tPL:ILLUMINA' % ( cols[4], cols[16], cols[14], cols[1], cols[19], cols[20] )
8d92246f41bb Uploaded evan parents: diff changeset	208 gen_alignment_cmds += ' -r "%s"' % readGroup
8d92246f41bb Uploaded evan parents: diff changeset	209 print readGroup
8d92246f41bb Uploaded evan parents: diff changeset	210 if options.rgid:
8d92246f41bb Uploaded evan parents: diff changeset	211 if not options.rglb or not options.rgpl or not options.rgsm:
8d92246f41bb Uploaded evan parents: diff changeset	212 stop_err( 'If you want to specify read groups, you must include the ID, LB, PL, and SM tags.' )
8d92246f41bb Uploaded evan parents: diff changeset	213 readGroup = '@RG\tID:%s\tLB:%s\tPL:%s\tSM:%s' % ( options.rgid, options.rglb, options.rgpl, options.rgsm )
8d92246f41bb Uploaded evan parents: diff changeset	214 if options.rgcn:
8d92246f41bb Uploaded evan parents: diff changeset	215 readGroup += '\tCN:%s' % options.rgcn
8d92246f41bb Uploaded evan parents: diff changeset	216 if options.rgds:
8d92246f41bb Uploaded evan parents: diff changeset	217 readGroup += '\tDS:%s' % options.rgds
8d92246f41bb Uploaded evan parents: diff changeset	218 if options.rgdt:
8d92246f41bb Uploaded evan parents: diff changeset	219 readGroup += '\tDT:%s' % options.rgdt
8d92246f41bb Uploaded evan parents: diff changeset	220 if options.rgfo:
8d92246f41bb Uploaded evan parents: diff changeset	221 readGroup += '\tFO:%s' % options.rgfo
8d92246f41bb Uploaded evan parents: diff changeset	222 if options.rgks:
8d92246f41bb Uploaded evan parents: diff changeset	223 readGroup += '\tKS:%s' % options.rgks
8d92246f41bb Uploaded evan parents: diff changeset	224 if options.rgpg:
8d92246f41bb Uploaded evan parents: diff changeset	225 readGroup += '\tPG:%s' % options.rgpg
8d92246f41bb Uploaded evan parents: diff changeset	226 if options.rgpi:
8d92246f41bb Uploaded evan parents: diff changeset	227 readGroup += '\tPI:%s' % options.rgpi
8d92246f41bb Uploaded evan parents: diff changeset	228 if options.rgpu:
8d92246f41bb Uploaded evan parents: diff changeset	229 readGroup += '\tPU:%s' % options.rgpu
8d92246f41bb Uploaded evan parents: diff changeset	230 gen_alignment_cmds += ' -r "%s"' % readGroup
8d92246f41bb Uploaded evan parents: diff changeset	231 if options.outputTopN:
8d92246f41bb Uploaded evan parents: diff changeset	232 gen_alignment_cmds += ' -n %s' % options.outputTopN
8d92246f41bb Uploaded evan parents: diff changeset	233 # set up output files
8d92246f41bb Uploaded evan parents: diff changeset	234 tmp_align_out = tempfile.NamedTemporaryFile( dir=tmp_dir )
8d92246f41bb Uploaded evan parents: diff changeset	235 tmp_align_out_name = tmp_align_out.name
8d92246f41bb Uploaded evan parents: diff changeset	236 tmp_align_out.close()
8d92246f41bb Uploaded evan parents: diff changeset	237 tmp_align_out2 = tempfile.NamedTemporaryFile( dir=tmp_dir )
8d92246f41bb Uploaded evan parents: diff changeset	238 tmp_align_out2_name = tmp_align_out2.name
8d92246f41bb Uploaded evan parents: diff changeset	239 tmp_align_out2.close()
8d92246f41bb Uploaded evan parents: diff changeset	240 # prepare actual aligning and generate aligning commands
8d92246f41bb Uploaded evan parents: diff changeset	241 cmd2 = 'bwa aln %s %s %s > %s' % ( aligning_cmds, ref_file_name, fastq, tmp_align_out_name )
8d92246f41bb Uploaded evan parents: diff changeset	242 cmd2b = ''
8d92246f41bb Uploaded evan parents: diff changeset	243 if options.genAlignType == 'paired':
8d92246f41bb Uploaded evan parents: diff changeset	244 cmd2b = 'bwa aln %s %s %s > %s' % ( aligning_cmds, ref_file_name, rfastq, tmp_align_out2_name )
8d92246f41bb Uploaded evan parents: diff changeset	245 cmd3 = 'bwa sampe %s %s %s %s %s %s >> %s' % ( gen_alignment_cmds, ref_file_name, tmp_align_out_name, tmp_align_out2_name, fastq, rfastq, options.output )
8d92246f41bb Uploaded evan parents: diff changeset	246 else:
8d92246f41bb Uploaded evan parents: diff changeset	247 cmd3 = 'bwa samse %s %s %s %s >> %s' % ( gen_alignment_cmds, ref_file_name, tmp_align_out_name, fastq, options.output )
8d92246f41bb Uploaded evan parents: diff changeset	248 # perform alignments
8d92246f41bb Uploaded evan parents: diff changeset	249 buffsize = 1048576
8d92246f41bb Uploaded evan parents: diff changeset	250 try:
8d92246f41bb Uploaded evan parents: diff changeset	251 # need to nest try-except in try-finally to handle 2.4
8d92246f41bb Uploaded evan parents: diff changeset	252 try:
8d92246f41bb Uploaded evan parents: diff changeset	253 # align
8d92246f41bb Uploaded evan parents: diff changeset	254 try:
8d92246f41bb Uploaded evan parents: diff changeset	255 tmp = tempfile.NamedTemporaryFile( dir=tmp_dir ).name
8d92246f41bb Uploaded evan parents: diff changeset	256 tmp_stderr = open( tmp, 'wb' )
8d92246f41bb Uploaded evan parents: diff changeset	257 proc = subprocess.Popen( args=cmd2, shell=True, cwd=tmp_dir, stderr=tmp_stderr.fileno() )
8d92246f41bb Uploaded evan parents: diff changeset	258 returncode = proc.wait()
8d92246f41bb Uploaded evan parents: diff changeset	259 tmp_stderr.close()
8d92246f41bb Uploaded evan parents: diff changeset	260 # get stderr, allowing for case where it's very large
8d92246f41bb Uploaded evan parents: diff changeset	261 tmp_stderr = open( tmp, 'rb' )
8d92246f41bb Uploaded evan parents: diff changeset	262 stderr = ''
8d92246f41bb Uploaded evan parents: diff changeset	263 try:
8d92246f41bb Uploaded evan parents: diff changeset	264 while True:
8d92246f41bb Uploaded evan parents: diff changeset	265 stderr += tmp_stderr.read( buffsize )
8d92246f41bb Uploaded evan parents: diff changeset	266 if not stderr or len( stderr ) % buffsize != 0:
8d92246f41bb Uploaded evan parents: diff changeset	267 break
8d92246f41bb Uploaded evan parents: diff changeset	268 except OverflowError:
8d92246f41bb Uploaded evan parents: diff changeset	269 pass
8d92246f41bb Uploaded evan parents: diff changeset	270 tmp_stderr.close()
8d92246f41bb Uploaded evan parents: diff changeset	271 if returncode != 0:
8d92246f41bb Uploaded evan parents: diff changeset	272 raise Exception, stderr
8d92246f41bb Uploaded evan parents: diff changeset	273 except Exception, e:
8d92246f41bb Uploaded evan parents: diff changeset	274 raise Exception, 'Error aligning sequence. ' + str( e )
8d92246f41bb Uploaded evan parents: diff changeset	275 # and again if paired data
8d92246f41bb Uploaded evan parents: diff changeset	276 try:
8d92246f41bb Uploaded evan parents: diff changeset	277 if cmd2b:
8d92246f41bb Uploaded evan parents: diff changeset	278 tmp = tempfile.NamedTemporaryFile( dir=tmp_dir ).name
8d92246f41bb Uploaded evan parents: diff changeset	279 tmp_stderr = open( tmp, 'wb' )
8d92246f41bb Uploaded evan parents: diff changeset	280 proc = subprocess.Popen( args=cmd2b, shell=True, cwd=tmp_dir, stderr=tmp_stderr.fileno() )
8d92246f41bb Uploaded evan parents: diff changeset	281 returncode = proc.wait()
8d92246f41bb Uploaded evan parents: diff changeset	282 tmp_stderr.close()
8d92246f41bb Uploaded evan parents: diff changeset	283 # get stderr, allowing for case where it's very large
8d92246f41bb Uploaded evan parents: diff changeset	284 tmp_stderr = open( tmp, 'rb' )
8d92246f41bb Uploaded evan parents: diff changeset	285 stderr = ''
8d92246f41bb Uploaded evan parents: diff changeset	286 try:
8d92246f41bb Uploaded evan parents: diff changeset	287 while True:
8d92246f41bb Uploaded evan parents: diff changeset	288 stderr += tmp_stderr.read( buffsize )
8d92246f41bb Uploaded evan parents: diff changeset	289 if not stderr or len( stderr ) % buffsize != 0:
8d92246f41bb Uploaded evan parents: diff changeset	290 break
8d92246f41bb Uploaded evan parents: diff changeset	291 except OverflowError:
8d92246f41bb Uploaded evan parents: diff changeset	292 pass
8d92246f41bb Uploaded evan parents: diff changeset	293 tmp_stderr.close()
8d92246f41bb Uploaded evan parents: diff changeset	294 if returncode != 0:
8d92246f41bb Uploaded evan parents: diff changeset	295 raise Exception, stderr
8d92246f41bb Uploaded evan parents: diff changeset	296 except Exception, e:
8d92246f41bb Uploaded evan parents: diff changeset	297 raise Exception, 'Error aligning second sequence. ' + str( e )
8d92246f41bb Uploaded evan parents: diff changeset	298 # generate align
8d92246f41bb Uploaded evan parents: diff changeset	299 try:
8d92246f41bb Uploaded evan parents: diff changeset	300 tmp = tempfile.NamedTemporaryFile( dir=tmp_dir ).name
8d92246f41bb Uploaded evan parents: diff changeset	301 tmp_stderr = open( tmp, 'wb' )
8d92246f41bb Uploaded evan parents: diff changeset	302 proc = subprocess.Popen( args=cmd3, shell=True, cwd=tmp_dir, stderr=tmp_stderr.fileno() )
8d92246f41bb Uploaded evan parents: diff changeset	303 returncode = proc.wait()
8d92246f41bb Uploaded evan parents: diff changeset	304 tmp_stderr.close()
8d92246f41bb Uploaded evan parents: diff changeset	305 # get stderr, allowing for case where it's very large
8d92246f41bb Uploaded evan parents: diff changeset	306 tmp_stderr = open( tmp, 'rb' )
8d92246f41bb Uploaded evan parents: diff changeset	307 stderr = ''
8d92246f41bb Uploaded evan parents: diff changeset	308 try:
8d92246f41bb Uploaded evan parents: diff changeset	309 while True:
8d92246f41bb Uploaded evan parents: diff changeset	310 stderr += tmp_stderr.read( buffsize )
8d92246f41bb Uploaded evan parents: diff changeset	311 if not stderr or len( stderr ) % buffsize != 0:
8d92246f41bb Uploaded evan parents: diff changeset	312 break
8d92246f41bb Uploaded evan parents: diff changeset	313 except OverflowError:
8d92246f41bb Uploaded evan parents: diff changeset	314 pass
8d92246f41bb Uploaded evan parents: diff changeset	315 tmp_stderr.close()
8d92246f41bb Uploaded evan parents: diff changeset	316 if returncode != 0:
8d92246f41bb Uploaded evan parents: diff changeset	317 raise Exception, stderr
8d92246f41bb Uploaded evan parents: diff changeset	318 except Exception, e:
8d92246f41bb Uploaded evan parents: diff changeset	319 raise Exception, 'Error generating alignments. ' + str( e )
8d92246f41bb Uploaded evan parents: diff changeset	320 # remove header if necessary
8d92246f41bb Uploaded evan parents: diff changeset	321 if options.suppressHeader == 'true':
8d92246f41bb Uploaded evan parents: diff changeset	322 tmp_out = tempfile.NamedTemporaryFile( dir=tmp_dir)
8d92246f41bb Uploaded evan parents: diff changeset	323 tmp_out_name = tmp_out.name
8d92246f41bb Uploaded evan parents: diff changeset	324 tmp_out.close()
8d92246f41bb Uploaded evan parents: diff changeset	325 try:
8d92246f41bb Uploaded evan parents: diff changeset	326 shutil.move( options.output, tmp_out_name )
8d92246f41bb Uploaded evan parents: diff changeset	327 except Exception, e:
8d92246f41bb Uploaded evan parents: diff changeset	328 raise Exception, 'Error moving output file before removing headers. ' + str( e )
8d92246f41bb Uploaded evan parents: diff changeset	329 fout = file( options.output, 'w' )
8d92246f41bb Uploaded evan parents: diff changeset	330 for line in file( tmp_out.name, 'r' ):
8d92246f41bb Uploaded evan parents: diff changeset	331 if not ( line.startswith( '@HD' ) or line.startswith( '@SQ' ) or line.startswith( '@RG' ) or line.startswith( '@PG' ) or line.startswith( '@CO' ) ):
8d92246f41bb Uploaded evan parents: diff changeset	332 fout.write( line )
8d92246f41bb Uploaded evan parents: diff changeset	333 fout.close()
8d92246f41bb Uploaded evan parents: diff changeset	334 # check that there are results in the output file
8d92246f41bb Uploaded evan parents: diff changeset	335 if os.path.getsize( options.output ) > 0:
8d92246f41bb Uploaded evan parents: diff changeset	336 sys.stdout.write( 'BWA run on %s-end data' % options.genAlignType )
8d92246f41bb Uploaded evan parents: diff changeset	337 else:
8d92246f41bb Uploaded evan parents: diff changeset	338 raise Exception, 'The output file is empty. You may simply have no matches, or there may be an error with your input file or settings.'
8d92246f41bb Uploaded evan parents: diff changeset	339 except Exception, e:
8d92246f41bb Uploaded evan parents: diff changeset	340 stop_err( 'The alignment failed.\n' + str( e ) )
8d92246f41bb Uploaded evan parents: diff changeset	341 finally:
8d92246f41bb Uploaded evan parents: diff changeset	342 # clean up temp dir
8d92246f41bb Uploaded evan parents: diff changeset	343 if os.path.exists( tmp_index_dir ):
8d92246f41bb Uploaded evan parents: diff changeset	344 shutil.rmtree( tmp_index_dir )
8d92246f41bb Uploaded evan parents: diff changeset	345 if os.path.exists( tmp_dir ):
8d92246f41bb Uploaded evan parents: diff changeset	346 shutil.rmtree( tmp_dir )
8d92246f41bb Uploaded evan parents: diff changeset	347
8d92246f41bb Uploaded evan parents: diff changeset	348 if __name__=="__main__": __main__()

Mercurial > repos > evan > bwa_wrappers

annotate bwa_wrapper.py @ 0:8d92246f41bb draft