bwa_0_7_5: bwa_0_7_5/bwa_0_7

annotate bwa_0_7_5/bwa_0_7_5.py @ 0:839e36b39c3f draft

Uploaded

author	yufei-luo
date	Mon, 12 Aug 2013 08:44:05 -0400
parents
children	8409cff2d740

rev	line source
0 839e36b39c3f Uploaded yufei-luo parents: diff changeset	1 #!/usr/bin/env python
839e36b39c3f Uploaded yufei-luo parents: diff changeset	2 ## yufei.luo@gustave.roussy 22/07/2013
839e36b39c3f Uploaded yufei-luo parents: diff changeset	3
839e36b39c3f Uploaded yufei-luo parents: diff changeset	4 """
839e36b39c3f Uploaded yufei-luo parents: diff changeset	5 Runs BWA on single-end or paired-end data.
839e36b39c3f Uploaded yufei-luo parents: diff changeset	6 Produces a SAM file containing the mappings.
839e36b39c3f Uploaded yufei-luo parents: diff changeset	7 Works with BWA version 0.7.5.
839e36b39c3f Uploaded yufei-luo parents: diff changeset	8 NOTICE: In this wrapper, we only use 'mem' for mapping step.
839e36b39c3f Uploaded yufei-luo parents: diff changeset	9
839e36b39c3f Uploaded yufei-luo parents: diff changeset	10 usage: bwa_0_7_5.py [args]
839e36b39c3f Uploaded yufei-luo parents: diff changeset	11
839e36b39c3f Uploaded yufei-luo parents: diff changeset	12 See below for args
839e36b39c3f Uploaded yufei-luo parents: diff changeset	13 """
839e36b39c3f Uploaded yufei-luo parents: diff changeset	14
839e36b39c3f Uploaded yufei-luo parents: diff changeset	15 import optparse, os, shutil, subprocess, sys, tempfile
839e36b39c3f Uploaded yufei-luo parents: diff changeset	16 import argparse
839e36b39c3f Uploaded yufei-luo parents: diff changeset	17
839e36b39c3f Uploaded yufei-luo parents: diff changeset	18 def stop_err( msg ):
839e36b39c3f Uploaded yufei-luo parents: diff changeset	19 sys.stderr.write( '%s\n' % msg )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	20 sys.exit()
839e36b39c3f Uploaded yufei-luo parents: diff changeset	21
839e36b39c3f Uploaded yufei-luo parents: diff changeset	22 def check_is_double_encoded( fastq ):
839e36b39c3f Uploaded yufei-luo parents: diff changeset	23 # check that first read is bases, not one base followed by numbers
839e36b39c3f Uploaded yufei-luo parents: diff changeset	24 bases = [ 'A', 'C', 'G', 'T', 'a', 'c', 'g', 't', 'N' ]
839e36b39c3f Uploaded yufei-luo parents: diff changeset	25 nums = [ '0', '1', '2', '3' ]
839e36b39c3f Uploaded yufei-luo parents: diff changeset	26 for line in file( fastq, 'rb'):
839e36b39c3f Uploaded yufei-luo parents: diff changeset	27 if not line.strip() or line.startswith( '@' ):
839e36b39c3f Uploaded yufei-luo parents: diff changeset	28 continue
839e36b39c3f Uploaded yufei-luo parents: diff changeset	29 if len( [ b for b in line.strip() if b in nums ] ) > 0:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	30 return False
839e36b39c3f Uploaded yufei-luo parents: diff changeset	31 elif line.strip()[0] in bases and len( [ b for b in line.strip() if b in bases ] ) == len( line.strip() ):
839e36b39c3f Uploaded yufei-luo parents: diff changeset	32 return True
839e36b39c3f Uploaded yufei-luo parents: diff changeset	33 else:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	34 raise Exception, 'First line in first read does not appear to be a valid FASTQ read in either base-space or color-space'
839e36b39c3f Uploaded yufei-luo parents: diff changeset	35 raise Exception, 'There is no non-comment and non-blank line in your FASTQ file'
839e36b39c3f Uploaded yufei-luo parents: diff changeset	36
839e36b39c3f Uploaded yufei-luo parents: diff changeset	37 def __main__():
839e36b39c3f Uploaded yufei-luo parents: diff changeset	38
839e36b39c3f Uploaded yufei-luo parents: diff changeset	39 descr = "bwa_0_7_5.py: version 1.0. Map the reads(long length) against the genome reference with BWA MEM. \n"
839e36b39c3f Uploaded yufei-luo parents: diff changeset	40 descr += "Usage: BWA mem -t thread -R groupInfo refSequence read.R1.fastq (read.R2.fastq) > out.sam"
839e36b39c3f Uploaded yufei-luo parents: diff changeset	41 parser = argparse.ArgumentParser(description=descr)
839e36b39c3f Uploaded yufei-luo parents: diff changeset	42 parser.add_argument( '-t', '--threads', default=1, help='The number of threads to use [1]' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	43 parser.add_argument( '--color-space', default=False, help='If the input files are SOLiD format' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	44 parser.add_argument( '--ref', help='The reference genome to use or index' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	45 parser.add_argument( '-f', '--fastq', help='The (forward) fastq file to use for the mapping' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	46 parser.add_argument( '-F', '--rfastq', help='The reverse fastq file to use for mapping if paired-end data' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	47 parser.add_argument( '-u', '--output', help='The file to save the output (SAM format)' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	48 parser.add_argument( '-g', '--genAlignType', help='The type of pairing (single or paired)' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	49 parser.add_argument( '--params', help='Parameter setting to use (pre_set or full)' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	50 parser.add_argument( '-s', '--fileSource', help='Whether to use a previously indexed reference sequence or one form history (indexed or history)' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	51 parser.add_argument( '-D', '--dbkey', help='Dbkey for reference genome' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	52
839e36b39c3f Uploaded yufei-luo parents: diff changeset	53 parser.add_argument( '-k', '--minEditDistSeed', default=19, type=int, help='Minimum edit distance to the seed [19]' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	54 parser.add_argument( '-w', '--bandWidth', default=100, type=int, help='Band width for banded alignment [100]' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	55 parser.add_argument( '-d', '--offDiagonal', default=100, type=int, help='off-diagonal X-dropoff [100]' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	56 parser.add_argument( '-r', '--internalSeeds', default=1.5, type=float, help='look for internal seeds inside a seed longer than {-k} * FLOAT [1.5]' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	57 parser.add_argument( '-c', '--seedsOccurrence', default=10000, type=int, help='skip seeds with more than INT occurrences [10000]' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	58 parser.add_argument( '-S', '--mateRescue', default=False, help='skip mate rescue' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	59 parser.add_argument( '-P', '--skipPairing', default=False, help='skpe pairing, mate rescue performed unless -S also in use' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	60 parser.add_argument( '-A', '--seqMatch', default=1, type=int, help='score of a sequence match' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	61 parser.add_argument( '-B', '--mismatch', default=4,type=int, help='penalty for a mismatch' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	62 parser.add_argument( '-O', '--gapOpen', default=6, type=int, help='gap open penalty' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	63 parser.add_argument( '-E', '--gapExtension', default=None, help='gap extension penalty; a gap of size k cost {-O} + {-E}*k [1]' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	64 parser.add_argument( '-L', '--clipping', default=5, type=int, help='penalty for clipping [5]' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	65 parser.add_argument( '-U', '--unpairedReadpair', default=17, type=int, help='penalty for an unpaired read pair [17]' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	66 parser.add_argument( '-p', '--interPairEnd', default=False, help='first query file consists of interleaved paired-end sequences' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	67 parser.add_argument( '--rgid', help='Read group identifier' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	68 parser.add_argument( '--rgsm', help='Sample' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	69 parser.add_argument( '--rgpl', choices=[ 'CAPILLARY', 'LS454', 'ILLUMINA', 'SOLID', 'HELICOS', 'IONTORRENT' and 'PACBIO' ], help='Platform/technology used to produce the reads' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	70 parser.add_argument( '--rglb', help='Library name' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	71 parser.add_argument( '--rgpu', help='Platform unit (e.g. flowcell-barcode.lane for Illumina or slide for SOLiD)' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	72 parser.add_argument( '--rgcn', help='Sequencing center that produced the read' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	73 parser.add_argument( '--rgds', help='Description' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	74 parser.add_argument( '--rgdt', help='Date that run was produced (ISO8601 format date or date/time, like YYYY-MM-DD)' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	75 parser.add_argument( '--rgfo', help='Flow order' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	76 parser.add_argument( '--rgks', help='The array of nucleotide bases that correspond to the key sequence of each read' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	77 parser.add_argument( '--rgpg', help='Programs used for processing the read group' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	78 parser.add_argument( '--rgpi', help='Predicted median insert size' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	79 parser.add_argument( '-T', '--minScore', default=30, type=int, help='minimum score to output [30]' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	80 parser.add_argument( '-M', '--mark', default=False, help='mark shorter split hits as secondary (for Picard/GATK compatibility)' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	81 args = parser.parse_args()
839e36b39c3f Uploaded yufei-luo parents: diff changeset	82
839e36b39c3f Uploaded yufei-luo parents: diff changeset	83
839e36b39c3f Uploaded yufei-luo parents: diff changeset	84 # output version # of tool
839e36b39c3f Uploaded yufei-luo parents: diff changeset	85 try:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	86 tmp = tempfile.NamedTemporaryFile().name
839e36b39c3f Uploaded yufei-luo parents: diff changeset	87 tmp_stdout = open( tmp, 'wb' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	88 proc = subprocess.Popen( args='bwa 2>&1', shell=True, stdout=tmp_stdout )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	89 tmp_stdout.close()
839e36b39c3f Uploaded yufei-luo parents: diff changeset	90 returncode = proc.wait()
839e36b39c3f Uploaded yufei-luo parents: diff changeset	91 stdout = None
839e36b39c3f Uploaded yufei-luo parents: diff changeset	92 for line in open( tmp_stdout.name, 'rb' ):
839e36b39c3f Uploaded yufei-luo parents: diff changeset	93 if line.lower().find( 'version' ) >= 0:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	94 stdout = line.strip()
839e36b39c3f Uploaded yufei-luo parents: diff changeset	95 break
839e36b39c3f Uploaded yufei-luo parents: diff changeset	96 if stdout:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	97 sys.stdout.write( 'BWA %s\n' % stdout )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	98 else:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	99 raise Exception
839e36b39c3f Uploaded yufei-luo parents: diff changeset	100 except:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	101 sys.stdout.write( 'Could not determine BWA version\n' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	102
839e36b39c3f Uploaded yufei-luo parents: diff changeset	103 # check for color space fastq that's not double-encoded and exit if appropriate
839e36b39c3f Uploaded yufei-luo parents: diff changeset	104 # if args.color_space:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	105 # if not check_is_double_encoded( args.fastq ):
839e36b39c3f Uploaded yufei-luo parents: diff changeset	106 # stop_err( 'Your file must be double-encoded (it must be converted from "numbers" to "bases"). See the help section for details' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	107 # if args.genAlignType == 'paired':
839e36b39c3f Uploaded yufei-luo parents: diff changeset	108 # if not check_is_double_encoded( args.rfastq ):
839e36b39c3f Uploaded yufei-luo parents: diff changeset	109 # stop_err( 'Your reverse reads file must also be double-encoded (it must be converted from "numbers" to "bases"). See the help section for details' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	110
839e36b39c3f Uploaded yufei-luo parents: diff changeset	111 fastq = args.fastq
839e36b39c3f Uploaded yufei-luo parents: diff changeset	112 if args.rfastq:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	113 rfastq = args.rfastq
839e36b39c3f Uploaded yufei-luo parents: diff changeset	114
839e36b39c3f Uploaded yufei-luo parents: diff changeset	115 # set color space variable
839e36b39c3f Uploaded yufei-luo parents: diff changeset	116 # if args.color_space:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	117 # color_space = '-c'
839e36b39c3f Uploaded yufei-luo parents: diff changeset	118 # else:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	119 # color_space = ''
839e36b39c3f Uploaded yufei-luo parents: diff changeset	120
839e36b39c3f Uploaded yufei-luo parents: diff changeset	121 # make temp directory for placement of indices
839e36b39c3f Uploaded yufei-luo parents: diff changeset	122 tmp_index_dir = tempfile.mkdtemp()
839e36b39c3f Uploaded yufei-luo parents: diff changeset	123 tmp_dir = tempfile.mkdtemp()
839e36b39c3f Uploaded yufei-luo parents: diff changeset	124 # index if necessary
839e36b39c3f Uploaded yufei-luo parents: diff changeset	125 if args.fileSource == 'history' and not args.do_not_build_index:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	126 ref_file = tempfile.NamedTemporaryFile( dir=tmp_index_dir )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	127 ref_file_name = ref_file.name
839e36b39c3f Uploaded yufei-luo parents: diff changeset	128 ref_file.close()
839e36b39c3f Uploaded yufei-luo parents: diff changeset	129 os.symlink( args.ref, ref_file_name )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	130 # determine which indexing algorithm to use, based on size
839e36b39c3f Uploaded yufei-luo parents: diff changeset	131 try:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	132 size = os.stat( args.ref ).st_size
839e36b39c3f Uploaded yufei-luo parents: diff changeset	133 if size <= 2**30:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	134 indexingAlg = 'is'
839e36b39c3f Uploaded yufei-luo parents: diff changeset	135 else:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	136 indexingAlg = 'bwtsw'
839e36b39c3f Uploaded yufei-luo parents: diff changeset	137 except:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	138 indexingAlg = 'is'
839e36b39c3f Uploaded yufei-luo parents: diff changeset	139 #indexing_cmds = '%s -a %s' % ( color_space, indexingAlg )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	140 indexing_cmds = '-a %s' % indexingAlg
839e36b39c3f Uploaded yufei-luo parents: diff changeset	141 cmd1 = 'bwa index %s %s' % ( indexing_cmds, ref_file_name )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	142 try:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	143 tmp = tempfile.NamedTemporaryFile( dir=tmp_index_dir ).name
839e36b39c3f Uploaded yufei-luo parents: diff changeset	144 tmp_stderr = open( tmp, 'wb' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	145 proc = subprocess.Popen( args=cmd1, shell=True, cwd=tmp_index_dir, stderr=tmp_stderr.fileno() )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	146 returncode = proc.wait()
839e36b39c3f Uploaded yufei-luo parents: diff changeset	147 tmp_stderr.close()
839e36b39c3f Uploaded yufei-luo parents: diff changeset	148 # get stderr, allowing for case where it's very large
839e36b39c3f Uploaded yufei-luo parents: diff changeset	149 tmp_stderr = open( tmp, 'rb' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	150 stderr = ''
839e36b39c3f Uploaded yufei-luo parents: diff changeset	151 buffsize = 1048576
839e36b39c3f Uploaded yufei-luo parents: diff changeset	152 try:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	153 while True:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	154 stderr += tmp_stderr.read( buffsize )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	155 if not stderr or len( stderr ) % buffsize != 0:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	156 break
839e36b39c3f Uploaded yufei-luo parents: diff changeset	157 except OverflowError:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	158 pass
839e36b39c3f Uploaded yufei-luo parents: diff changeset	159 tmp_stderr.close()
839e36b39c3f Uploaded yufei-luo parents: diff changeset	160 if returncode != 0:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	161 raise Exception, stderr
839e36b39c3f Uploaded yufei-luo parents: diff changeset	162 except Exception, e:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	163 # clean up temp dirs
839e36b39c3f Uploaded yufei-luo parents: diff changeset	164 if os.path.exists( tmp_index_dir ):
839e36b39c3f Uploaded yufei-luo parents: diff changeset	165 shutil.rmtree( tmp_index_dir )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	166 if os.path.exists( tmp_dir ):
839e36b39c3f Uploaded yufei-luo parents: diff changeset	167 shutil.rmtree( tmp_dir )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	168 stop_err( 'Error indexing reference sequence. ' + str( e ) )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	169 else:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	170 ref_file_name = args.ref
839e36b39c3f Uploaded yufei-luo parents: diff changeset	171 # if args.illumina13qual:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	172 # illumina_quals = "-I"
839e36b39c3f Uploaded yufei-luo parents: diff changeset	173 # else:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	174 # illumina_quals = ""
839e36b39c3f Uploaded yufei-luo parents: diff changeset	175
839e36b39c3f Uploaded yufei-luo parents: diff changeset	176 # set up aligning and generate aligning command args
839e36b39c3f Uploaded yufei-luo parents: diff changeset	177 start_cmds = '-t %s ' % args.threads
839e36b39c3f Uploaded yufei-luo parents: diff changeset	178 if args.params == 'pre_set':
839e36b39c3f Uploaded yufei-luo parents: diff changeset	179 # aligning_cmds = '-t %s %s %s' % ( args.threads, color_space, illumina_quals )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	180 #start_cmds = '-t %s ' % args.threads
839e36b39c3f Uploaded yufei-luo parents: diff changeset	181 end_cmds = ' '
839e36b39c3f Uploaded yufei-luo parents: diff changeset	182 print start_cmds, end_cmds
839e36b39c3f Uploaded yufei-luo parents: diff changeset	183
839e36b39c3f Uploaded yufei-luo parents: diff changeset	184 else:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	185 end_cmds = '-k %s -w %s -d %s -r %s -c %s -A %s -B %s -O %s -L %s -U %s -T %s ' % (args.minEditDistSeed, args.bandWidth, args.offDiagonal, args.internalSeeds, args.seedsOccurrence, args.seqMatch, args.mismatch, args.gapOpen, args.clipping, args.unpairedReadpair, args.minScore)
839e36b39c3f Uploaded yufei-luo parents: diff changeset	186 if args.mateRescue:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	187 end_cmds += '-S '
839e36b39c3f Uploaded yufei-luo parents: diff changeset	188 if args.skipPairing:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	189 end_cmds += '-P '
839e36b39c3f Uploaded yufei-luo parents: diff changeset	190 else:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	191 if args.skipPairing:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	192 print "Option Error and will not be considered, you should also choose 'skip mate rescue -S' option! "
839e36b39c3f Uploaded yufei-luo parents: diff changeset	193 if args.gapExtension != None:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	194 end_cmds += '-E %s ' % args.gapExtension
839e36b39c3f Uploaded yufei-luo parents: diff changeset	195
839e36b39c3f Uploaded yufei-luo parents: diff changeset	196 if args.rgid:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	197 if not args.rglb or not args.rgpl or not args.rgsm or not args.rglb:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	198 stop_err( 'If you want to specify read groups, you must include the ID, LB, PL, and SM tags.' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	199 # readGroup = '@RG\tID:%s\tLB:%s\tPL:%s\tSM:%s' % ( args.rgid, args.rglb, args.rgpl, args.rgsm )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	200 readGroup = '@RG\tID:%s\tLB:%s\tPL:%s\tSM:%s' % ( args.rgid, args.rglb, args.rgpl, args.rgsm )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	201 if args.rgpu:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	202 readGroup += '\tPU:%s' % args.rgpu
839e36b39c3f Uploaded yufei-luo parents: diff changeset	203 if args.rgcn:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	204 readGroup += '\tCN:%s' % args.rgcn
839e36b39c3f Uploaded yufei-luo parents: diff changeset	205 if args.rgds:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	206 readGroup += '\tDS:%s' % args.rgds
839e36b39c3f Uploaded yufei-luo parents: diff changeset	207 if args.rgdt:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	208 readGroup += '\tDT:%s' % args.rgdt
839e36b39c3f Uploaded yufei-luo parents: diff changeset	209 if args.rgfo:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	210 readGroup += '\tFO:%s' % args.rgfo
839e36b39c3f Uploaded yufei-luo parents: diff changeset	211 if args.rgks:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	212 readGroup += '\tKS:%s' % args.rgks
839e36b39c3f Uploaded yufei-luo parents: diff changeset	213 if args.rgpg:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	214 readGroup += '\tPG:%s' % args.rgpg
839e36b39c3f Uploaded yufei-luo parents: diff changeset	215 if args.rgpi:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	216 readGroup += '\tPI:%s' % args.rgpi
839e36b39c3f Uploaded yufei-luo parents: diff changeset	217 end_cmds += ' -R "%s" ' % readGroup
839e36b39c3f Uploaded yufei-luo parents: diff changeset	218
839e36b39c3f Uploaded yufei-luo parents: diff changeset	219 if args.interPairEnd:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	220 end_cmds += '-p %s ' % args.interPairEnd
839e36b39c3f Uploaded yufei-luo parents: diff changeset	221 if args.mark:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	222 end_cmds += '-M '
839e36b39c3f Uploaded yufei-luo parents: diff changeset	223
839e36b39c3f Uploaded yufei-luo parents: diff changeset	224
839e36b39c3f Uploaded yufei-luo parents: diff changeset	225 if args.genAlignType == 'paired':
839e36b39c3f Uploaded yufei-luo parents: diff changeset	226 cmd = 'bwa mem %s %s %s %s %s > %s' % ( start_cmds, ref_file_name, fastq, rfastq, end_cmds, args.output )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	227 else:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	228 cmd = 'bwa mem %s %s %s > %s' % ( start_cmds, ref_file_name, fastq, end_cmds, args.output )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	229
839e36b39c3f Uploaded yufei-luo parents: diff changeset	230 # perform alignments
839e36b39c3f Uploaded yufei-luo parents: diff changeset	231 buffsize = 1048576
839e36b39c3f Uploaded yufei-luo parents: diff changeset	232 try:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	233 # need to nest try-except in try-finally to handle 2.4
839e36b39c3f Uploaded yufei-luo parents: diff changeset	234 try:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	235 try:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	236 tmp = tempfile.NamedTemporaryFile( dir=tmp_dir ).name
839e36b39c3f Uploaded yufei-luo parents: diff changeset	237 tmp_stderr = open( tmp, 'wb' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	238 print "The cmd is %s" % cmd
839e36b39c3f Uploaded yufei-luo parents: diff changeset	239 proc = subprocess.Popen( args=cmd, shell=True, cwd=tmp_dir, stderr=tmp_stderr.fileno() )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	240 returncode = proc.wait()
839e36b39c3f Uploaded yufei-luo parents: diff changeset	241 tmp_stderr.close()
839e36b39c3f Uploaded yufei-luo parents: diff changeset	242 # get stderr, allowing for case where it's very large
839e36b39c3f Uploaded yufei-luo parents: diff changeset	243 tmp_stderr = open( tmp, 'rb' )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	244 stderr = ''
839e36b39c3f Uploaded yufei-luo parents: diff changeset	245 try:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	246 while True:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	247 stderr += tmp_stderr.read( buffsize )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	248 if not stderr or len( stderr ) % buffsize != 0:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	249 break
839e36b39c3f Uploaded yufei-luo parents: diff changeset	250 except OverflowError:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	251 pass
839e36b39c3f Uploaded yufei-luo parents: diff changeset	252 tmp_stderr.close()
839e36b39c3f Uploaded yufei-luo parents: diff changeset	253 if returncode != 0:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	254 raise Exception, stderr
839e36b39c3f Uploaded yufei-luo parents: diff changeset	255 except Exception, e:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	256 raise Exception, 'Error generating alignments. ' + str( e )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	257
839e36b39c3f Uploaded yufei-luo parents: diff changeset	258 # check that there are results in the output file
839e36b39c3f Uploaded yufei-luo parents: diff changeset	259 if os.path.getsize( args.output ) > 0:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	260 sys.stdout.write( 'BWA run on %s-end data' % args.genAlignType )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	261 else:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	262 raise Exception, 'The output file is empty. You may simply have no matches, or there may be an error with your input file or settings.'
839e36b39c3f Uploaded yufei-luo parents: diff changeset	263 except Exception, e:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	264 stop_err( 'The alignment failed.\n' + str( e ) )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	265 finally:
839e36b39c3f Uploaded yufei-luo parents: diff changeset	266 # clean up temp dir
839e36b39c3f Uploaded yufei-luo parents: diff changeset	267 if os.path.exists( tmp_index_dir ):
839e36b39c3f Uploaded yufei-luo parents: diff changeset	268 shutil.rmtree( tmp_index_dir )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	269 if os.path.exists( tmp_dir ):
839e36b39c3f Uploaded yufei-luo parents: diff changeset	270 shutil.rmtree( tmp_dir )
839e36b39c3f Uploaded yufei-luo parents: diff changeset	271
839e36b39c3f Uploaded yufei-luo parents: diff changeset	272 if __name__=="__main__": __main__()

Mercurial > repos > yufei-luo > bwa_0_7_5

annotate bwa_0_7_5/bwa_0_7_5.py @ 0:839e36b39c3f draft