bs_seeker2: BSseeker2/bs_align/bs_single

comparison BSseeker2/bs_align/bs_single_end.py @ 1:8b26adf64adc draft default tip

V2.0.5

author	weilong-guo
date	Tue, 05 Nov 2013 01:55:39 -0500
parents	e6df770c0e58
children

comparison

equal deleted inserted replaced

-:e6df770c0e58
+:8b26adf64adc
 import fileinput, os, time, random, math
 from bs_utils.utils import *
 from bs_align_utils import *
+import gzip
 #----------------------------------------------------------------
 # Read from the mapped results, return lists of unique / multiple-hit reads
 # The function suppose at most 2 hits will be reported in single file
 def extract_mapping(ali_file):
 #----------------------------------------------------------------
 #----------------------------------------------------------------
-logm("Read filename: %s"% main_read_file )
+logm("Read filename: %s" % main_read_file)
-logm("Un-directional library: %s" % asktag )
+logm("The first base (for mapping): %d"% cut1  )
-logm("The first base (for mapping): %d" % cut1)
+logm("The  last base (for mapping): %d"% cut2  )
-logm("The last base (for mapping): %d" % cut2)
-logm("Max. lines per mapping: %d"% no_small_lines)
+logm("Path for short reads aligner: %s"% aligner_command + '\n')
-logm("Aligner: %s" % aligner_command)
+logm("Reference genome library path: %s"% db_path  )
-logm("Reference genome library path: %s" % db_path )
-logm("Number of mismatches allowed: %s" % max_mismatch_no )
+if asktag == "Y" :
+logm("Un-directional library" )
+else :
+logm("Directional library")
+logm("Number of mismatches allowed: %s"% max_mismatch_no  )
 if adapter_file !="":
-if asktag=="N":
+logm("Adapter seq: %s" % adapter_fw)
-logm("Adapter to be removed from 3' reads: %s"%(adapter.rstrip("\n")))
+logm("-------------------------------- " )
-elif asktag=="Y":
-logm("Adapter to be removed from 3' FW reads: %s"%(adapter_fw.rstrip("\n")) )
-logm("Adapter to be removed from 3' RC reads: %s"%(adapter_rc.rstrip("\n")) )
 #----------------------------------------------------------------
 # helper method to join fname with tmp_path
 tmp_d = lambda fname: os.path.join(tmp_path, fname)
 #    my_files = sorted(splitted_file for splitted_file in os.listdir(tmp_path)
 #                                            if splitted_file.startswith("%s-s-" % input_fname))
 #---- Stats ------------------------------------------------------------
 all_raw_reads=0
-all_trimed=0
+all_trimmed=0
 all_mapped=0
 all_mapped_passed=0
+all_base_before_trim=0
+all_base_after_trim=0
+all_base_mapped=0
 numbers_premapped_lst=[0,0,0,0]
 numbers_mapped_lst=[0,0,0,0]
 mC_lst=[0,0,0]
 uC_lst=[0,0,0]
 no_my_files=0
 #----------------------------------------------------------------
 logm("== Start mapping ==")
 original_bs_reads = {}
 no_my_files+=1
 random_id = ".tmp-"+str(random.randint(1000000,9999999))
 #-------------------------------------------------------------------
-# undirectional sequencing
+# un-directional sequencing
 #-------------------------------------------------------------------
 if asktag=="Y":
 #----------------------------------------------------------------
 outfile2=tmp_d('Trimmed_C2T.fa'+random_id)
 outf3=open(outfile3,'w')
 #----------------------------------------------------------------
 # detect format of input file
 try :
-read_inf=open(read_file,"r")
+if read_file.endswith(".gz") : # support input file ending with ".gz"
+read_inf = gzip.open(read_file, "rb")
+else :
+read_inf=open(read_file,"r")
 except IOError :
 print "[Error] Cannot open input file : %s" % read_file
 exit(-1)
-oneline=read_inf.readline()
+oneline = read_inf.readline()
-l=oneline.split()
+l = oneline.split()
-input_format=""
+input_format = ""
-if oneline[0]=="@":	# fastq
+if oneline[0]=="@":
-input_format="fastq"
+input_format = "fastq"
-n_fastq=0
+elif len(l)==1 and oneline[0]!=">":
-elif len(l)==1 and oneline[0]!=">": # pure sequences
+input_format = "seq"
-input_format="seq"
+elif len(l)==11:
-elif len(l)==11: # qseq
+input_format = "qseq"
-input_format="qseq"
+elif oneline[0]==">":
-elif oneline[0]==">":	# fasta
+input_format = "fasta"
-input_format="fasta"
-n_fasta=0
 read_inf.close()
 #----------------------------------------------------------------
 # read sequence, remove adapter and convert
-read_id=""
+read_id = ""
-seq=""
+seq = ""
-seq_ready="N"
+seq_ready = "N"
-for line in fileinput.input(read_file):
+line_no = 0
-l=line.split()
+for line in fileinput.input(read_file, openhook=fileinput.hook_compressed): # allow input with .gz
+l = line.split()
+line_no += 1
 if input_format=="seq":
-all_raw_reads+=1
+all_raw_reads += 1
-read_id=str(all_raw_reads)
+read_id = str(all_raw_reads)
-read_id=read_id.zfill(12)
+read_id = read_id.zfill(12)
-seq=l[0]
+seq = l[0]
-seq_ready="Y"
+seq_ready = "Y"
 elif input_format=="fastq":
-m_fastq=math.fmod(n_fastq,4)
+l_fastq = math.fmod(line_no, 4)
-n_fastq+=1
+if l_fastq == 1 :
-seq_ready="N"
+all_raw_reads += 1
-if m_fastq==0:
+read_id = l[0][1:]
-all_raw_reads+=1
+seq_ready = "N"
-read_id=str(all_raw_reads)
+elif l_fastq == 2 :
-read_id=read_id.zfill(12)
+seq = l[0]
-seq=""
+seq_ready = "Y"
-elif m_fastq==1:
+else :
-seq=l[0]
+seq = ""
-seq_ready="Y"
+seq_ready = "N"
-else:
-seq=""
 elif input_format=="qseq":
-all_raw_reads+=1
+all_raw_reads += 1
-read_id=str(all_raw_reads)
+read_id = str(all_raw_reads)
-read_id=read_id.zfill(12)
+read_id = read_id.zfill(12)
-seq=l[8]
+seq = l[8]
-seq_ready="Y"
+seq_ready = "Y"
-elif input_format=="fasta":
+elif input_format=="fasta" :
-m_fasta=math.fmod(n_fasta,2)
+l_fasta = math.fmod(line_no,2)
-n_fasta+=1
+if l_fasta==1:
-seq_ready="N"
+all_raw_reads += 1
-if m_fasta==0:
+read_id = l[0][1:]
-all_raw_reads+=1
+seq = ""
-#read_id=str(all_raw_reads)
+seq_ready = "N"
-read_id=l[0][1:]
+elif l_fasta==0 :
-seq=""
+seq = l[0]
-elif m_fasta==1:
+seq_ready = "Y"
-seq=l[0]
-seq_ready="Y"
-else:
-seq=""
 #----------------------------------------------------------------
 if seq_ready=="Y":
 seq=seq[cut1-1:cut2] #<---- selecting 0..52 from 1..72  -e 52
 seq=seq.upper()
 seq=seq.replace(".","N")
 # striping BS adapter from 3' read
+all_base_before_trim += len(seq)
 if (adapter_fw !="") and (adapter_rc !="") :
 new_read = RemoveAdapter(seq, adapter_fw, adapter_mismatch)
 new_read = Remove_5end_Adapter(new_read, adapter_rc)
 if len(new_read) < len(seq) :
-all_trimed += 1
+all_trimmed += 1
 seq = new_read
+all_base_after_trim += len(seq)
 if len(seq)<=4:
 seq=''.join(["N" for x in xrange(cut2-cut1+1)])
 #---------  trimmed_raw_BS_read  ------------------
 original_bs_reads[read_id] = seq
 RC_G2A_uniq_lst.sort()
 FW_C2T_uniq_lst=[x[1] for x in FW_C2T_uniq_lst]
 RC_C2T_uniq_lst=[x[1] for x in RC_C2T_uniq_lst]
 FW_G2A_uniq_lst=[x[1] for x in FW_G2A_uniq_lst]
 RC_G2A_uniq_lst=[x[1] for x in RC_G2A_uniq_lst]
+#----------------------------------------------------------------
+numbers_premapped_lst[0] += len(Unique_FW_C2T)
+numbers_premapped_lst[1] += len(Unique_RC_G2A)
+numbers_premapped_lst[2] += len(Unique_FW_G2A)
+numbers_premapped_lst[3] += len(Unique_RC_C2T)
 del Unique_FW_C2T
 del Unique_FW_G2A
 del Unique_RC_C2T
 del Unique_RC_G2A
-#----------------------------------------------------------------
-numbers_premapped_lst[0] += len(Unique_FW_C2T)
-numbers_premapped_lst[1] += len(Unique_RC_G2A)
-numbers_premapped_lst[2] += len(Unique_FW_G2A)
-numbers_premapped_lst[3] += len(Unique_RC_C2T)
 #----------------------------------------------------------------
 nn=0
 for ali_unique_lst, ali_dic in [(FW_C2T_uniq_lst,FW_C2T_U),
 (RC_G2A_uniq_lst,RC_G2A_U),
 (FW_G2A_uniq_lst,FW_G2A_U),
 (RC_C2T_uniq_lst,RC_C2T_U)]:
 nn += 1
-mapped_chr0 = ""
 for header in ali_unique_lst:
 _, mapped_chr, mapped_location, cigar = ali_dic[header]
 r_aln, g_aln = cigar_to_alignment(cigar, original_BS, origin_genome)
 if len(r_aln)==len(g_aln):
 N_mismatch = N_MIS(r_aln, g_aln)
-if N_mismatch <= int(max_mismatch_no):
+#                        if N_mismatch <= int(max_mismatch_no):
+mm_no=float(max_mismatch_no)
+if (mm_no>=1 and N_mismatch<=mm_no) or (mm_no<1 and N_mismatch<=(mm_no*len(r_aln)) ):
 numbers_mapped_lst[nn-1] += 1
 all_mapped_passed += 1
 methy = methy_seq(r_aln, g_aln + next)
 mC_lst, uC_lst = mcounts(methy, mC_lst, uC_lst)
 nmCH = methy.count('Y') + methy.count('Z')
 if( (nmCH>XS_count) and nmCH/float(nCH+nmCH)>XS_pct ) :
 XS = 1
 outfile.store(header, N_mismatch, FR, mapped_chr, mapped_strand, mapped_location, cigar, original_BS, methy, XS, output_genome = output_genome)
+all_base_mapped += len(original_BS)
 #----------------------------------------------------------------
 logm("--> %s (%d) "%(read_file, no_my_files))
 delete_files(WC2T, WG2A, CC2T, CG2A)
 # directional sequencing
 #--------------------------------------------------------------------
 if asktag=="N":
 #----------------------------------------------------------------
-outfile2=tmp_d('Trimed_C2T.fa'+random_id)
+outfile2=tmp_d('Trimmed_C2T.fa'+random_id)
 outf2=open(outfile2,'w')
-n=0
 #----------------------------------------------------------------
 try :
-read_inf=open(read_file,"r")
+if read_file.endswith(".gz") : # support input file ending with ".gz"
+read_inf = gzip.open(read_file, "rb")
+else :
+read_inf=open(read_file,"r")
 except IOError :
 print "[Error] Cannot open input file : %s" % read_file
 exit(-1)
-oneline=read_inf.readline()
+oneline = read_inf.readline()
-l=oneline.split()
+l = oneline.split()
-input_format=""
+input_format = ""
-if oneline[0]=="@":	# FastQ
+if oneline[0]=="@":
-input_format="fastq"
+input_format = "fastq"
-n_fastq=0
+elif len(l)==1 and oneline[0]!=">":
-elif len(l)==1 and oneline[0]!=">": # pure sequences
+input_format = "seq"
-input_format="seq"
+elif len(l)==11:
-elif len(l)==11: # Illumina GAII qseq file
+input_format = "qseq"
-input_format="qseq"
+elif oneline[0]==">":
-elif oneline[0]==">":	# fasta
+input_format = "fasta"
-input_format="fasta"
-n_fasta=0
 read_inf.close()
 #print "detected data format: %s"%(input_format)
 #----------------------------------------------------------------
 read_id=""
 seq=""
 seq_ready="N"
-for line in fileinput.input(read_file):
+line_no = 0
-l=line.split()
+for line in fileinput.input(read_file, openhook=fileinput.hook_compressed):
+l = line.split()
+line_no += 1
 if input_format=="seq":
-all_raw_reads+=1
+all_raw_reads += 1
-read_id=str(all_raw_reads)
+read_id = str(all_raw_reads)
-read_id=read_id.zfill(12)
+read_id = read_id.zfill(12)
-seq=l[0]
+seq = l[0]
-seq_ready="Y"
+seq_ready = "Y"
 elif input_format=="fastq":
-m_fastq=math.fmod(n_fastq,4)
+l_fastq = math.fmod(line_no, 4)
-n_fastq+=1
+if l_fastq == 1 :
-seq_ready="N"
+all_raw_reads += 1
-if m_fastq==0:
+read_id = l[0][1:]
-all_raw_reads+=1
+seq_ready = "N"
-read_id=str(all_raw_reads)
+elif l_fastq == 2 :
-read_id=read_id.zfill(12)
+seq = l[0]
-seq=""
+seq_ready = "Y"
-elif m_fastq==1:
+else :
-seq=l[0]
+seq = ""
-seq_ready="Y"
+seq_ready = "N"
-else:
-seq=""
 elif input_format=="qseq":
-all_raw_reads+=1
+all_raw_reads += 1
-read_id=str(all_raw_reads)
+read_id = str(all_raw_reads)
-read_id=read_id.zfill(12)
+read_id = read_id.zfill(12)
-seq=l[8]
+seq = l[8]
-seq_ready="Y"
+seq_ready = "Y"
-elif input_format=="fasta":
+elif input_format=="fasta" :
-m_fasta=math.fmod(n_fasta,2)
+l_fasta = math.fmod(line_no,2)
-n_fasta+=1
+if l_fasta==1:
-seq_ready="N"
+all_raw_reads += 1
-if m_fasta==0:
+read_id = l[0][1:]
-all_raw_reads+=1
+seq = ""
-read_id=l[0][1:]
+seq_ready = "N"
-seq=""
+elif l_fasta==0 :
-elif m_fasta==1:
+seq = l[0]
-seq=l[0]
+seq_ready = "Y"
-seq_ready="Y"
-else:
-seq=""
 #--------------------------------
 if seq_ready=="Y":
 seq=seq[cut1-1:cut2] #<---selecting 0..52 from 1..72  -e 52
 seq=seq.upper()
 seq=seq.replace(".","N")
 #--striping adapter from 3' read -------
+all_base_before_trim += len(seq)
 if adapter != "":
 new_read = RemoveAdapter(seq, adapter, adapter_mismatch)
 if len(new_read) < len(seq) :
-all_trimed += 1
+all_trimmed += 1
 seq = new_read
+all_base_after_trim += len(seq)
 if len(seq)<=4:
 seq = "N" * (cut2-cut1+1)
 #---------  trimmed_raw_BS_read  ------------------
 original_bs_reads[read_id] = seq
 outf_MH.write(">%s\n" % i)
 outf_MH.write("%s\n" % original_bs_reads[i])
 outf_MH.close()
 FW_C2T_uniq_lst=[[FW_C2T_U[u][1],u] for u in Unique_FW_C2T]
 RC_C2T_uniq_lst=[[RC_C2T_U[u][1],u] for u in Unique_RC_C2T]
 FW_C2T_uniq_lst.sort()
 RC_C2T_uniq_lst.sort()
 FW_C2T_uniq_lst=[x[1] for x in FW_C2T_uniq_lst]
 nn = 0
 gseq = dict()
 chr_length = dict()
 for ali_unique_lst, ali_dic in [(FW_C2T_uniq_lst,FW_C2T_U),(RC_C2T_uniq_lst,RC_C2T_U)]:
 nn += 1
-mapped_chr0 = ""
 for header in ali_unique_lst:
 _, mapped_chr, mapped_location, cigar = ali_dic[header]
 original_BS = original_bs_reads[header]
 #-------------------------------------
 if mapped_chr not in gseq :
 gseq[mapped_chr] = deserialize(db_d(mapped_chr))
 chr_length[mapped_chr] = len(gseq[mapped_chr])
-#if mapped_chr != mapped_chr0:
-#    my_gseq = deserialize(db_d(mapped_chr))
-#    chr_length = len(my_gseq)
-#    mapped_chr0 = mapped_chr
-#-------------------------------------
 r_start, r_end, g_len = get_read_start_end_and_genome_length(cigar)
 all_mapped+=1
 if nn == 1: 	# +FW mapped to + strand:
 origin_genome, next, output_genome = get_genomic_sequence(gseq[mapped_chr], mapped_location, mapped_location + g_len, mapped_strand)
 r_aln, g_aln = cigar_to_alignment(cigar, original_BS, origin_genome)
 if len(r_aln) == len(g_aln):
 N_mismatch = N_MIS(r_aln, g_aln) #+ original_BS_length - (r_end - r_start) # mismatches in the alignment + soft clipped nucleotides
-if N_mismatch <= int(max_mismatch_no):
+mm_no=float(max_mismatch_no)
+if (mm_no>=1 and N_mismatch<=mm_no) or (mm_no<1 and N_mismatch<=(mm_no*len(r_aln)) ):
 numbers_mapped_lst[nn-1] += 1
 all_mapped_passed += 1
 methy = methy_seq(r_aln, g_aln+next)
 mC_lst, uC_lst = mcounts(methy, mC_lst, uC_lst)
 nmCH = methy.count('Y') + methy.count('Z')
 if( (nmCH>XS_count) and nmCH/float(nCH+nmCH)>XS_pct ) :
 XS = 1
 outfile.store(header, N_mismatch, FR, mapped_chr, mapped_strand, mapped_location, cigar, original_BS, methy, XS, output_genome = output_genome)
+all_base_mapped += len(original_BS)
 #----------------------------------------------------------------
 logm("--> %s (%d) "%(read_file,no_my_files))
 delete_files(WC2T, CC2T)
 #----------------------------------------------------------------
-#    outf.close()
 delete_files(tmp_path)
 logm("Number of raw reads: %d \n"% all_raw_reads)
 if all_raw_reads >0:
-logm("Number of reads having adapter removed: %d \n" % all_trimed )
+logm("Number of bases in total: %d "%all_base_before_trim)
-logm("Number of reads rejected because of multiple hits: %d\n" % len(Multiple_hits) )
+if adapter != "" :
-logm("Number of unique-hits reads for post-filtering: %d\n" % all_mapped)
+logm("Number of reads having adapter removed: %d \n" % all_trimmed )
+logm("Number of bases after trimming the adapters: %d (%1.3f)"%(all_base_after_trim, float(all_base_after_trim)/all_base_before_trim) )
+logm("Number of reads are rejected because of multiple hits: %d\n" % len(Multiple_hits) )
+logm("Number of unique-hits reads (before post-filtering): %d\n" % all_mapped)
 if asktag=="Y":
 logm(" ---- %7d FW reads mapped to Watson strand (before post-filtering)"%(numbers_premapped_lst[0]) )
 logm(" ---- %7d RC reads mapped to Watson strand (before post-filtering)"%(numbers_premapped_lst[1]) )
 logm(" ---- %7d FW reads mapped to Crick strand (before post-filtering)"%(numbers_premapped_lst[2]) )
 logm(" ---- %7d RC reads mapped to Crick strand (before post-filtering)"%(numbers_premapped_lst[3]) )
 logm(" ---- %7d RC reads mapped to Crick strand"%(numbers_mapped_lst[3]) )
 elif asktag=="N":
 logm(" ---- %7d FW reads mapped to Watson strand"%(numbers_mapped_lst[0]) )
 logm(" ---- %7d FW reads mapped to Crick strand"%(numbers_mapped_lst[1]) )
 logm("Mappability= %1.4f%%"%(100*float(all_mapped_passed)/all_raw_reads) )
+logm("Total bases of uniquely mapped reads %7d"% all_base_mapped )
 n_CG=mC_lst[0]+uC_lst[0]
 n_CHG=mC_lst[1]+uC_lst[1]
 n_CHH=mC_lst[2]+uC_lst[2]

Mercurial > repos > weilong-guo > bs_seeker2

comparison BSseeker2/bs_align/bs_single_end.py @ 1:8b26adf64adc draft default tip