trips_viz_bam_to_sqlite: trips_bam_to_sqlite/bam_to

comparison trips_bam_to_sqlite/bam_to_sqlite.py @ 9:0e88342d5794 draft

Uploaded

author	jackcurragh
date	Tue, 25 Oct 2022 08:10:50 +0000
parents	2c6f630c732f
children	3d2b1532a1b0

comparison

equal deleted inserted replaced

-:0fcffa7365b9
+:0e88342d5794
 import os
 import time
 import sqlite3
 from sqlitedict import SqliteDict
 def tran_to_genome(tran, pos, transcriptome_info_dict):
-# print ("tran",list(transcriptome_info_dict))
+	#print ("tran",list(transcriptome_info_dict))
-traninfo = transcriptome_info_dict[tran]
+	traninfo = transcriptome_info_dict[tran]
-chrom = traninfo["chrom"]
+	chrom = traninfo["chrom"]
-strand = traninfo["strand"]
+	strand = traninfo["strand"]
-exons = sorted(traninfo["exons"])
+	exons = sorted(traninfo["exons"])
-# print exons
+	#print exons
-if strand == "+":
+	if strand == "+":
-exon_start = 0
+		exon_start = 0
-for tup in exons:
+		for tup in exons:
-exon_start = tup[0]
+			exon_start = tup[0]
-exonlen = tup[1] - tup[0]
+			exonlen = tup[1] - tup[0]
-if pos > exonlen:
+			if pos > exonlen:
-pos = (pos - exonlen) - 1
+				pos = (pos - exonlen)-1
-else:
+			else:
-break
+				break
-genomic_pos = (exon_start + pos) - 1
+		genomic_pos = (exon_start+pos)-1
-elif strand == "-":
+	elif strand == "-":
-exon_start = 0
+		exon_start = 0
-for tup in exons[::-1]:
+		for tup in exons[::-1]:
-exon_start = tup[1]
+			exon_start = tup[1]
-exonlen = tup[1] - tup[0]
+			exonlen = tup[1] - tup[0]
-if pos > exonlen:
+			if pos > exonlen:
-pos = (pos - exonlen) - 1
+				pos = (pos - exonlen)-1
-else:
+			else:
-break
+				break
-genomic_pos = (exon_start - pos) + 1
+		genomic_pos = (exon_start-pos)+1
-return (chrom, genomic_pos)
+	return (chrom, genomic_pos)
 #  Takes a dictionary with a readname as key and a list of lists as value, each sub list has consists of two elements a transcript and the position the read aligns to in the transcript
 #  This function will count the number of genes that the transcripts correspond to and if less than or equal to 3 will add the relevant value to transcript_counts_dict
-def processor(
+def processor(process_chunk, master_read_dict, transcriptome_info_dict,master_dict,readseq, unambig_read_length_dict):
-process_chunk,
+	readlen = len(readseq)
-master_read_dict,
+	ambiguously_mapped_reads = 0
-transcriptome_info_dict,
+	#get the read name
-master_dict,
+	read = list(process_chunk)[0]
-readseq,
-unambig_read_length_dict,
+	read_list = process_chunk[read] # a list of lists of all transcripts the read aligns to and the positions
-):
+	#used to store different genomic poistions
-readlen = len(readseq)
+	genomic_positions = []
-ambiguously_mapped_reads = 0
-# get the read name
+	#This section is just to get the different genomic positions the read aligns to
-read = list(process_chunk)[0]
+	for listname in process_chunk[read]:
-read_list = process_chunk[
-read
+		tran = listname[0].replace("-","_").replace("(","").replace(")","")
-]  # a list of lists of all transcripts the read aligns to and the positions
-# used to store different genomic poistions
+		pos = int(listname[1])
-genomic_positions = []
+		genomic_pos = tran_to_genome(tran, pos, transcriptome_info_dict)
+		#print ("genomic pos",genomic_pos)
-# This section is just to get the different genomic positions the read aligns to
+		if genomic_pos not in genomic_positions:
+			genomic_positions.append(genomic_pos)
-for listname in process_chunk[read]:
+	#If the read maps unambiguously
-tran = listname[0].replace("-", "_").replace("(", "").replace(")", "")
+	if len(genomic_positions) == 1:
+		if readlen not in unambig_read_length_dict:
-pos = int(listname[1])
+			unambig_read_length_dict[readlen] = 0
-genomic_pos = tran_to_genome(tran, pos, transcriptome_info_dict)
+		unambig_read_length_dict[readlen] += 1
-# print ("genomic pos",genomic_pos)
+		#assume this read aligns to a noncoding position, if we find that it does align to a coding region change this to True
-if genomic_pos not in genomic_positions:
+		coding=False
-genomic_positions.append(genomic_pos)
+		# For each transcript this read alings to
-# If the read maps unambiguously
+		for listname in process_chunk[read]:
-if len(genomic_positions) == 1:
+			#get the transcript name
-if readlen not in unambig_read_length_dict:
+			tran = listname[0].replace("-","_").replace("(","").replace(")","")
-unambig_read_length_dict[readlen] = 0
+			#If we haven't come across this transcript already then add to master_read_dict
-unambig_read_length_dict[readlen] += 1
+			if tran not in master_read_dict:
-# assume this read aligns to a noncoding position, if we find that it does align to a coding region change this to True
+				master_read_dict[tran] = {"ambig":{}, "unambig":{}, "mismatches":{}, "seq":{}}
-coding = False
+			#get the raw unedited positon, and read tags
+			pos = int(listname[1])
-# For each transcript this read alings to
+			read_tags = listname[2]
-for listname in process_chunk[read]:
+			#If there is mismatches in this line, then modify the postion and readlen (if mismatches at start or end) and add mismatches to dictionary
-# get the transcript name
+			nm_tag = 0
-tran = listname[0].replace("-", "_").replace("(", "").replace(")", "")
-# If we haven't come across this transcript already then add to master_read_dict
+			for tag in read_tags:
-if tran not in master_read_dict:
+				if tag[0] == "NM":
-master_read_dict[tran] = {
+					nm_tag = int(tag[1])
-"ambig": {},
+			if nm_tag > 0:
-"unambig": {},
+				md_tag = ""
-"mismatches": {},
+				for tag in read_tags:
-"seq": {},
+					if tag[0] == "MD":
-}
+						md_tag = tag[1]
-# get the raw unedited positon, and read tags
+				pos_modifier, readlen_modifier,mismatches =  get_mismatch_pos(md_tag,pos,readlen,master_read_dict,tran,readseq)
-pos = int(listname[1])
+				# Count the mismatches (we only do this for unambiguous)
-read_tags = listname[2]
+				for mismatch in mismatches:
-# If there is mismatches in this line, then modify the postion and readlen (if mismatches at start or end) and add mismatches to dictionary
+					#Ignore mismatches appearing in the first position (due to non templated addition)
-nm_tag = 0
+					if mismatch != 0:
+						char = mismatches[mismatch]
-for tag in read_tags:
+						mismatch_pos = pos + mismatch
-if tag[0] == "NM":
+						if mismatch_pos not in master_read_dict[tran]["seq"]:
-nm_tag = int(tag[1])
+							master_read_dict[tran]["seq"][mismatch_pos] = {}
-if nm_tag > 0:
+						if char not in master_read_dict[tran]["seq"][mismatch_pos]:
-md_tag = ""
+							master_read_dict[tran]["seq"][mismatch_pos][char] = 0
-for tag in read_tags:
+						master_read_dict[tran]["seq"][mismatch_pos][char] += 1
-if tag[0] == "MD":
+				# apply the modifiers
-md_tag = tag[1]
+				#pos = pos+pos_modifier
-pos_modifier, readlen_modifier, mismatches = get_mismatch_pos(
+				#readlen = readlen - readlen_modifier
-md_tag, pos, readlen, master_read_dict, tran, readseq
-)
-# Count the mismatches (we only do this for unambiguous)
+			try:
-for mismatch in mismatches:
+				cds_start = transcriptome_info_dict[tran]["cds_start"]
-# Ignore mismatches appearing in the first position (due to non templated addition)
+				cds_stop = transcriptome_info_dict[tran]["cds_stop"]
-if mismatch != 0:
-char = mismatches[mismatch]
+				if pos >= cds_start and pos <= cds_stop:
-mismatch_pos = pos + mismatch
+					coding=True
-if mismatch_pos not in master_read_dict[tran]["seq"]:
+			except:
-master_read_dict[tran]["seq"][mismatch_pos] = {}
+				pass
-if char not in master_read_dict[tran]["seq"][mismatch_pos]:
-master_read_dict[tran]["seq"][mismatch_pos][char] = 0
-master_read_dict[tran]["seq"][mismatch_pos][char] += 1
+			if readlen in master_read_dict[tran]["unambig"]:
-# apply the modifiers
+				if pos in master_read_dict[tran]["unambig"][readlen]:
-# pos = pos+pos_modifier
+					master_read_dict[tran]["unambig"][readlen][pos] += 1
-# readlen = readlen - readlen_modifier
+				else:
+					master_read_dict[tran]["unambig"][readlen][pos] = 1
-try:
+			else:
-cds_start = transcriptome_info_dict[tran]["cds_start"]
+				master_read_dict[tran]["unambig"][readlen] = {pos:1}
-cds_stop = transcriptome_info_dict[tran]["cds_stop"]
+		if coding == True:
-if pos >= cds_start and pos <= cds_stop:
+			master_dict["unambiguous_coding_count"] += 1
-coding = True
+		elif coding == False:
-except:
+			master_dict["unambiguous_non_coding_count"] += 1
-pass
+	else:
-if readlen in master_read_dict[tran]["unambig"]:
+		ambiguously_mapped_reads += 1
-if pos in master_read_dict[tran]["unambig"][readlen]:
+		for listname in process_chunk[read]:
-master_read_dict[tran]["unambig"][readlen][pos] += 1
+			tran = listname[0].replace("-","_").replace("(","").replace(")","")
-else:
+			if tran not in master_read_dict:
-master_read_dict[tran]["unambig"][readlen][pos] = 1
+				master_read_dict[tran] = {"ambig":{}, "unambig":{}, "mismatches":{}, "seq":{}}
-else:
+			pos = int(listname[1])
-master_read_dict[tran]["unambig"][readlen] = {pos: 1}
+			read_tags = listname[2]
+			nm_tag = 0
-if coding == True:
+			for tag in read_tags:
-master_dict["unambiguous_coding_count"] += 1
+				if tag[0] == "NM":
-elif coding == False:
+					nm_tag = int(tag[1])
-master_dict["unambiguous_non_coding_count"] += 1
+			if nm_tag > 0:
+				md_tag = ""
-else:
+				for tag in read_tags:
-ambiguously_mapped_reads += 1
+					if tag[0] == "MD":
-for listname in process_chunk[read]:
+						md_tag = tag[1]
-tran = listname[0].replace("-", "_").replace("(", "").replace(")", "")
+					pos_modifier, readlen_modifier,mismatches =  get_mismatch_pos(md_tag,pos,readlen,master_read_dict,tran,readseq)
-if tran not in master_read_dict:
+					# apply the modifiers
-master_read_dict[tran] = {
+					#pos = pos+pos_modifier
-"ambig": {},
+					#readlen = readlen - readlen_modifier
-"unambig": {},
+				if readlen in master_read_dict[tran]["ambig"]:
-"mismatches": {},
+					if pos in master_read_dict[tran]["ambig"][readlen]:
-"seq": {},
+						master_read_dict[tran]["ambig"][readlen][pos] += 1
-}
+					else:
-pos = int(listname[1])
+						master_read_dict[tran]["ambig"][readlen][pos] = 1
-read_tags = listname[2]
+				else:
-nm_tag = 0
+					master_read_dict[tran]["ambig"][readlen] = {pos:1}
-for tag in read_tags:
+	return ambiguously_mapped_reads
-if tag[0] == "NM":
-nm_tag = int(tag[1])
-if nm_tag > 0:
+def get_mismatch_pos(md_tag,pos,readlen,master_read_dict,tran,readseq):
-md_tag = ""
+	nucs = ["A","T","G","C"]
-for tag in read_tags:
+	mismatches = {}
-if tag[0] == "MD":
+	total_so_far = 0
-md_tag = tag[1]
+	prev_char = ""
-pos_modifier, readlen_modifier, mismatches = get_mismatch_pos(
+	for char in md_tag:
-md_tag, pos, readlen, master_read_dict, tran, readseq
+		if char in nucs:
-)
+			if prev_char != "":
-# apply the modifiers
+				total_so_far += int(prev_char)
-# pos = pos+pos_modifier
+				prev_char = ""
-# readlen = readlen - readlen_modifier
+			mismatches[total_so_far+len(mismatches)] = (readseq[total_so_far+len(mismatches)])
-if readlen in master_read_dict[tran]["ambig"]:
+		else:
-if pos in master_read_dict[tran]["ambig"][readlen]:
+			if char != "^" and char != "N":
-master_read_dict[tran]["ambig"][readlen][pos] += 1
+				if prev_char == "":
-else:
+					prev_char = char
-master_read_dict[tran]["ambig"][readlen][pos] = 1
+				else:
-else:
+					total_so_far += int(prev_char+char)
-master_read_dict[tran]["ambig"][readlen] = {pos: 1}
+					prev_char = ""
-return ambiguously_mapped_reads
+	readlen_modifier = 0
+	pos_modifier = 0
+	five_ok = False
-def get_mismatch_pos(md_tag, pos, readlen, master_read_dict, tran, readseq):
+	three_ok = False
-nucs = ["A", "T", "G", "C"]
+	while five_ok == False:
-mismatches = {}
+		for i in range(0,readlen):
-total_so_far = 0
+			if i in mismatches:
-prev_char = ""
+				pos_modifier += 1
-for char in md_tag:
+				readlen_modifier += 1
-if char in nucs:
+			else:
-if prev_char != "":
+				five_ok = True
-total_so_far += int(prev_char)
+				break
-prev_char = ""
+		five_ok = True
-mismatches[total_so_far + len(mismatches)] = readseq[
-total_so_far + len(mismatches)
-]
+	while three_ok == False:
-else:
+		for i in range(readlen-1,0,-1):
-if char != "^" and char != "N":
+			if i in mismatches:
-if prev_char == "":
+				readlen_modifier += 1
-prev_char = char
+			else:
-else:
+				three_ok = True
-total_so_far += int(prev_char + char)
+				break
-prev_char = ""
+		three_ok = True
-readlen_modifier = 0
-pos_modifier = 0
-five_ok = False
+	return (pos_modifier, readlen_modifier, mismatches)
-three_ok = False
-while five_ok == False:
-for i in range(0, readlen):
-if i in mismatches:
+def process_bam(bam_filepath, transcriptome_info_dict_path,outputfile):
-pos_modifier += 1
+	desc = "NULL"
-readlen_modifier += 1
+	start_time = time.time()
-else:
+	study_dict ={}
-five_ok = True
+	nuc_count_dict = {"mapped":{},"unmapped":{}}
-break
+	dinuc_count_dict = {}
-five_ok = True
+	threeprime_nuc_count_dict = {"mapped":{},"unmapped":{}}
+	read_length_dict = {}
-while three_ok == False:
+	unambig_read_length_dict = {}
-for i in range(readlen - 1, 0, -1):
+	unmapped_dict = {}
-if i in mismatches:
+	master_dict = {"unambiguous_non_coding_count":0,"unambiguous_coding_count":0,"current_dir":os.getcwd()}
-readlen_modifier += 1
-else:
+	transcriptome_info_dict = {}
-three_ok = True
+	connection = sqlite3.connect(transcriptome_info_dict_path)
-break
+	cursor = connection.cursor()
-three_ok = True
+	cursor.execute("SELECT transcript,cds_start,cds_stop,length,strand,chrom,tran_type from transcripts;")
+	result = cursor.fetchall()
-return (pos_modifier, readlen_modifier, mismatches)
+	for row in result:
+		transcriptome_info_dict[str(row[0])] = {"cds_start":row[1],"cds_stop":row[2],"length":row[3],"strand":row[4],"chrom":row[5],"exons":[],"tran_type":row[6]}
+	#print list(transcriptome_info_dict)[:10]
-def process_bam(bam_filepath, transcriptome_info_dict_path, outputfile, desc):
-desc = desc
+	cursor.execute("SELECT * from exons;")
-start_time = time.time()
+	result = cursor.fetchall()
-study_dict = {}
+	for row in result:
-nuc_count_dict = {"mapped": {}, "unmapped": {}}
+		transcriptome_info_dict[str(row[0])]["exons"].append((row[1],row[2]))
-dinuc_count_dict = {}
-threeprime_nuc_count_dict = {"mapped": {}, "unmapped": {}}
+	#it might be the case that there are no multimappers, so set this to 0 first to avoid an error, it will be overwritten later if there is multimappers
-read_length_dict = {}
+	multimappers = 0
-unambig_read_length_dict = {}
+	unmapped_reads = 0
-unmapped_dict = {}
+	unambiguous_coding_count = 0
-master_dict = {
+	unambiguous_non_coding_count = 0
-"unambiguous_non_coding_count": 0,
+	trip_periodicity_reads = 0
-"unambiguous_coding_count": 0,
-"current_dir": os.getcwd(),
+	final_offsets = {"fiveprime":{"offsets":{}, "read_scores":{}}, "threeprime":{"offsets":{}, "read_scores":{}}}
-}
+	master_read_dict = {}
+	prev_seq = ""
-transcriptome_info_dict = {}
+	process_chunk = {"read_name":[["placeholder_tran","1","28"]]}
-connection = sqlite3.connect(transcriptome_info_dict_path)
+	mapped_reads = 0
-cursor = connection.cursor()
+	ambiguously_mapped_reads = 0
-cursor.execute(
+	master_trip_dict = {"fiveprime":{}, "threeprime":{}}
-"SELECT transcript,cds_start,cds_stop,length,strand,chrom,tran_type from transcripts;"
+	master_offset_dict = {"fiveprime":{}, "threeprime":{}}
-)
+	master_metagene_stop_dict = {"fiveprime":{}, "threeprime":{}}
-result = cursor.fetchall()
-for row in result:
+	pysam.set_verbosity(0)
-transcriptome_info_dict[str(row[0])] = {
+	infile = pysam.Samfile(bam_filepath, "rb")
-"cds_start": row[1],
-"cds_stop": row[2],
+	header = infile.header["HD"]
-"length": row[3],
+	unsorted = False
-"strand": row[4],
+	if "SO" in header:
-"chrom": row[5],
+		if header["SO"] != "queryname":
-"exons": [],
+			unsorted = True
-"tran_type": row[6],
+	else:
-}
+		unsorted = True
-# print list(transcriptome_info_dict)[:10]
+	if unsorted == True:
+		print ("ERROR: Bam file appears to be unsorted or not sorted by read name. To sort by read name use the command: samtools sort -n input.bam output.bam")
-cursor.execute("SELECT * from exons;")
+		print (header,bam_filepath)
-result = cursor.fetchall()
+		sys.exit()
-for row in result:
+	total_bam_lines = 0
-transcriptome_info_dict[str(row[0])]["exons"].append((row[1], row[2]))
+	all_ref_ids = infile.references
-# it might be the case that there are no multimappers, so set this to 0 first to avoid an error, it will be overwritten later if there is multimappers
+	for read in infile.fetch(until_eof=True):
-multimappers = 0
+		total_bam_lines += 1
-unmapped_reads = 0
+		if not read.is_unmapped:
-unambiguous_coding_count = 0
+			ref = read.reference_id
-unambiguous_non_coding_count = 0
+			tran =  (all_ref_ids[ref]).split(".")[0]
-trip_periodicity_reads = 0
+			mapped_reads += 1
+			if mapped_reads%1000000 == 0:
-final_offsets = {
+				print ("{} reads parsed at {}".format(mapped_reads,(time.time()-start_time)))
-"fiveprime": {"offsets": {}, "read_scores": {}},
+			pos = read.reference_start
-"threeprime": {"offsets": {}, "read_scores": {}},
+			readname = read.query_name
-}
+			read_tags = read.tags
-master_read_dict = {}
+			if readname == list(process_chunk)[0]:
-prev_seq = ""
+				process_chunk[readname].append([tran,pos,read_tags])
-process_chunk = {"read_name": [["placeholder_tran", "1", "28"]]}
+			#if the current read is different from previous reads send 'process_chunk' to the 'processor' function, then start 'process_chunk' over using current read
-mapped_reads = 0
+			else:
-ambiguously_mapped_reads = 0
+				if list(process_chunk)[0] != "read_name":
-master_trip_dict = {"fiveprime": {}, "threeprime": {}}
-master_offset_dict = {"fiveprime": {}, "threeprime": {}}
+					#At this point we work out readseq, we do this for multiple reasons, firstly so we don't count the sequence from a read multiple times, just because
-master_metagene_stop_dict = {"fiveprime": {}, "threeprime": {}}
+					# it aligns multiple times and secondly we only call read.seq once (read.seq is computationally expensive)
+					seq = read.seq
-os.system(f'samtools sort -n {bam_filepath} -o {bam_filepath}_n_sorted.bam')
+					readlen = len(seq)
-pysam.set_verbosity(0)
-infile = pysam.Samfile(f"{bam_filepath}_n_sorted.bam", "rb")
+					# Note if a read maps ambiguously it will still be counted toward the read length distribution (however it will only be counted once, not each time it maps)
-header = infile.header["HD"]
+					if readlen not in read_length_dict:
-unsorted = False
+						read_length_dict[readlen] = 0
-if "SO" in header:
+					read_length_dict[readlen] += 1
-if header["SO"] != "queryname":
-unsorted = True
+					if readlen not in nuc_count_dict["mapped"]:
-else:
+						nuc_count_dict["mapped"][readlen] = {}
-unsorted = True
+					if readlen not in threeprime_nuc_count_dict["mapped"]:
-if unsorted == True:
+						threeprime_nuc_count_dict["mapped"][readlen] = {}
-print(
+					if readlen not in dinuc_count_dict:
-"ERROR: Bam file appears to be unsorted or not sorted by read name. To sort by read name use the command: samtools sort -n input.bam output.bam"
+						dinuc_count_dict[readlen] = {"AA":0, "TA":0, "GA":0, "CA":0,
-)
+									"AT":0, "TT":0, "GT":0, "CT":0,
-print(header, bam_filepath)
+									"AG":0, "TG":0, "GG":0, "CG":0,
-sys.exit()
+									"AC":0, "TC":0, "GC":0, "CC":0}
-total_bam_lines = 0
-all_ref_ids = infile.references
+					for i in range(0,len(seq)):
+						if i not in nuc_count_dict["mapped"][readlen]:
-for read in infile.fetch(until_eof=True):
+							nuc_count_dict["mapped"][readlen][i] = {"A":0, "T":0, "G":0, "C":0, "N":0}
-total_bam_lines += 1
+						nuc_count_dict["mapped"][readlen][i][seq[i]] += 1
-if not read.is_unmapped:
-ref = read.reference_id
+					for i in range(0,len(seq)):
-tran = (all_ref_ids[ref]).split(".")[0]
+						try:
-mapped_reads += 1
+							dinuc_count_dict[readlen][seq[i:i+2]] += 1
-if mapped_reads % 1000000 == 0:
+						except:
-print(
+							pass
-"{} reads parsed at {}".format(
-mapped_reads, (time.time() - start_time)
+					for i in range(len(seq),0,-1):
-)
+						dist = i-len(seq)
-)
+						if dist not in threeprime_nuc_count_dict["mapped"][readlen]:
-pos = read.reference_start
+							threeprime_nuc_count_dict["mapped"][readlen][dist] = {"A":0, "T":0, "G":0, "C":0, "N":0}
-readname = read.query_name
+						threeprime_nuc_count_dict["mapped"][readlen][dist][seq[dist]] += 1
-read_tags = read.tags
+					ambiguously_mapped_reads += processor(process_chunk, master_read_dict, transcriptome_info_dict,master_dict,prev_seq, unambig_read_length_dict)
-if readname == list(process_chunk)[0]:
+				process_chunk = {readname:[[tran, pos, read_tags]]}
-process_chunk[readname].append([tran, pos, read_tags])
+				prev_seq = read.seq
-# if the current read is different from previous reads send 'process_chunk' to the 'processor' function, then start 'process_chunk' over using current read
+		else:
-else:
+			unmapped_reads += 1
-if list(process_chunk)[0] != "read_name":
+			# Add this unmapped read to unmapped_dict so we can see what the most frequent unmapped read is.
-# At this point we work out readseq, we do this for multiple reasons, firstly so we don't count the sequence from a read multiple times, just because
+			seq = read.seq
-# it aligns multiple times and secondly we only call read.seq once (read.seq is computationally expensive)
+			readlen = len(seq)
-seq = read.seq
+			if seq in unmapped_dict:
-readlen = len(seq)
+				unmapped_dict[seq] += 1
+			else:
-# Note if a read maps ambiguously it will still be counted toward the read length distribution (however it will only be counted once, not each time it maps)
+				unmapped_dict[seq] = 1
-if readlen not in read_length_dict:
-read_length_dict[readlen] = 0
+			# Populate the nuc_count_dict with this unmapped read
-read_length_dict[readlen] += 1
+			if readlen not in nuc_count_dict["unmapped"]:
+				nuc_count_dict["unmapped"][readlen] = {}
-if readlen not in nuc_count_dict["mapped"]:
+			for i in range(0,len(seq)):
-nuc_count_dict["mapped"][readlen] = {}
+				if i not in nuc_count_dict["unmapped"][readlen]:
-if readlen not in threeprime_nuc_count_dict["mapped"]:
+					nuc_count_dict["unmapped"][readlen][i] = {"A":0, "T":0, "G":0, "C":0, "N":0}
-threeprime_nuc_count_dict["mapped"][readlen] = {}
+				nuc_count_dict["unmapped"][readlen][i][seq[i]] += 1
-if readlen not in dinuc_count_dict:
-dinuc_count_dict[readlen] = {
+			if readlen not in threeprime_nuc_count_dict["unmapped"]:
-"AA": 0,
+				threeprime_nuc_count_dict["unmapped"][readlen] = {}
-"TA": 0,
-"GA": 0,
+			for i in range(len(seq),0,-1):
-"CA": 0,
+				dist = i-len(seq)
-"AT": 0,
+				if dist not in threeprime_nuc_count_dict["unmapped"][readlen]:
-"TT": 0,
+					threeprime_nuc_count_dict["unmapped"][readlen][dist] = {"A":0, "T":0, "G":0, "C":0, "N":0}
-"GT": 0,
+				threeprime_nuc_count_dict["unmapped"][readlen][dist][seq[dist]] += 1
-"CT": 0,
-"AG": 0,
+	#add stats about mapped/unmapped reads to file dict which will be used for the final report
-"TG": 0,
+	master_dict["total_bam_lines"] = total_bam_lines
-"GG": 0,
+	master_dict["mapped_reads"] = mapped_reads
-"CG": 0,
+	master_dict["unmapped_reads"] = unmapped_reads
-"AC": 0,
+	master_dict["ambiguously_mapped_reads"] = ambiguously_mapped_reads
-"TC": 0,
-"GC": 0,
+	if "read_name" in master_read_dict:
-"CC": 0,
+		del master_read_dict["read_name"]
-}
+	print ("BAM file processed")
+	print ("Creating metagenes, triplet periodicity plots, etc.")
-for i in range(0, len(seq)):
-if i not in nuc_count_dict["mapped"][readlen]:
+	for tran in master_read_dict:
-nuc_count_dict["mapped"][readlen][i] = {
+		try:
-"A": 0,
+			cds_start = int(0 if transcriptome_info_dict[tran]["cds_start"] is None else transcriptome_info_dict[tran]["cds_start"])
-"T": 0,
+			cds_stop = int(0 if transcriptome_info_dict[tran]["cds_stop"] is None else transcriptome_info_dict[tran]["cds_stop"])
-"G": 0,
+			# print(tran, type(cds_start))
-"C": 0,
+		except:
-"N": 0,
+			print("Exception: ", tran)
-}
+			continue
-nuc_count_dict["mapped"][readlen][i][seq[i]] += 1
+		tranlen = transcriptome_info_dict[tran]["length"]
-for i in range(0, len(seq)):
+		#Use this to discard transcripts with no 5' leader or 3' trailer
-try:
+		if cds_start > 1 and cds_stop < tranlen and transcriptome_info_dict[tran]["tran_type"] == 1:
-dinuc_count_dict[readlen][seq[i : i + 2]] += 1
+			for primetype in ["fiveprime", "threeprime"]:
-except:
+				# Create the triplet periodicity and metainfo plots based on both the 5' and 3' ends of reads
-pass
+				for readlength in master_read_dict[tran]["unambig"]:
+					#print "readlength", readlength
-for i in range(len(seq), 0, -1):
+					# for each fiveprime postion for this readlength within this transcript
-dist = i - len(seq)
+					for raw_pos in master_read_dict[tran]["unambig"][readlength]:
-if dist not in threeprime_nuc_count_dict["mapped"][readlen]:
+						#print "raw pos", raw_pos
-threeprime_nuc_count_dict["mapped"][readlen][dist] = {
+						trip_periodicity_reads += 1
-"A": 0,
+						if primetype == "fiveprime":
-"T": 0,
+							# get the five prime postion minus the cds start postion
-"G": 0,
+							real_pos = raw_pos-cds_start
-"C": 0,
+							rel_stop_pos = raw_pos-cds_stop
-"N": 0,
+						elif primetype == "threeprime":
-}
+							real_pos = (raw_pos+readlength)-cds_start
-threeprime_nuc_count_dict["mapped"][readlen][dist][
+							rel_stop_pos = (raw_pos+readlength)-cds_stop
-seq[dist]
+						#get the readcount at the raw postion
-] += 1
+						readcount = master_read_dict[tran]["unambig"][readlength][raw_pos]
-ambiguously_mapped_reads += processor(
+						#print "readcount", readcount
-process_chunk,
+						frame = (real_pos%3)
-master_read_dict,
+						if real_pos >= cds_start and real_pos <= cds_stop:
-transcriptome_info_dict,
+							if readlength in master_trip_dict[primetype]:
-master_dict,
+								master_trip_dict[primetype][readlength][str(frame)] += readcount
-prev_seq,
+							else:
-unambig_read_length_dict,
+								master_trip_dict[primetype][readlength]= {"0":0.0,"1":0.0,"2":0.0}
-)
+								master_trip_dict[primetype][readlength][str(frame)] += readcount
-process_chunk = {readname: [[tran, pos, read_tags]]}
+						# now populate offset dict with the 'real_positions' upstream of cds_start, these will be used for metainfo dict
-prev_seq = read.seq
+						if real_pos > (-600) and real_pos < (601):
-else:
+							if readlength in master_offset_dict[primetype]:
-unmapped_reads += 1
+								if real_pos in master_offset_dict[primetype][readlength]:
+									#print "real pos in offset dict"
-# Add this unmapped read to unmapped_dict so we can see what the most frequent unmapped read is.
+									master_offset_dict[primetype][readlength][real_pos] += readcount
-seq = read.seq
+								else:
-readlen = len(seq)
+									#print "real pos not in offset dict"
-if seq in unmapped_dict:
+									master_offset_dict[primetype][readlength][real_pos] = readcount
-unmapped_dict[seq] += 1
+							else:
-else:
+								#initiliase with zero to avoid missing neighbours below
-unmapped_dict[seq] = 1
+								#print "initialising with zeros"
+								master_offset_dict[primetype][readlength]= {}
-# Populate the nuc_count_dict with this unmapped read
+								for i in range(-600,601):
-if readlen not in nuc_count_dict["unmapped"]:
+									master_offset_dict[primetype][readlength][i] = 0
-nuc_count_dict["unmapped"][readlen] = {}
+								master_offset_dict[primetype][readlength][real_pos] += readcount
-for i in range(0, len(seq)):
-if i not in nuc_count_dict["unmapped"][readlen]:
+						# now populate offset dict with the 'real_positions' upstream of cds_start, these will be used for metainfo dict
-nuc_count_dict["unmapped"][readlen][i] = {
+						if rel_stop_pos > (-600) and rel_stop_pos < (601):
-"A": 0,
+							if readlength in master_metagene_stop_dict[primetype]:
-"T": 0,
+								if rel_stop_pos in master_metagene_stop_dict[primetype][readlength]:
-"G": 0,
+									master_metagene_stop_dict[primetype][readlength][rel_stop_pos] += readcount
-"C": 0,
+								else:
-"N": 0,
+									master_metagene_stop_dict[primetype][readlength][rel_stop_pos] = readcount
-}
+							else:
-nuc_count_dict["unmapped"][readlen][i][seq[i]] += 1
+								#initiliase with zero to avoid missing neighbours below
+								master_metagene_stop_dict[primetype][readlength] = {}
-if readlen not in threeprime_nuc_count_dict["unmapped"]:
+								for i in range(-600,601):
-threeprime_nuc_count_dict["unmapped"][readlen] = {}
+									master_metagene_stop_dict[primetype][readlength][i] = 0
+								master_metagene_stop_dict[primetype][readlength][rel_stop_pos] += readcount
-for i in range(len(seq), 0, -1):
-dist = i - len(seq)
+	# master trip dict is now made up of readlengths with 3 frames and a count associated with each frame
-if dist not in threeprime_nuc_count_dict["unmapped"][readlen]:
+	# create a 'score' for each readlength by putting the max frame count over the second highest frame count
-threeprime_nuc_count_dict["unmapped"][readlen][dist] = {
+	for primetype in ["fiveprime", "threeprime"]:
-"A": 0,
+		for subreadlength in master_trip_dict[primetype]:
-"T": 0,
+			maxcount = 0
-"G": 0,
+			secondmaxcount = 0
-"C": 0,
+			for frame in master_trip_dict[primetype][subreadlength]:
-"N": 0,
+				if master_trip_dict[primetype][subreadlength][frame] > maxcount:
-}
+					maxcount = master_trip_dict[primetype][subreadlength][frame]
-threeprime_nuc_count_dict["unmapped"][readlen][dist][seq[dist]] += 1
+			for frame in master_trip_dict[primetype][subreadlength]:
+				if master_trip_dict[primetype][subreadlength][frame] > secondmaxcount and master_trip_dict[primetype][subreadlength][frame] != maxcount:
-# add stats about mapped/unmapped reads to file dict which will be used for the final report
+					secondmaxcount = master_trip_dict[primetype][subreadlength][frame]
-master_dict["total_bam_lines"] = total_bam_lines
+			# a perfect score would be 0 meaning there is only a single peak, the worst score would be 1 meaning two highest peaks are the same height
-master_dict["mapped_reads"] = mapped_reads
+			master_trip_dict[primetype][subreadlength]["score"] = float(secondmaxcount)/float(maxcount)
-master_dict["unmapped_reads"] = unmapped_reads
+	#This part is to determine what offsets to give each read length
-master_read_dict["unmapped_reads"] = unmapped_reads
+	print ("Calculating offsets")
-master_dict["ambiguously_mapped_reads"] = ambiguously_mapped_reads
+	for primetype in ["fiveprime", "threeprime"]:
+		for readlen in master_offset_dict[primetype]:
-if "read_name" in master_read_dict:
+			accepted_len = False
-del master_read_dict["read_name"]
+			max_relative_pos = 0
-print("BAM file processed")
+			max_relative_count = 0
-print("Creating metagenes, triplet periodicity plots, etc.")
+			for relative_pos in master_offset_dict[primetype][readlen]:
-for tran in master_read_dict:
+				# This line is to ensure we don't choose an offset greater than the readlength (in cases of a large peak far up/downstream)
-try:
+				if abs(relative_pos) < 10 or abs(relative_pos) > (readlen-10):
-cds_start = transcriptome_info_dict[tran]["cds_start"]
+					continue
-cds_stop = transcriptome_info_dict[tran]["cds_stop"]
+				if master_offset_dict[primetype][readlen][relative_pos] > max_relative_count:
-except:
+					max_relative_pos = relative_pos
-continue
+					max_relative_count = master_offset_dict[primetype][readlen][relative_pos]
+			#print "for readlen {} the max_relative pos is {}".format(readlen, max_relative_pos)
-tranlen = transcriptome_info_dict[tran]["length"]
+			if primetype == "fiveprime":
-# Use this to discard transcripts with no 5' leader or 3' trailer
+				# -3 to get from p-site to a-site, +1 to account for 1 based co-ordinates, resulting in -2 overall
-if (
+				final_offsets[primetype]["offsets"][readlen] = abs(max_relative_pos-2)
-cds_start > 1
+			elif primetype == "threeprime":
-and cds_stop < tranlen
+				# +3 to get from p-site to a-site, -1 to account for 1 based co-ordinates, resulting in +2 overall
-and transcriptome_info_dict[tran]["tran_type"] == 1
+				final_offsets[primetype]["offsets"][readlen] = (max_relative_pos*(-1))+2
-):
+			#If there are no reads in CDS regions for a specific length, it may not be present in master_trip_dict
-for primetype in ["fiveprime", "threeprime"]:
+			if readlen in  master_trip_dict[primetype]:
-# Create the triplet periodicity and metainfo plots based on both the 5' and 3' ends of reads
+				final_offsets[primetype]["read_scores"][readlen] = master_trip_dict[primetype][readlen]["score"]
-for readlength in master_read_dict[tran]["unambig"]:
+			else:
-# print "readlength", readlength
+				final_offsets[primetype]["read_scores"][readlen] = 0.0
-# for each fiveprime postion for this readlength within this transcript
-for raw_pos in master_read_dict[tran]["unambig"][readlength]:
-# print "raw pos", raw_pos
+	master_read_dict["unmapped_reads"] = unmapped_reads
-trip_periodicity_reads += 1
+	master_read_dict["offsets"] = final_offsets
-if primetype == "fiveprime":
+	master_read_dict["trip_periodicity"] = master_trip_dict
-# get the five prime postion minus the cds start postion
+	master_read_dict["desc"] = "Null"
-real_pos = raw_pos - cds_start
+	master_read_dict["mapped_reads"] = mapped_reads
-rel_stop_pos = raw_pos - cds_stop
+	master_read_dict["nuc_counts"] = nuc_count_dict
-elif primetype == "threeprime":
+	master_read_dict["dinuc_counts"] = dinuc_count_dict
-real_pos = (raw_pos + readlength) - cds_start
+	master_read_dict["threeprime_nuc_counts"] = threeprime_nuc_count_dict
-rel_stop_pos = (raw_pos + readlength) - cds_stop
+	master_read_dict["metagene_counts"] = master_offset_dict
-# get the readcount at the raw postion
+	master_read_dict["stop_metagene_counts"] = master_metagene_stop_dict
-readcount = master_read_dict[tran]["unambig"][readlength][
+	master_read_dict["read_lengths"] = read_length_dict
-raw_pos
+	master_read_dict["unambig_read_lengths"] = unambig_read_length_dict
-]
+	master_read_dict["coding_counts"] = master_dict["unambiguous_coding_count"]
-# print "readcount", readcount
+	master_read_dict["noncoding_counts"] = master_dict["unambiguous_non_coding_count"]
-frame = real_pos % 3
+	master_read_dict["ambiguous_counts"] = master_dict["ambiguously_mapped_reads"]
-if real_pos >= cds_start and real_pos <= cds_stop:
+	master_read_dict["frequent_unmapped_reads"] = (sorted(unmapped_dict.items(), key=operator.itemgetter(1)))[-2000:]
-if readlength in master_trip_dict[primetype]:
+	master_read_dict["cutadapt_removed"] = 0
-master_trip_dict[primetype][readlength][
+	master_read_dict["rrna_removed"] = 0
-str(frame)
+	#If no reads are removed by minus m there won't be an entry in the log file, so initiliase with 0 first and change if there is a line
-] += readcount
+	master_read_dict["removed_minus_m"] = 0
-else:
+	master_dict["removed_minus_m"] = 0
-master_trip_dict[primetype][readlength] = {
+	# We work out the total counts for 5', cds 3' for differential translation here, would be better to do thisn in processor but need the offsets
-"0": 0.0,
+	master_read_dict["unambiguous_all_totals"] = {}
-"1": 0.0,
+	master_read_dict["unambiguous_fiveprime_totals"] = {}
-"2": 0.0,
+	master_read_dict["unambiguous_cds_totals"] = {}
-}
+	master_read_dict["unambiguous_threeprime_totals"] = {}
-master_trip_dict[primetype][readlength][
-str(frame)
+	master_read_dict["ambiguous_all_totals"] = {}
-] += readcount
+	master_read_dict["ambiguous_fiveprime_totals"] = {}
-# now populate offset dict with the 'real_positions' upstream of cds_start, these will be used for metainfo dict
+	master_read_dict["ambiguous_cds_totals"] = {}
-if real_pos > (-600) and real_pos < (601):
+	master_read_dict["ambiguous_threeprime_totals"] = {}
-if readlength in master_offset_dict[primetype]:
+	print ("calculating transcript counts")
-if (
+	for tran in master_read_dict:
-real_pos
+		if tran in transcriptome_info_dict:
-in master_offset_dict[primetype][readlength]
+			five_total = 0
-):
+			cds_total = 0
-# print "real pos in offset dict"
+			three_total = 0
-master_offset_dict[primetype][readlength][
-real_pos
+			ambig_five_total = 0
-] += readcount
+			ambig_cds_total = 0
-else:
+			ambig_three_total = 0
-# print "real pos not in offset dict"
-master_offset_dict[primetype][readlength][
+			cds_start = transcriptome_info_dict[tran]["cds_start"]
-real_pos
+			cds_stop = transcriptome_info_dict[tran]["cds_stop"]
-] = readcount
-else:
+			for readlen in master_read_dict[tran]["unambig"]:
-# initiliase with zero to avoid missing neighbours below
+				if readlen in final_offsets["fiveprime"]["offsets"]:
-# print "initialising with zeros"
+					offset = final_offsets["fiveprime"]["offsets"][readlen]
-master_offset_dict[primetype][readlength] = {}
+				else:
-for i in range(-600, 601):
+					offset = 15
-master_offset_dict[primetype][readlength][i] = 0
+				for pos in master_read_dict[tran]["unambig"][readlen]:
-master_offset_dict[primetype][readlength][
+					real_pos = pos+offset
-real_pos
+					if cds_start is None or cds_stop is None:
-] += readcount
+						three_total += master_read_dict[tran]["unambig"][readlen][pos]
+					else:
-# now populate offset dict with the 'real_positions' upstream of cds_start, these will be used for metainfo dict
+						if real_pos <cds_start:
-if rel_stop_pos > (-600) and rel_stop_pos < (601):
+							five_total += master_read_dict[tran]["unambig"][readlen][pos]
-if readlength in master_metagene_stop_dict[primetype]:
+						elif real_pos >=cds_start and real_pos <= cds_stop:
-if (
+							cds_total += master_read_dict[tran]["unambig"][readlen][pos]
-rel_stop_pos
+						elif real_pos > cds_stop:
-in master_metagene_stop_dict[primetype][readlength]
+							three_total += master_read_dict[tran]["unambig"][readlen][pos]
-):
+			master_read_dict["unambiguous_all_totals"][tran] = five_total+cds_total+three_total
-master_metagene_stop_dict[primetype][readlength][
+			master_read_dict["unambiguous_fiveprime_totals"][tran] = five_total
-rel_stop_pos
+			master_read_dict["unambiguous_cds_totals"][tran] = cds_total
-] += readcount
+			master_read_dict["unambiguous_threeprime_totals"][tran] = three_total
-else:
-master_metagene_stop_dict[primetype][readlength][
+			for readlen in master_read_dict[tran]["ambig"]:
-rel_stop_pos
+				if readlen in final_offsets["fiveprime"]["offsets"]:
-] = readcount
+					offset = final_offsets["fiveprime"]["offsets"][readlen]
-else:
+				else:
-# initiliase with zero to avoid missing neighbours below
+					offset = 15
-master_metagene_stop_dict[primetype][readlength] = {}
+				for pos in master_read_dict[tran]["ambig"][readlen]:
-for i in range(-600, 601):
+					if cds_start is None or cds_stop is None:
-master_metagene_stop_dict[primetype][readlength][
+						ambig_three_total += master_read_dict[tran]["ambig"][readlen][pos]
-i
+					else:
-] = 0
+						real_pos = pos+offset
-master_metagene_stop_dict[primetype][readlength][
+						if real_pos < cds_start:
-rel_stop_pos
+							ambig_five_total += master_read_dict[tran]["ambig"][readlen][pos]
-] += readcount
+						elif real_pos >=cds_start and real_pos <= cds_stop:
+							ambig_cds_total += master_read_dict[tran]["ambig"][readlen][pos]
-# master trip dict is now made up of readlengths with 3 frames and a count associated with each frame
+						elif real_pos > cds_stop:
-# create a 'score' for each readlength by putting the max frame count over the second highest frame count
+							ambig_three_total += master_read_dict[tran]["ambig"][readlen][pos]
-for primetype in ["fiveprime", "threeprime"]:
-for subreadlength in master_trip_dict[primetype]:
+			master_read_dict["ambiguous_all_totals"][tran] = five_total+cds_total+three_total+ambig_five_total+ambig_cds_total+ambig_three_total
-maxcount = 0
+			master_read_dict["ambiguous_fiveprime_totals"][tran] = five_total+ambig_five_total
-secondmaxcount = 0
+			master_read_dict["ambiguous_cds_totals"][tran] = cds_total+ambig_cds_total
-for frame in master_trip_dict[primetype][subreadlength]:
+			master_read_dict["ambiguous_threeprime_totals"][tran] = three_total+ambig_three_total
-if master_trip_dict[primetype][subreadlength][frame] > maxcount:
-maxcount = master_trip_dict[primetype][subreadlength][frame]
+	print ("Writing out to sqlite file")
-for frame in master_trip_dict[primetype][subreadlength]:
+	sqlite_db = SqliteDict(outputfile,autocommit=False)
-if (
+	for key in master_read_dict:
-master_trip_dict[primetype][subreadlength][frame] > secondmaxcount
+		sqlite_db[key] = master_read_dict[key]
-and master_trip_dict[primetype][subreadlength][frame] != maxcount
+	sqlite_db["description"] = desc
-):
+	sqlite_db.commit()
-secondmaxcount = master_trip_dict[primetype][subreadlength][frame]
+	sqlite_db.close()
-# a perfect score would be 0 meaning there is only a single peak, the worst score would be 1 meaning two highest peaks are the same height
-master_trip_dict[primetype][subreadlength]["score"] = float(
-secondmaxcount
-) / float(maxcount)
-# This part is to determine what offsets to give each read length
-print("Calculating offsets")
-for primetype in ["fiveprime", "threeprime"]:
-for readlen in master_offset_dict[primetype]:
-accepted_len = False
-max_relative_pos = 0
-max_relative_count = 0
-for relative_pos in master_offset_dict[primetype][readlen]:
-# This line is to ensure we don't choose an offset greater than the readlength (in cases of a large peak far up/downstream)
-if abs(relative_pos) < 10 or abs(relative_pos) > (readlen - 10):
-continue
-if (
-master_offset_dict[primetype][readlen][relative_pos]
-> max_relative_count
-):
-max_relative_pos = relative_pos
-max_relative_count = master_offset_dict[primetype][readlen][
-relative_pos
-]
-# print "for readlen {} the max_relative pos is {}".format(readlen, max_relative_pos)
-if primetype == "fiveprime":
-# -3 to get from p-site to a-site, +1 to account for 1 based co-ordinates, resulting in -2 overall
-final_offsets[primetype]["offsets"][readlen] = abs(max_relative_pos - 2)
-elif primetype == "threeprime":
-# +3 to get from p-site to a-site, -1 to account for 1 based co-ordinates, resulting in +2 overall
-final_offsets[primetype]["offsets"][readlen] = (
-max_relative_pos * (-1)
-) + 2
-# If there are no reads in CDS regions for a specific length, it may not be present in master_trip_dict
-if readlen in master_trip_dict[primetype]:
-final_offsets[primetype]["read_scores"][readlen] = master_trip_dict[
-primetype
-][readlen]["score"]
-else:
-final_offsets[primetype]["read_scores"][readlen] = 0.0
-master_read_dict["offsets"] = final_offsets
-master_read_dict["trip_periodicity"] = master_trip_dict
-master_read_dict["desc"] = "Null"
-master_read_dict["mapped_reads"] = mapped_reads
-master_read_dict["nuc_counts"] = nuc_count_dict
-master_read_dict["dinuc_counts"] = dinuc_count_dict
-master_read_dict["threeprime_nuc_counts"] = threeprime_nuc_count_dict
-master_read_dict["metagene_counts"] = master_offset_dict
-master_read_dict["stop_metagene_counts"] = master_metagene_stop_dict
-master_read_dict["read_lengths"] = read_length_dict
-master_read_dict["unambig_read_lengths"] = unambig_read_length_dict
-master_read_dict["coding_counts"] = master_dict["unambiguous_coding_count"]
-master_read_dict["noncoding_counts"] = master_dict["unambiguous_non_coding_count"]
-master_read_dict["ambiguous_counts"] = master_dict["ambiguously_mapped_reads"]
-master_read_dict["frequent_unmapped_reads"] = (
-sorted(unmapped_dict.items(), key=operator.itemgetter(1))
-)[-2000:]
-master_read_dict["cutadapt_removed"] = 0
-master_read_dict["rrna_removed"] = 0
-# If no reads are removed by minus m there won't be an entry in the log file, so initiliase with 0 first and change if there is a line
-master_read_dict["removed_minus_m"] = 0
-master_dict["removed_minus_m"] = 0
-# We work out the total counts for 5', cds 3' for differential translation here, would be better to do thisn in processor but need the offsets
-master_read_dict["unambiguous_all_totals"] = {}
-master_read_dict["unambiguous_fiveprime_totals"] = {}
-master_read_dict["unambiguous_cds_totals"] = {}
-master_read_dict["unambiguous_threeprime_totals"] = {}
-master_read_dict["ambiguous_all_totals"] = {}
-master_read_dict["ambiguous_fiveprime_totals"] = {}
-master_read_dict["ambiguous_cds_totals"] = {}
-master_read_dict["ambiguous_threeprime_totals"] = {}
-print("calculating transcript counts")
-for tran in master_read_dict:
-if tran in transcriptome_info_dict:
-five_total = 0
-cds_total = 0
-three_total = 0
-ambig_five_total = 0
-ambig_cds_total = 0
-ambig_three_total = 0
-cds_start = transcriptome_info_dict[tran]["cds_start"]
-cds_stop = transcriptome_info_dict[tran]["cds_stop"]
-for readlen in master_read_dict[tran]["unambig"]:
-if readlen in final_offsets["fiveprime"]["offsets"]:
-offset = final_offsets["fiveprime"]["offsets"][readlen]
-else:
-offset = 15
-for pos in master_read_dict[tran]["unambig"][readlen]:
-real_pos = pos + offset
-if real_pos < cds_start:
-five_total += master_read_dict[tran]["unambig"][readlen][pos]
-elif real_pos >= cds_start and real_pos <= cds_stop:
-cds_total += master_read_dict[tran]["unambig"][readlen][pos]
-elif real_pos > cds_stop:
-three_total += master_read_dict[tran]["unambig"][readlen][pos]
-master_read_dict["unambiguous_all_totals"][tran] = (
-five_total + cds_total + three_total
-)
-master_read_dict["unambiguous_fiveprime_totals"][tran] = five_total
-master_read_dict["unambiguous_cds_totals"][tran] = cds_total
-master_read_dict["unambiguous_threeprime_totals"][tran] = three_total
-for readlen in master_read_dict[tran]["ambig"]:
-if readlen in final_offsets["fiveprime"]["offsets"]:
-offset = final_offsets["fiveprime"]["offsets"][readlen]
-else:
-offset = 15
-for pos in master_read_dict[tran]["ambig"][readlen]:
-real_pos = pos + offset
-if real_pos < cds_start:
-ambig_five_total += master_read_dict[tran]["ambig"][readlen][
-pos
-]
-elif real_pos >= cds_start and real_pos <= cds_stop:
-ambig_cds_total += master_read_dict[tran]["ambig"][readlen][pos]
-elif real_pos > cds_stop:
-ambig_three_total += master_read_dict[tran]["ambig"][readlen][
-pos
-]
-master_read_dict["ambiguous_all_totals"][tran] = (
-five_total
-+ cds_total
-+ three_total
-+ ambig_five_total
-+ ambig_cds_total
-+ ambig_three_total
-)
-master_read_dict["ambiguous_fiveprime_totals"][tran] = (
-five_total + ambig_five_total
-)
-master_read_dict["ambiguous_cds_totals"][tran] = cds_total + ambig_cds_total
-master_read_dict["ambiguous_threeprime_totals"][tran] = (
-three_total + ambig_three_total
-)
-print("Writing out to sqlite file")
-sqlite_db = SqliteDict(outputfile, autocommit=False)
-for key in master_read_dict:
-sqlite_db[key] = master_read_dict[key]
-sqlite_db["description"] = desc
-sqlite_db.commit()
-sqlite_db.close()
 if __name__ == "__main__":
-if len(sys.argv) <= 2:
+	if len(sys.argv) <= 2:
-print(
+		print ("Usage: python bam_to_sqlite.py <path_to_bam_file> <path_to_organism.sqlite> <file_description (optional)>")
-"Usage: python bam_to_sqlite.py <path_to_bam_file> <path_to_organism.sqlite> <file_description (optional)>"
+		sys.exit()
-)
+	bam_filepath = sys.argv[1]
-sys.exit()
+	annotation_sqlite_filepath = sys.argv[2]
-bam_filepath = sys.argv[1]
+	#try:
-annotation_sqlite_filepath = sys.argv[2]
+	#	desc = sys.argv[3]
-try:
+	#except:
-desc = sys.argv[3]
+	#	desc = bam_filepath.split("/")[-1]
-except:
+	outputfile = bam_filepath+"v2.sqlite"
-desc = bam_filepath.split("/")[-1]
+	process_bam(bam_filepath,annotation_sqlite_filepath,outputfile)
-outputfile = sys.argv[4]
-process_bam(bam_filepath, annotation_sqlite_filepath, outputfile, desc)

Mercurial > repos > jackcurragh > trips_viz_bam_to_sqlite

comparison trips_bam_to_sqlite/bam_to_sqlite.py @ 9:0e88342d5794 draft