shm_csr: merge_and_filter.r comparison

comparison merge_and_filter.r @ 1:faae21ba5c63 draft

Uploaded

author	davidvanzessen
date	Tue, 25 Oct 2016 07:28:43 -0400
parents	c33d93683a09
children	e85fec274cde

comparison

equal deleted inserted replaced

-:c33d93683a09
+:faae21ba5c63
 	ref_length = data.frame(sseqid=c("ca1", "ca2", "cg1", "cg2", "cg3", "cg4", "cm"), ref.length=c(81,81,141,141,141,141,52))
 	gene_identification = merge(gene_identification, ref_length, by="sseqid", all.x=T)
 	gene_identification$chunk_hit_percentage = (gene_identification$length / gene_identification$ref.length) * 100
 	gene_identification = gene_identification[,c("qseqid", "chunk_hit_percentage", "pident", "qstart", "sseqid")]
 	colnames(gene_identification) = c("Sequence.ID", "chunk_hit_percentage", "nt_hit_percentage", "start_locations", "best_match")
 }
 input.sequence.count = nrow(summ)
 print(paste("Number of sequences in summary file:", input.sequence.count))
 	summ = summ[summ$Functionality == "unproductive (see comment)" | summ$Functionality == "unproductive",]
 } else if (functionality == "remove_unknown"){
 	summ = summ[summ$Functionality != "No results" & summ$Functionality != "unknown (see comment)" & summ$Functionality != "unknown",]
 }
-print(paste("Number of sequences after productive filter:", nrow(summ)))
+print(paste("Number of sequences after functionality filter:", nrow(summ)))
-filtering.steps = rbind(filtering.steps, c("After productive filter", nrow(summ)))
+filtering.steps = rbind(filtering.steps, c("After functionality filter", nrow(summ)))
-splt = strsplit(class.filter, "_")[[1]]
-chunk_hit_threshold = as.numeric(splt[1])
-nt_hit_threshold = as.numeric(splt[2])
-higher_than=(summ$chunk_hit_percentage >= chunk_hit_threshold & summ$nt_hit_percentage >= nt_hit_threshold)
-unmatched=summ[NULL,c("Sequence.ID", "chunk_hit_percentage", "nt_hit_percentage", "start_locations", "best_match")]
-if(!all(higher_than, na.rm=T)){ #check for 'not all' because that would mean the unmatched set is empty
-	unmatched = summ[!higher_than,]
-	unmatched = unmatched[,c("Sequence.ID", "chunk_hit_percentage", "nt_hit_percentage", "start_locations", "best_match")]
-	unmatched$best_match = paste("unmatched,", unmatched$best_match)
-	summ[!higher_than,"best_match"] = paste("unmatched,", summ[!higher_than,"best_match"])
-}
-if(any(higher_than, na.rm=T)){
-	#summ = summ[higher_than,]
-}
-if(nrow(summ) == 0){
-	stop("No data remaining after filter")
-}
 result = merge(summ, mutationanalysis[,!(names(mutationanalysis) %in% names(summ)[-1])], by="Sequence.ID")
 print(paste("Number of sequences after merging with mutation analysis file:", nrow(result)))
 result$DGene = gsub("^Homsap ", "", result$D.GENE.and.allele)
 result$DGene = gsub("[*].*", "", result$DGene)
 result$JGene = gsub("^Homsap ", "", result$J.GENE.and.allele)
 result$JGene = gsub("[*].*", "", result$JGene)
-result$past = do.call(paste, c(result[unlist(strsplit(unique.type, ","))], sep = ":"))
-result = result[!(duplicated(result$past)), ]
-result = result[,!(names(result) %in% c("past"))]
-print(paste("Number of sequences in result after", unique.type, "filtering:", nrow(result)))
-filtering.steps = rbind(filtering.steps, c("After duplicate filter", nrow(result)))
 print(paste("Number of empty CDR1 sequences:", sum(result$CDR1.IMGT.seq == "")))
 print(paste("Number of empty FR2 sequences:", sum(result$FR2.IMGT.seq == "")))
 print(paste("Number of empty CDR2 sequences:", sum(result$CDR2.IMGT.seq == "")))
 print(paste("Number of empty FR3 sequences:", sum(result$FR3.IMGT.seq == "")))
-if(empty.region.filter == "FR1"){
+if(empty.region.filter == "leader"){
+	result = result[result$FR1.IMGT.seq != "" & result$CDR1.IMGT.seq != "" & result$FR2.IMGT.seq != "" & result$CDR2.IMGT.seq != "" & result$FR3.IMGT.seq != "", ]
+	print(paste("Number of sequences after empty FR1, CDR1, FR2, CDR2 and FR3 column filter:", nrow(result)))
+	filtering.steps = rbind(filtering.steps, c("After empty FR1, CDR1, FR2, CDR2, FR3 filter", nrow(result)))
+} else if(empty.region.filter == "FR1"){
 	result = result[result$CDR1.IMGT.seq != "" & result$FR2.IMGT.seq != "" & result$CDR2.IMGT.seq != "" & result$FR3.IMGT.seq != "", ]
 	print(paste("Number of sequences after empty CDR1, FR2, CDR2 and FR3 column filter:", nrow(result)))
 	filtering.steps = rbind(filtering.steps, c("After empty CDR1, FR2, CDR2, FR3 filter", nrow(result)))
 } else if(empty.region.filter == "CDR1"){
 	result = result[result$FR2.IMGT.seq != "" & result$CDR2.IMGT.seq != "" & result$FR3.IMGT.seq != "", ]
 	result = result[result$CDR2.IMGT.seq != "" & result$FR3.IMGT.seq != "", ]
 	print(paste("Number of sequences after empty CDR2 and FR3 column filter:", nrow(result)))
 	filtering.steps = rbind(filtering.steps, c("After empty CDR2, FR3 filter", nrow(result)))
 }
-if(empty.region.filter == "FR1"){
+print(paste("Number of sequences in result after CDR/FR filtering:", nrow(result)))
+print(paste("Number of matched sequences in result after CDR/FR filtering:", nrow(result[!grepl("unmatched", result$best_match),])))
+if(empty.region.filter == "leader"){
+	result = result[!(grepl("n|N", result$FR1.IMGT.seq) | grepl("n|N", result$FR2.IMGT.seq) | grepl("n|N", result$FR3.IMGT.seq) | grepl("n|N", result$CDR1.IMGT.seq) | grepl("n|N", result$CDR2.IMGT.seq) | grepl("n|N", result$CDR3.IMGT.seq)),]
+} else if(empty.region.filter == "FR1"){
 	result = result[!(grepl("n|N", result$FR2.IMGT.seq) | grepl("n|N", result$FR3.IMGT.seq) | grepl("n|N", result$CDR1.IMGT.seq) | grepl("n|N", result$CDR2.IMGT.seq) | grepl("n|N", result$CDR3.IMGT.seq)),]
 } else if(empty.region.filter == "CDR1"){
 	result = result[!(grepl("n|N", result$FR2.IMGT.seq) | grepl("n|N", result$FR3.IMGT.seq) | grepl("n|N", result$CDR2.IMGT.seq) | grepl("n|N", result$CDR3.IMGT.seq)),]
 } else if(empty.region.filter == "FR2"){
 	result = result[!(grepl("n|N", result$FR3.IMGT.seq) | grepl("n|N", result$CDR3.IMGT.seq)),]
 write.table(result, before.unique.file, sep="\t", quote=F,row.names=F,col.names=T)
 if(filter.unique != "no"){
 	clmns = names(result)
-	if(empty.region.filter == "FR1"){
+	if(empty.region.filter == "leader"){
+		result$unique.def = paste(result$FR1.IMGT.seq, result$CDR1.IMGT.seq, result$FR2.IMGT.seq, result$CDR2.IMGT.seq, result$FR3.IMGT.seq, result$CDR3.IMGT.seq)
+	} else if(empty.region.filter == "FR1"){
 		result$unique.def = paste(result$CDR1.IMGT.seq, result$FR2.IMGT.seq, result$CDR2.IMGT.seq, result$FR3.IMGT.seq, result$CDR3.IMGT.seq)
 	} else if(empty.region.filter == "CDR1"){
 		rresult$unique.def = paste(result$FR2.IMGT.seq, result$CDR2.IMGT.seq, result$FR3.IMGT.seq, result$CDR3.IMGT.seq)
 	} else if(empty.region.filter == "FR2"){
 		result$unique.def = paste(result$CDR2.IMGT.seq, result$FR3.IMGT.seq, result$CDR3.IMGT.seq)
 	#result = result[,clmns]
 	#write.table(inputdata.removed, "unique_removed.csv", sep=",",quote=F,row.names=F,col.names=T)
 }
-print(paste("Number of sequences in result after CDR/FR filtering:", nrow(result)))
+filtering.steps = rbind(filtering.steps, c("After filter unique sequences", nrow(result)))
-print(paste("Number of matched sequences in result after CDR/FR filtering:", nrow(result[!grepl("unmatched", result$best_match),])))
-filtering.steps = rbind(filtering.steps, c("After unique filter", nrow(result)))
+splt = strsplit(class.filter, "_")[[1]]
+chunk_hit_threshold = as.numeric(splt[1])
+nt_hit_threshold = as.numeric(splt[2])
+higher_than=(summ$chunk_hit_percentage >= chunk_hit_threshold & summ$nt_hit_percentage >= nt_hit_threshold)
+unmatched=summ[NULL,c("Sequence.ID", "chunk_hit_percentage", "nt_hit_percentage", "start_locations", "best_match")]
+if(!all(higher_than, na.rm=T)){ #check for 'not all' because that would mean the unmatched set is empty
+	unmatched = summ[!higher_than,]
+	unmatched = unmatched[,c("Sequence.ID", "chunk_hit_percentage", "nt_hit_percentage", "start_locations", "best_match")]
+	unmatched$best_match = paste("unmatched,", unmatched$best_match)
+	summ[!higher_than,"best_match"] = paste("unmatched,", summ[!higher_than,"best_match"])
+}
+if(any(higher_than, na.rm=T)){
+	#summ = summ[higher_than,]
+}
+if(nrow(summ) == 0){
+	stop("No data remaining after filter")
+}
+result$past = do.call(paste, c(result[unlist(strsplit(unique.type, ","))], sep = ":"))
+result = result[!(duplicated(result$past)), ]
+result = result[,!(names(result) %in% c("past"))]
+print(paste("Number of sequences in result after", unique.type, "filtering:", nrow(result)))
+filtering.steps = rbind(filtering.steps, c("After remove duplicates based on filter", nrow(result)))
 print(paste("Number of rows in result:", nrow(result)))
 print(paste("Number of rows in unmatched:", nrow(unmatched)))
 matched.sequences = result[!grepl("^unmatched", result$best_match),]

Mercurial > repos > davidvanzessen > shm_csr

comparison merge_and_filter.r @ 1:faae21ba5c63 draft