shm_csr: merge_and_filter.r annotate

annotate merge_and_filter.r @ 47:64711f461c8e draft

Uploaded

author	davidvanzessen
date	Thu, 04 May 2017 07:43:09 -0400
parents	b8ac74723ab0
children	f5fe63533c58

rev	line source
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	1 args <- commandArgs(trailingOnly = TRUE)
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	2
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	3
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	4 summaryfile = args[1]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	5 sequencesfile = args[2]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	6 mutationanalysisfile = args[3]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	7 mutationstatsfile = args[4]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	8 hotspotsfile = args[5]
14 59765d2c8890 Uploaded davidvanzessen parents: 13 diff changeset	9 aafile = args[6]
59765d2c8890 Uploaded davidvanzessen parents: 13 diff changeset	10 gene_identification_file= args[7]
59765d2c8890 Uploaded davidvanzessen parents: 13 diff changeset	11 output = args[8]
59765d2c8890 Uploaded davidvanzessen parents: 13 diff changeset	12 before.unique.file = args[9]
59765d2c8890 Uploaded davidvanzessen parents: 13 diff changeset	13 unmatchedfile = args[10]
59765d2c8890 Uploaded davidvanzessen parents: 13 diff changeset	14 method=args[11]
59765d2c8890 Uploaded davidvanzessen parents: 13 diff changeset	15 functionality=args[12]
59765d2c8890 Uploaded davidvanzessen parents: 13 diff changeset	16 unique.type=args[13]
59765d2c8890 Uploaded davidvanzessen parents: 13 diff changeset	17 filter.unique=args[14]
59765d2c8890 Uploaded davidvanzessen parents: 13 diff changeset	18 class.filter=args[15]
59765d2c8890 Uploaded davidvanzessen parents: 13 diff changeset	19 empty.region.filter=args[16]
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	20
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	21 summ = read.table(summaryfile, header=T, sep="\t", fill=T, stringsAsFactors=F, quote="")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	22 sequences = read.table(sequencesfile, header=T, sep="\t", fill=T, stringsAsFactors=F, quote="")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	23 mutationanalysis = read.table(mutationanalysisfile, header=T, sep="\t", fill=T, stringsAsFactors=F, quote="")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	24 mutationstats = read.table(mutationstatsfile, header=T, sep="\t", fill=T, stringsAsFactors=F, quote="")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	25 hotspots = read.table(hotspotsfile, header=T, sep="\t", fill=T, stringsAsFactors=F, quote="")
14 59765d2c8890 Uploaded davidvanzessen parents: 13 diff changeset	26 AAs = read.table(aafile, header=T, sep="\t", fill=T, stringsAsFactors=F, quote="")
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	27 gene_identification = read.table(gene_identification_file, header=T, sep="\t", fill=T, stringsAsFactors=F, quote="")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	28
47 64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	29 fix_column_names = function(df){
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	30 if("V.DOMAIN.Functionality" %in% names(df)){
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	31 names(df)[names(df) == "V.DOMAIN.Functionality"] = "Functionality"
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	32 print("found V.DOMAIN.Functionality, changed")
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	33 }
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	34 if("V.DOMAIN.Functionality.comment" %in% names(df)){
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	35 names(df)[names(df) == "V.DOMAIN.Functionality.comment"] = "Functionality.comment"
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	36 print("found V.DOMAIN.Functionality.comment, changed")
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	37 }
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	38 return(df)
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	39 }
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	40
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	41 summ = fix_column_names(summ)
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	42 sequences = fix_column_names(sequences)
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	43 mutationanalysis = fix_column_names(mutationanalysis)
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	44 mutationstats = fix_column_names(mutationstats)
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	45 hotspots = fix_column_names(hotspots)
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	46 AAs = fix_column_names(AAs)
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	47
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	48 if(method == "blastn"){
10 4b695ca65213 Uploaded davidvanzessen parents: 9 diff changeset	49 #"qseqid\tsseqid\tpident\tlength\tmismatch\tgapopen\tqstart\tqend\tsstart\tsend\tevalue\tbitscore"
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	50 gene_identification = gene_identification[!duplicated(gene_identification$qseqid),]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	51 ref_length = data.frame(sseqid=c("ca1", "ca2", "cg1", "cg2", "cg3", "cg4", "cm"), ref.length=c(81,81,141,141,141,141,52))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	52 gene_identification = merge(gene_identification, ref_length, by="sseqid", all.x=T)
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	53 gene_identification$chunk_hit_percentage = (gene_identification$length / gene_identification$ref.length) * 100
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	54 gene_identification = gene_identification[,c("qseqid", "chunk_hit_percentage", "pident", "qstart", "sseqid")]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	55 colnames(gene_identification) = c("Sequence.ID", "chunk_hit_percentage", "nt_hit_percentage", "start_locations", "best_match")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	56 }
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	57
47 64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	58 #print("Summary analysis files columns")
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	59 #print(names(summ))
41 b8ac74723ab0 Uploaded davidvanzessen parents: 40 diff changeset	60
b8ac74723ab0 Uploaded davidvanzessen parents: 40 diff changeset	61
b8ac74723ab0 Uploaded davidvanzessen parents: 40 diff changeset	62
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	63 input.sequence.count = nrow(summ)
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	64 print(paste("Number of sequences in summary file:", input.sequence.count))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	65
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	66 filtering.steps = data.frame(character(0), numeric(0))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	67
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	68 filtering.steps = rbind(filtering.steps, c("Input", input.sequence.count))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	69
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	70 filtering.steps[,1] = as.character(filtering.steps[,1])
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	71 filtering.steps[,2] = as.character(filtering.steps[,2])
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	72 #filtering.steps[,3] = as.numeric(filtering.steps[,3])
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	73
40 ca2512e1e3ab Uploaded davidvanzessen parents: 38 diff changeset	74 #print("summary files columns")
ca2512e1e3ab Uploaded davidvanzessen parents: 38 diff changeset	75 #print(names(summ))
38 05c62efdc393 Uploaded davidvanzessen parents: 30 diff changeset	76
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	77 summ = merge(summ, gene_identification, by="Sequence.ID")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	78
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	79 summ = summ[summ$Functionality != "No results",]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	80
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	81 print(paste("Number of sequences after 'No results' filter:", nrow(summ)))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	82
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	83 filtering.steps = rbind(filtering.steps, c("After 'No results' filter", nrow(summ)))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	84
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	85 if(functionality == "productive"){
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	86 summ = summ[summ$Functionality == "productive (see comment)" \| summ$Functionality == "productive",]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	87 } else if (functionality == "unproductive"){
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	88 summ = summ[summ$Functionality == "unproductive (see comment)" \| summ$Functionality == "unproductive",]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	89 } else if (functionality == "remove_unknown"){
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	90 summ = summ[summ$Functionality != "No results" & summ$Functionality != "unknown (see comment)" & summ$Functionality != "unknown",]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	91 }
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	92
1 faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	93 print(paste("Number of sequences after functionality filter:", nrow(summ)))
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	94
1 faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	95 filtering.steps = rbind(filtering.steps, c("After functionality filter", nrow(summ)))
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	96
47 64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	97 if(FALSE){ #to speed up debugging
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	98 set.seed(1)
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	99 summ = summ[sample(nrow(summ), floor(nrow(summ) * 0.05)),]
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	100 print(paste("Number of sequences after sampling 5%:", nrow(summ)))
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	101
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	102 filtering.steps = rbind(filtering.steps, c("Number of sequences after sampling 5%", nrow(summ)))
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	103 }
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	104
41 b8ac74723ab0 Uploaded davidvanzessen parents: 40 diff changeset	105 print("mutation analysis files columns")
b8ac74723ab0 Uploaded davidvanzessen parents: 40 diff changeset	106 print(names(mutationanalysis[,!(names(mutationanalysis) %in% names(summ)[-1])]))
38 05c62efdc393 Uploaded davidvanzessen parents: 30 diff changeset	107
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	108 result = merge(summ, mutationanalysis[,!(names(mutationanalysis) %in% names(summ)[-1])], by="Sequence.ID")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	109
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	110 print(paste("Number of sequences after merging with mutation analysis file:", nrow(result)))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	111
47 64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	112 #print("mutation stats files columns")
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	113 #print(names(mutationstats[,!(names(mutationstats) %in% names(result)[-1])]))
38 05c62efdc393 Uploaded davidvanzessen parents: 30 diff changeset	114
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	115 result = merge(result, mutationstats[,!(names(mutationstats) %in% names(result)[-1])], by="Sequence.ID")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	116
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	117 print(paste("Number of sequences after merging with mutation stats file:", nrow(result)))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	118
41 b8ac74723ab0 Uploaded davidvanzessen parents: 40 diff changeset	119 print("hotspots files columns")
b8ac74723ab0 Uploaded davidvanzessen parents: 40 diff changeset	120 print(names(hotspots[,!(names(hotspots) %in% names(result)[-1])]))
38 05c62efdc393 Uploaded davidvanzessen parents: 30 diff changeset	121
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	122 result = merge(result, hotspots[,!(names(hotspots) %in% names(result)[-1])], by="Sequence.ID")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	123
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	124 print(paste("Number of sequences after merging with hotspots file:", nrow(result)))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	125
41 b8ac74723ab0 Uploaded davidvanzessen parents: 40 diff changeset	126 print("sequences files columns")
b8ac74723ab0 Uploaded davidvanzessen parents: 40 diff changeset	127 print(c("FR1.IMGT", "CDR1.IMGT", "FR2.IMGT", "CDR2.IMGT", "FR3.IMGT", "CDR3.IMGT"))
b8ac74723ab0 Uploaded davidvanzessen parents: 40 diff changeset	128
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	129 sequences = sequences[,c("Sequence.ID", "FR1.IMGT", "CDR1.IMGT", "FR2.IMGT", "CDR2.IMGT", "FR3.IMGT", "CDR3.IMGT")]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	130 names(sequences) = c("Sequence.ID", "FR1.IMGT.seq", "CDR1.IMGT.seq", "FR2.IMGT.seq", "CDR2.IMGT.seq", "FR3.IMGT.seq", "CDR3.IMGT.seq")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	131 result = merge(result, sequences, by="Sequence.ID", all.x=T)
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	132
41 b8ac74723ab0 Uploaded davidvanzessen parents: 40 diff changeset	133 print("sequences files columns")
b8ac74723ab0 Uploaded davidvanzessen parents: 40 diff changeset	134 print("CDR3.IMGT")
b8ac74723ab0 Uploaded davidvanzessen parents: 40 diff changeset	135
14 59765d2c8890 Uploaded davidvanzessen parents: 13 diff changeset	136 AAs = AAs[,c("Sequence.ID", "CDR3.IMGT")]
59765d2c8890 Uploaded davidvanzessen parents: 13 diff changeset	137 names(AAs) = c("Sequence.ID", "CDR3.IMGT.AA")
59765d2c8890 Uploaded davidvanzessen parents: 13 diff changeset	138 result = merge(result, AAs, by="Sequence.ID", all.x=T)
59765d2c8890 Uploaded davidvanzessen parents: 13 diff changeset	139
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	140 print(paste("Number of sequences in result after merging with sequences:", nrow(result)))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	141
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	142 result$VGene = gsub("^Homsap ", "", result$V.GENE.and.allele)
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	143 result$VGene = gsub("[].", "", result$VGene)
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	144 result$DGene = gsub("^Homsap ", "", result$D.GENE.and.allele)
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	145 result$DGene = gsub("[].", "", result$DGene)
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	146 result$JGene = gsub("^Homsap ", "", result$J.GENE.and.allele)
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	147 result$JGene = gsub("[].", "", result$JGene)
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	148
12 6b66c1c57f22 Uploaded davidvanzessen parents: 10 diff changeset	149 splt = strsplit(class.filter, "_")[[1]]
6b66c1c57f22 Uploaded davidvanzessen parents: 10 diff changeset	150 chunk_hit_threshold = as.numeric(splt[1])
6b66c1c57f22 Uploaded davidvanzessen parents: 10 diff changeset	151 nt_hit_threshold = as.numeric(splt[2])
6b66c1c57f22 Uploaded davidvanzessen parents: 10 diff changeset	152
6b66c1c57f22 Uploaded davidvanzessen parents: 10 diff changeset	153 higher_than=(result$chunk_hit_percentage >= chunk_hit_threshold & result$nt_hit_percentage >= nt_hit_threshold)
6b66c1c57f22 Uploaded davidvanzessen parents: 10 diff changeset	154
6b66c1c57f22 Uploaded davidvanzessen parents: 10 diff changeset	155 if(!all(higher_than, na.rm=T)){ #check for no unmatched
6b66c1c57f22 Uploaded davidvanzessen parents: 10 diff changeset	156 result[!higher_than,"best_match"] = paste("unmatched,", result[!higher_than,"best_match"])
6b66c1c57f22 Uploaded davidvanzessen parents: 10 diff changeset	157 }
6b66c1c57f22 Uploaded davidvanzessen parents: 10 diff changeset	158
6b66c1c57f22 Uploaded davidvanzessen parents: 10 diff changeset	159 if(class.filter == "101_101"){
6b66c1c57f22 Uploaded davidvanzessen parents: 10 diff changeset	160 result$best_match = "all"
6b66c1c57f22 Uploaded davidvanzessen parents: 10 diff changeset	161 }
6b66c1c57f22 Uploaded davidvanzessen parents: 10 diff changeset	162
6b66c1c57f22 Uploaded davidvanzessen parents: 10 diff changeset	163 write.table(x=result, file=gsub("merged.txt$", "before_filters.txt", output), sep="\t",quote=F,row.names=F,col.names=T)
6b66c1c57f22 Uploaded davidvanzessen parents: 10 diff changeset	164
47 64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	165 print(paste("Number of empty CDR1 sequences:", sum(result$CDR1.IMGT.seq == "", na.rm=T)))
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	166 print(paste("Number of empty FR2 sequences:", sum(result$FR2.IMGT.seq == "", na.rm=T)))
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	167 print(paste("Number of empty CDR2 sequences:", sum(result$CDR2.IMGT.seq == "", na.rm=T)))
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	168 print(paste("Number of empty FR3 sequences:", sum(result$FR3.IMGT.seq == "", na.rm=T)))
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	169
1 faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	170 if(empty.region.filter == "leader"){
faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	171 result = result[result$FR1.IMGT.seq != "" & result$CDR1.IMGT.seq != "" & result$FR2.IMGT.seq != "" & result$CDR2.IMGT.seq != "" & result$FR3.IMGT.seq != "", ]
faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	172 } else if(empty.region.filter == "FR1"){
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	173 result = result[result$CDR1.IMGT.seq != "" & result$FR2.IMGT.seq != "" & result$CDR2.IMGT.seq != "" & result$FR3.IMGT.seq != "", ]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	174 } else if(empty.region.filter == "CDR1"){
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	175 result = result[result$FR2.IMGT.seq != "" & result$CDR2.IMGT.seq != "" & result$FR3.IMGT.seq != "", ]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	176 } else if(empty.region.filter == "FR2"){
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	177 result = result[result$CDR2.IMGT.seq != "" & result$FR3.IMGT.seq != "", ]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	178 }
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	179
30 33a7c49d48a7 Uploaded davidvanzessen parents: 18 diff changeset	180 print(paste("After removal sequences that are missing a gene region:", nrow(result)))
33a7c49d48a7 Uploaded davidvanzessen parents: 18 diff changeset	181 filtering.steps = rbind(filtering.steps, c("After removal sequences that are missing a gene region", nrow(result)))
33a7c49d48a7 Uploaded davidvanzessen parents: 18 diff changeset	182
1 faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	183 if(empty.region.filter == "leader"){
faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	184 result = result[!(grepl("n\|N", result$FR1.IMGT.seq) \| grepl("n\|N", result$FR2.IMGT.seq) \| grepl("n\|N", result$FR3.IMGT.seq) \| grepl("n\|N", result$CDR1.IMGT.seq) \| grepl("n\|N", result$CDR2.IMGT.seq) \| grepl("n\|N", result$CDR3.IMGT.seq)),]
faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	185 } else if(empty.region.filter == "FR1"){
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	186 result = result[!(grepl("n\|N", result$FR2.IMGT.seq) \| grepl("n\|N", result$FR3.IMGT.seq) \| grepl("n\|N", result$CDR1.IMGT.seq) \| grepl("n\|N", result$CDR2.IMGT.seq) \| grepl("n\|N", result$CDR3.IMGT.seq)),]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	187 } else if(empty.region.filter == "CDR1"){
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	188 result = result[!(grepl("n\|N", result$FR2.IMGT.seq) \| grepl("n\|N", result$FR3.IMGT.seq) \| grepl("n\|N", result$CDR2.IMGT.seq) \| grepl("n\|N", result$CDR3.IMGT.seq)),]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	189 } else if(empty.region.filter == "FR2"){
2 e85fec274cde Uploaded davidvanzessen parents: 1 diff changeset	190 result = result[!(grepl("n\|N", result$FR3.IMGT.seq) \| grepl("n\|N", result$CDR2.IMGT.seq) \| grepl("n\|N", result$CDR3.IMGT.seq)),]
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	191 }
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	192
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	193 print(paste("Number of sequences in result after n filtering:", nrow(result)))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	194 filtering.steps = rbind(filtering.steps, c("After N filter", nrow(result)))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	195
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	196 cleanup_columns = c("FR1.IMGT.Nb.of.mutations",
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	197 "CDR1.IMGT.Nb.of.mutations",
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	198 "FR2.IMGT.Nb.of.mutations",
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	199 "CDR2.IMGT.Nb.of.mutations",
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	200 "FR3.IMGT.Nb.of.mutations")
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	201
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	202 for(col in cleanup_columns){
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	203 result[,col] = gsub("\$.*\$", "", result[,col])
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	204 result[,col] = as.numeric(result[,col])
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	205 result[is.na(result[,col]),] = 0
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	206 }
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	207
5 012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	208 write.table(result, before.unique.file, sep="\t", quote=F,row.names=F,col.names=T)
012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	209
012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	210 if(filter.unique != "no"){
012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	211 clmns = names(result)
012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	212 if(empty.region.filter == "leader"){
012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	213 result$unique.def = paste(result$FR1.IMGT.seq, result$CDR1.IMGT.seq, result$FR2.IMGT.seq, result$CDR2.IMGT.seq, result$FR3.IMGT.seq, result$CDR3.IMGT.seq)
012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	214 } else if(empty.region.filter == "FR1"){
012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	215 result$unique.def = paste(result$CDR1.IMGT.seq, result$FR2.IMGT.seq, result$CDR2.IMGT.seq, result$FR3.IMGT.seq, result$CDR3.IMGT.seq)
012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	216 } else if(empty.region.filter == "CDR1"){
012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	217 result$unique.def = paste(result$FR2.IMGT.seq, result$CDR2.IMGT.seq, result$FR3.IMGT.seq, result$CDR3.IMGT.seq)
012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	218 } else if(empty.region.filter == "FR2"){
012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	219 result$unique.def = paste(result$CDR2.IMGT.seq, result$FR3.IMGT.seq, result$CDR3.IMGT.seq)
012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	220 }
12 6b66c1c57f22 Uploaded davidvanzessen parents: 10 diff changeset	221
15 61d0a6318711 Uploaded davidvanzessen parents: 14 diff changeset	222 if(filter.unique == "remove"){
5 012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	223 result = result[duplicated(result$unique.def) \| duplicated(result$unique.def, fromLast=T),]
012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	224 }
40 ca2512e1e3ab Uploaded davidvanzessen parents: 38 diff changeset	225
15 61d0a6318711 Uploaded davidvanzessen parents: 14 diff changeset	226 result$unique.def = paste(result$unique.def, gsub(",.*", "", result$best_match)) #keep the unique sequences that are in multiple classes, gsub so the unmatched don't have a class after it
61d0a6318711 Uploaded davidvanzessen parents: 14 diff changeset	227
61d0a6318711 Uploaded davidvanzessen parents: 14 diff changeset	228 result = result[!duplicated(result$unique.def),]
1 faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	229 }
faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	230
5 012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	231 write.table(result, gsub("before_unique_filter.txt", "after_unique_filter.txt", before.unique.file), sep="\t", quote=F,row.names=F,col.names=T)
012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	232
012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	233 filtering.steps = rbind(filtering.steps, c("After filter unique sequences", nrow(result)))
012a738edf5a Uploaded davidvanzessen parents: 3 diff changeset	234
40 ca2512e1e3ab Uploaded davidvanzessen parents: 38 diff changeset	235 print(paste("Number of sequences in result after unique filtering:", nrow(result)))
ca2512e1e3ab Uploaded davidvanzessen parents: 38 diff changeset	236
1 faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	237 if(nrow(summ) == 0){
faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	238 stop("No data remaining after filter")
faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	239 }
faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	240
13 933fb21568ce Uploaded davidvanzessen parents: 12 diff changeset	241 result$best_match_class = gsub(",.*", "", result$best_match) #gsub so the unmatched don't have a class after it
933fb21568ce Uploaded davidvanzessen parents: 12 diff changeset	242
40 ca2512e1e3ab Uploaded davidvanzessen parents: 38 diff changeset	243 #result$past = ""
ca2512e1e3ab Uploaded davidvanzessen parents: 38 diff changeset	244 #cls = unlist(strsplit(unique.type, ","))
ca2512e1e3ab Uploaded davidvanzessen parents: 38 diff changeset	245 #for (i in 1:nrow(result)){
ca2512e1e3ab Uploaded davidvanzessen parents: 38 diff changeset	246 # result[i,"past"] = paste(result[i,cls], collapse=":")
ca2512e1e3ab Uploaded davidvanzessen parents: 38 diff changeset	247 #}
1 faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	248
47 64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	249
64711f461c8e Uploaded davidvanzessen parents: 41 diff changeset	250
40 ca2512e1e3ab Uploaded davidvanzessen parents: 38 diff changeset	251 result$past = do.call(paste, c(result[unlist(strsplit(unique.type, ","))], sep = ":"))
15 61d0a6318711 Uploaded davidvanzessen parents: 14 diff changeset	252
61d0a6318711 Uploaded davidvanzessen parents: 14 diff changeset	253 result.matched = result[!grepl("unmatched", result$best_match),]
61d0a6318711 Uploaded davidvanzessen parents: 14 diff changeset	254 result.unmatched = result[grepl("unmatched", result$best_match),]
61d0a6318711 Uploaded davidvanzessen parents: 14 diff changeset	255
61d0a6318711 Uploaded davidvanzessen parents: 14 diff changeset	256 result = rbind(result.matched, result.unmatched)
61d0a6318711 Uploaded davidvanzessen parents: 14 diff changeset	257
1 faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	258 result = result[!(duplicated(result$past)), ]
faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	259
13 933fb21568ce Uploaded davidvanzessen parents: 12 diff changeset	260 result = result[,!(names(result) %in% c("past", "best_match_class"))]
1 faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	261
faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	262 print(paste("Number of sequences in result after", unique.type, "filtering:", nrow(result)))
faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	263
faae21ba5c63 Uploaded davidvanzessen parents: 0 diff changeset	264 filtering.steps = rbind(filtering.steps, c("After remove duplicates based on filter", nrow(result)))
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	265
10 4b695ca65213 Uploaded davidvanzessen parents: 9 diff changeset	266 unmatched = result[grepl("^unmatched", result$best_match),c("Sequence.ID", "chunk_hit_percentage", "nt_hit_percentage", "start_locations", "best_match")]
4b695ca65213 Uploaded davidvanzessen parents: 9 diff changeset	267
0 c33d93683a09 Uploaded davidvanzessen parents: diff changeset	268 print(paste("Number of rows in result:", nrow(result)))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	269 print(paste("Number of rows in unmatched:", nrow(unmatched)))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	270
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	271 matched.sequences = result[!grepl("^unmatched", result$best_match),]
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	272
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	273 write.table(x=matched.sequences, file=gsub("merged.txt$", "filtered.txt", output), sep="\t",quote=F,row.names=F,col.names=T)
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	274
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	275 matched.sequences.count = nrow(matched.sequences)
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	276 unmatched.sequences.count = sum(grepl("^unmatched", result$best_match))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	277
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	278 filtering.steps = rbind(filtering.steps, c("Number of matched sequences", matched.sequences.count))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	279 filtering.steps = rbind(filtering.steps, c("Number of unmatched sequences", unmatched.sequences.count))
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	280 filtering.steps[,2] = as.numeric(filtering.steps[,2])
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	281 filtering.steps$perc = round(filtering.steps[,2] / input.sequence.count * 100, 2)
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	282
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	283 write.table(x=filtering.steps, file=gsub("unmatched", "filtering_steps", unmatchedfile), sep="\t",quote=F,row.names=F,col.names=F)
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	284
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	285 write.table(x=result, file=output, sep="\t",quote=F,row.names=F,col.names=T)
c33d93683a09 Uploaded davidvanzessen parents: diff changeset	286 write.table(x=unmatched, file=unmatchedfile, sep="\t",quote=F,row.names=F,col.names=T)

Mercurial > repos > davidvanzessen > shm_csr

annotate merge_and_filter.r @ 47:64711f461c8e draft