shm_csr: merge_and_filter.r comparison

comparison merge_and_filter.r @ 49:f5fe63533c58 draft

Uploaded

author	davidvanzessen
date	Thu, 11 May 2017 10:21:39 -0400
parents	64711f461c8e
children	8fa8836bd605

comparison

equal deleted inserted replaced

-:c5295dd10dfc
+:f5fe63533c58
 unmatchedfile = args[10]
 method=args[11]
 functionality=args[12]
 unique.type=args[13]
 filter.unique=args[14]
-class.filter=args[15]
+filter.unique.count=as.numeric(args[15])
-empty.region.filter=args[16]
+class.filter=args[16]
+empty.region.filter=args[17]
+print(paste("filter.unique.count:", filter.unique.count))
 summ = read.table(summaryfile, header=T, sep="\t", fill=T, stringsAsFactors=F, quote="")
 sequences = read.table(sequencesfile, header=T, sep="\t", fill=T, stringsAsFactors=F, quote="")
 mutationanalysis = read.table(mutationanalysisfile, header=T, sep="\t", fill=T, stringsAsFactors=F, quote="")
 mutationstats = read.table(mutationstatsfile, header=T, sep="\t", fill=T, stringsAsFactors=F, quote="")
 filtering.steps = rbind(filtering.steps, c("After functionality filter", nrow(summ)))
 if(FALSE){ #to speed up debugging
 set.seed(1)
-summ = summ[sample(nrow(summ), floor(nrow(summ) * 0.05)),]
+summ = summ[sample(nrow(summ), floor(nrow(summ) * 0.1)),]
 print(paste("Number of sequences after sampling 5%:", nrow(summ)))
 filtering.steps = rbind(filtering.steps, c("Number of sequences after sampling 5%", nrow(summ)))
 }
 		result = result[duplicated(result$unique.def) | duplicated(result$unique.def, fromLast=T),]
 	}
 	result$unique.def = paste(result$unique.def, gsub(",.*", "", result$best_match)) #keep the unique sequences that are in multiple classes, gsub so the unmatched don't have a class after it
+	if(filter.unique == "remove"){
+unique.defs = data.frame(table(result$unique.def))
+unique.defs = unique.defs[unique.defs$Freq >= filter.unique.count,]
+result = result[result$unique.def %in% unique.defs$Var1,]
+	}
 	result = result[!duplicated(result$unique.def),]
 }
 write.table(result, gsub("before_unique_filter.txt", "after_unique_filter.txt", before.unique.file), sep="\t", quote=F,row.names=F,col.names=T)

Mercurial > repos > davidvanzessen > shm_csr

comparison merge_and_filter.r @ 49:f5fe63533c58 draft