argalaxy_tools: report_clonality/RScript.r comparison

comparison report_clonality/RScript.r @ 13:d3ebaa2d2fe0 draft

Uploaded

author	davidvanzessen
date	Tue, 20 Dec 2016 06:02:44 -0500
parents	efa1f5a17b6e
children	15961ca8d9ce

comparison

equal deleted inserted replaced

-:5f5d29c5e711
+:d3ebaa2d2fe0
 # ---------------------- Data preperation ----------------------
 print("Report Clonality - Data preperation")
-inputdata = read.table(infile, sep="\t", header=TRUE, fill=T, comment.char="")
+inputdata = read.table(infile, sep="\t", header=TRUE, fill=T, comment.char="", stringsAsFactors=F)
 print(paste("nrows: ", nrow(inputdata)))
 setwd(outdir)
 UNPROD = inputdata[inputdata$Functionality %in% c("unproductive (see comment)","unproductive"), ]
 } else {
 PRODF = inputdata[inputdata$VDJ.Frame != "In-frame with stop codon" & inputdata$VDJ.Frame != "Out-of-frame" & inputdata$CDR3.Found.How != "NOT_FOUND" , ]
 UNPROD = inputdata[!(inputdata$VDJ.Frame != "In-frame with stop codon" & inputdata$VDJ.Frame != "Out-of-frame" & inputdata$CDR3.Found.How != "NOT_FOUND" ), ]
 }
+}
+for(i in 1:nrow(UNPROD)){
+if(!is.numeric(UNPROD[i,"CDR3.Length"])){
+UNPROD[i,"CDR3.Length"] = 0
+}
 }
 prod.sample.count = data.frame(data.table(PRODF)[, list(Productive=.N), by=c("Sample")])
 prod.rep.count = data.frame(data.table(PRODF)[, list(Productive=.N), by=c("Sample", "Replicate")])
 }
 res[is.na(res)] = 0
 infer.result = infer.clonality(as.matrix(res[,2:ncol(res)]))
-print(infer.result)
+#print(infer.result)
 write.table(data.table(infer.result[[12]]), file=paste("lymphclon_clonality_", sample_id, ".csv", sep=""), sep=",",quote=F,row.names=F,col.names=F)
 res$type = rowSums(res[,2:ncol(res)])
 P4=mean(.SD$P5J.nt.nb, na.rm=T),
 DEL.JH=mean(.SD$X5J.REGION.trimmed.nt.nb, na.rm=T),
 Total.Del=mean(rowSums(.SD[,c("X3V.REGION.trimmed.nt.nb", "X5D.REGION.trimmed.nt.nb", "X3D.REGION.trimmed.nt.nb", "X5J.REGION.trimmed.nt.nb"), with=F], na.rm=T)),
 Total.N=mean(rowSums(.SD[,c("N.REGION.nt.nb", "N1.REGION.nt.nb", "N2.REGION.nt.nb", "N3.REGION.nt.nb", "N4.REGION.nt.nb"), with=F], na.rm=T)),
 Total.P=mean(rowSums(.SD[,c("P3V.nt.nb", "P5D.nt.nb", "P3D.nt.nb", "P5J.nt.nb"), with=F], na.rm=T)),
-Median.CDR3.l=median(.SD$CDR3.Length)),
+Median.CDR3.l=as.double(median(.SD$CDR3.Length))),
 by=c("Sample")])
 newData[,sapply(newData, is.numeric)] = round(newData[,sapply(newData, is.numeric)],1)
 write.table(newData, "junctionAnalysisProd_mean.csv" , sep=",",quote=F,na="-",row.names=F,col.names=F)
 newData = data.frame(data.table(PRODF)[,list(unique=.N,
 P4=num_median(.SD$P5J.nt.nb, na.rm=T),
 DEL.JH=num_median(.SD$X5J.REGION.trimmed.nt.nb, na.rm=T),
 											   Total.Del=num_median(rowSums(.SD[,c("X3V.REGION.trimmed.nt.nb", "X5D.REGION.trimmed.nt.nb", "X3D.REGION.trimmed.nt.nb", "X5J.REGION.trimmed.nt.nb"), with=F], na.rm=T)),
 											   Total.N=num_median(rowSums(.SD[,c("N.REGION.nt.nb", "N1.REGION.nt.nb", "N2.REGION.nt.nb", "N3.REGION.nt.nb", "N4.REGION.nt.nb"), with=F], na.rm=T)),
 											   Total.P=num_median(rowSums(.SD[,c("P3V.nt.nb", "P5D.nt.nb", "P3D.nt.nb", "P5J.nt.nb"), with=F], na.rm=T)),
-											   Median.CDR3.l=median(.SD$CDR3.Length)),
+											   Median.CDR3.l=as.double(median(.SD$CDR3.Length))),
 by=c("Sample")])
 newData[,sapply(newData, is.numeric)] = round(newData[,sapply(newData, is.numeric)],1)
 write.table(newData, "junctionAnalysisProd_median.csv" , sep=",",quote=F,na="-",row.names=F,col.names=F)
 newData = data.frame(data.table(UNPROD)[,list(unique=.N,
 P4=mean(.SD$P5J.nt.nb, na.rm=T),
 DEL.JH=mean(.SD$X5J.REGION.trimmed.nt.nb, na.rm=T),
 Total.Del=mean(rowSums(.SD[,c("X3V.REGION.trimmed.nt.nb", "X5D.REGION.trimmed.nt.nb", "X3D.REGION.trimmed.nt.nb", "X5J.REGION.trimmed.nt.nb"), with=F], na.rm=T)),
 Total.N=mean(rowSums(.SD[,c("N.REGION.nt.nb", "N1.REGION.nt.nb", "N2.REGION.nt.nb", "N3.REGION.nt.nb", "N4.REGION.nt.nb"), with=F], na.rm=T)),
 Total.P=mean(rowSums(.SD[,c("P3V.nt.nb", "P5D.nt.nb", "P3D.nt.nb", "P5J.nt.nb"), with=F], na.rm=T)),
-Median.CDR3.l=median(.SD$CDR3.Length)),
+Median.CDR3.l=as.double(median(.SD$CDR3.Length))),
 by=c("Sample")])
 newData[,sapply(newData, is.numeric)] = round(newData[,sapply(newData, is.numeric)],1)
 write.table(newData, "junctionAnalysisUnProd_mean.csv" , sep=",",quote=F,na="-",row.names=F,col.names=F)
 newData = data.frame(data.table(UNPROD)[,list(unique=.N,
 P4=num_median(.SD$P5J.nt.nb, na.rm=T),
 DEL.JH=num_median(.SD$X5J.REGION.trimmed.nt.nb, na.rm=T),
 Total.Del=num_median(rowSums(.SD[,c("X3V.REGION.trimmed.nt.nb", "X5D.REGION.trimmed.nt.nb", "X3D.REGION.trimmed.nt.nb", "X5J.REGION.trimmed.nt.nb"), with=F], na.rm=T)),
 Total.N=num_median(rowSums(.SD[,c("N.REGION.nt.nb", "N1.REGION.nt.nb", "N2.REGION.nt.nb", "N3.REGION.nt.nb", "N4.REGION.nt.nb"), with=F], na.rm=T)),
 Total.P=num_median(rowSums(.SD[,c("P3V.nt.nb", "P5D.nt.nb", "P3D.nt.nb", "P5J.nt.nb"), with=F], na.rm=T)),
-Median.CDR3.l=median(.SD$CDR3.Length)),
+Median.CDR3.l=as.double(median(.SD$CDR3.Length))),
 															by=c("Sample")])
 newData[,sapply(newData, is.numeric)] = round(newData[,sapply(newData, is.numeric)],1)
 write.table(newData, "junctionAnalysisUnProd_median.csv" , sep=",",quote=F,na="-",row.names=F,col.names=F)
 }

Mercurial > repos > davidvanzessen > argalaxy_tools

comparison report_clonality/RScript.r @ 13:d3ebaa2d2fe0 draft