argalaxy_tools: report_clonality/RScript.r comparison

comparison report_clonality/RScript.r @ 9:efa1f5a17b6e draft

Uploaded

author	davidvanzessen
date	Mon, 19 Dec 2016 09:23:01 -0500
parents	8cbc1a8d27ae
children	d3ebaa2d2fe0

comparison

equal deleted inserted replaced

-:8cbc1a8d27ae
+:efa1f5a17b6e
 # ---------------------- Plotting the cdr3 length ----------------------
 print("Report Clonality - CDR3 length plot")
-CDR3Length = data.frame(data.table(PRODF)[, list(Count=.N), by=c("Sample", "CDR3.Length.DNA")])
+CDR3Length = data.frame(data.table(PRODF)[, list(Count=.N), by=c("Sample", "CDR3.Length")])
 TotalPerSample = data.frame(data.table(CDR3Length)[, list(total=sum(.SD$Count)), by=Sample])
 CDR3Length = merge(CDR3Length, TotalPerSample, by="Sample")
 CDR3Length$Frequency = CDR3Length$Count * 100 / CDR3Length$total
 CDR3LengthPlot = ggplot(CDR3Length)
-CDR3LengthPlot = CDR3LengthPlot + geom_bar(aes( x = CDR3.Length.DNA, y = Frequency, fill = Sample), stat='identity', position='dodge' ) + theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
+CDR3LengthPlot = CDR3LengthPlot + geom_bar(aes( x = CDR3.Length, y = Frequency, fill = Sample), stat='identity', position='dodge' ) + theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
 ggtitle("Length distribution of CDR3") +
 xlab("CDR3 Length") +
 ylab("Percentage of sequences") +
 scale_fill_manual(values=sample.colors) +
 theme(panel.background = element_rect(fill = "white", colour="black"),text = element_text(size=15, colour="black"), axis.text.x = element_text(angle = 45, hjust = 1), panel.grid.major.y = element_line(colour = "black"), panel.grid.major.x = element_blank())
 geom_tile(data=dat, aes(x=factor(reorder(Top.D.Gene, chr.orderD)), y=factor(reorder(Top.V.Gene, chr.orderV)), fill=relLength)) +
 theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
 scale_fill_gradient(low="gold", high="blue", na.value="white") +
 ggtitle(paste(unique(dat$Sample), " (N=" , sum(dat$Length, na.rm=T) ,")", sep="")) +
 xlab("D genes") +
-ylab("V Genes")
+ylab("V Genes") +
+theme(panel.background = element_rect(fill = "white", colour="black"),text = element_text(size=15, colour="black"), axis.text.x = element_text(angle = 45, hjust = 1), panel.grid.major = element_line(colour = "gainsboro"))
 png(paste("HeatmapVD_", unique(dat[3])[1,1] , ".png", sep=""), width=150+(15*length(Dchain$v.name)), height=100+(15*length(Vchain$v.name)))
 print(img)
 dev.off()
 write.table(x=acast(dat, Top.V.Gene~Top.D.Gene, value.var="Length"), file=paste("HeatmapVD_", unique(dat[3])[1,1], ".csv", sep=""), sep=",",quote=F,row.names=T,col.names=NA)
 geom_tile(data=dat, aes(x=factor(reorder(Top.J.Gene, chr.orderJ)), y=factor(reorder(Top.V.Gene, chr.orderV)), fill=relLength)) +
 theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
 scale_fill_gradient(low="gold", high="blue", na.value="white") +
 ggtitle(paste(unique(dat$Sample), " (N=" , sum(dat$Length, na.rm=T) ,")", sep="")) +
 xlab("J genes") +
-ylab("V Genes")
+ylab("V Genes") +
+theme(panel.background = element_rect(fill = "white", colour="black"),text = element_text(size=15, colour="black"), axis.text.x = element_text(angle = 45, hjust = 1), panel.grid.major = element_line(colour = "gainsboro"))
 png(paste("HeatmapVJ_", unique(dat[3])[1,1] , ".png", sep=""), width=150+(15*length(Jchain$v.name)), height=100+(15*length(Vchain$v.name)))
 print(img)
 dev.off()
 write.table(x=acast(dat, Top.V.Gene~Top.J.Gene, value.var="Length"), file=paste("HeatmapVJ_", unique(dat[3])[1,1], ".csv", sep=""), sep=",",quote=F,row.names=T,col.names=NA)
 geom_tile(data=dat, aes(x=factor(reorder(Top.J.Gene, chr.orderJ)), y=factor(reorder(Top.D.Gene, chr.orderD)), fill=relLength)) +
 theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
 scale_fill_gradient(low="gold", high="blue", na.value="white") +
 ggtitle(paste(unique(dat$Sample), " (N=" , sum(dat$Length, na.rm=T) ,")", sep="")) +
 xlab("J genes") +
-ylab("D Genes")
+ylab("D Genes") +
+theme(panel.background = element_rect(fill = "white", colour="black"),text = element_text(size=15, colour="black"), axis.text.x = element_text(angle = 45, hjust = 1), panel.grid.major = element_line(colour = "gainsboro"))
 png(paste("HeatmapDJ_", unique(dat[3])[1,1] , ".png", sep=""), width=150+(15*length(Jchain$v.name)), height=100+(15*length(Dchain$v.name)))
 print(img)
 dev.off()
 write.table(x=acast(dat, Top.D.Gene~Top.J.Gene, value.var="Length"), file=paste("HeatmapDJ_", unique(dat[3])[1,1], ".csv", sep=""), sep=",",quote=F,row.names=T,col.names=NA)
 P4=mean(.SD$P5J.nt.nb, na.rm=T),
 DEL.JH=mean(.SD$X5J.REGION.trimmed.nt.nb, na.rm=T),
 Total.Del=mean(rowSums(.SD[,c("X3V.REGION.trimmed.nt.nb", "X5D.REGION.trimmed.nt.nb", "X3D.REGION.trimmed.nt.nb", "X5J.REGION.trimmed.nt.nb"), with=F], na.rm=T)),
 Total.N=mean(rowSums(.SD[,c("N.REGION.nt.nb", "N1.REGION.nt.nb", "N2.REGION.nt.nb", "N3.REGION.nt.nb", "N4.REGION.nt.nb"), with=F], na.rm=T)),
 Total.P=mean(rowSums(.SD[,c("P3V.nt.nb", "P5D.nt.nb", "P3D.nt.nb", "P5J.nt.nb"), with=F], na.rm=T)),
-Median.CDR3.l=median(.SD$CDR3.Length.DNA)),
+Median.CDR3.l=median(.SD$CDR3.Length)),
 by=c("Sample")])
 newData[,sapply(newData, is.numeric)] = round(newData[,sapply(newData, is.numeric)],1)
 write.table(newData, "junctionAnalysisProd_mean.csv" , sep=",",quote=F,na="-",row.names=F,col.names=F)
 newData = data.frame(data.table(PRODF)[,list(unique=.N,
 P4=num_median(.SD$P5J.nt.nb, na.rm=T),
 DEL.JH=num_median(.SD$X5J.REGION.trimmed.nt.nb, na.rm=T),
 											   Total.Del=num_median(rowSums(.SD[,c("X3V.REGION.trimmed.nt.nb", "X5D.REGION.trimmed.nt.nb", "X3D.REGION.trimmed.nt.nb", "X5J.REGION.trimmed.nt.nb"), with=F], na.rm=T)),
 											   Total.N=num_median(rowSums(.SD[,c("N.REGION.nt.nb", "N1.REGION.nt.nb", "N2.REGION.nt.nb", "N3.REGION.nt.nb", "N4.REGION.nt.nb"), with=F], na.rm=T)),
 											   Total.P=num_median(rowSums(.SD[,c("P3V.nt.nb", "P5D.nt.nb", "P3D.nt.nb", "P5J.nt.nb"), with=F], na.rm=T)),
-											   Median.CDR3.l=median(.SD$CDR3.Length.DNA)),
+											   Median.CDR3.l=median(.SD$CDR3.Length)),
 by=c("Sample")])
 newData[,sapply(newData, is.numeric)] = round(newData[,sapply(newData, is.numeric)],1)
 write.table(newData, "junctionAnalysisProd_median.csv" , sep=",",quote=F,na="-",row.names=F,col.names=F)
 newData = data.frame(data.table(UNPROD)[,list(unique=.N,
 P4=mean(.SD$P5J.nt.nb, na.rm=T),
 DEL.JH=mean(.SD$X5J.REGION.trimmed.nt.nb, na.rm=T),
 Total.Del=mean(rowSums(.SD[,c("X3V.REGION.trimmed.nt.nb", "X5D.REGION.trimmed.nt.nb", "X3D.REGION.trimmed.nt.nb", "X5J.REGION.trimmed.nt.nb"), with=F], na.rm=T)),
 Total.N=mean(rowSums(.SD[,c("N.REGION.nt.nb", "N1.REGION.nt.nb", "N2.REGION.nt.nb", "N3.REGION.nt.nb", "N4.REGION.nt.nb"), with=F], na.rm=T)),
 Total.P=mean(rowSums(.SD[,c("P3V.nt.nb", "P5D.nt.nb", "P3D.nt.nb", "P5J.nt.nb"), with=F], na.rm=T)),
-Median.CDR3.l=median(.SD$CDR3.Length.DNA)),
+Median.CDR3.l=median(.SD$CDR3.Length)),
 by=c("Sample")])
 newData[,sapply(newData, is.numeric)] = round(newData[,sapply(newData, is.numeric)],1)
 write.table(newData, "junctionAnalysisUnProd_mean.csv" , sep=",",quote=F,na="-",row.names=F,col.names=F)
 newData = data.frame(data.table(UNPROD)[,list(unique=.N,
 P4=num_median(.SD$P5J.nt.nb, na.rm=T),
 DEL.JH=num_median(.SD$X5J.REGION.trimmed.nt.nb, na.rm=T),
 Total.Del=num_median(rowSums(.SD[,c("X3V.REGION.trimmed.nt.nb", "X5D.REGION.trimmed.nt.nb", "X3D.REGION.trimmed.nt.nb", "X5J.REGION.trimmed.nt.nb"), with=F], na.rm=T)),
 Total.N=num_median(rowSums(.SD[,c("N.REGION.nt.nb", "N1.REGION.nt.nb", "N2.REGION.nt.nb", "N3.REGION.nt.nb", "N4.REGION.nt.nb"), with=F], na.rm=T)),
 Total.P=num_median(rowSums(.SD[,c("P3V.nt.nb", "P5D.nt.nb", "P3D.nt.nb", "P5J.nt.nb"), with=F], na.rm=T)),
-Median.CDR3.l=median(.SD$CDR3.Length.DNA)),
+Median.CDR3.l=median(.SD$CDR3.Length)),
 															by=c("Sample")])
 newData[,sapply(newData, is.numeric)] = round(newData[,sapply(newData, is.numeric)],1)
 write.table(newData, "junctionAnalysisUnProd_median.csv" , sep=",",quote=F,na="-",row.names=F,col.names=F)
 }
 dev.off()
 write.table(AAfreq, "AAComposition.csv" , sep=",",quote=F,na="-",row.names=F,col.names=T)
 # ---------------------- AA median CDR3 length ----------------------
-median.aa.l = data.frame(data.table(PRODF)[, list(median=as.double(median(.SD$CDR3.Length.DNA))), by=c("Sample")])
+median.aa.l = data.frame(data.table(PRODF)[, list(median=as.double(median(.SD$CDR3.Length))), by=c("Sample")])
 write.table(median.aa.l, "AAMedianBySample.csv" , sep=",",quote=F,na="-",row.names=F,col.names=F)

Mercurial > repos > davidvanzessen > argalaxy_tools

comparison report_clonality/RScript.r @ 9:efa1f5a17b6e draft