vdm_plot: my_VDM_tool.r annotate

annotate my_VDM_tool.r @ 0:67769f496e2c draft

Uploaded

author	xuef
date	Thu, 05 Nov 2020 13:48:08 +0000
parents
children

rev	line source
0 67769f496e2c Uploaded xuef parents: diff changeset	1 #!/usr/bin/env Rscript
67769f496e2c Uploaded xuef parents: diff changeset	2
67769f496e2c Uploaded xuef parents: diff changeset	3 # rm(list=ls())
67769f496e2c Uploaded xuef parents: diff changeset	4
67769f496e2c Uploaded xuef parents: diff changeset	5 library("getopt")
67769f496e2c Uploaded xuef parents: diff changeset	6
67769f496e2c Uploaded xuef parents: diff changeset	7 #input from trailing line arguments
67769f496e2c Uploaded xuef parents: diff changeset	8 args <- commandArgs(trailingOnly = TRUE)
67769f496e2c Uploaded xuef parents: diff changeset	9 #read the options from input commandArgs
67769f496e2c Uploaded xuef parents: diff changeset	10 option_specification = matrix(c(
67769f496e2c Uploaded xuef parents: diff changeset	11 'inf','i01',1,'character',
67769f496e2c Uploaded xuef parents: diff changeset	12 'itype','i02',2,'character',
67769f496e2c Uploaded xuef parents: diff changeset	13 'thrup','i03',2,'double',
67769f496e2c Uploaded xuef parents: diff changeset	14 'thrlow','i04',2,'double',
67769f496e2c Uploaded xuef parents: diff changeset	15 'allr','i05',2,'character',
67769f496e2c Uploaded xuef parents: diff changeset	16 'complex','i06',2,'logical',
67769f496e2c Uploaded xuef parents: diff changeset	17 'lsp','i07',2,'double',
67769f496e2c Uploaded xuef parents: diff changeset	18 'pcol','i08',2,'character',
67769f496e2c Uploaded xuef parents: diff changeset	19 'lcol','i09',2,'character',
67769f496e2c Uploaded xuef parents: diff changeset	20
67769f496e2c Uploaded xuef parents: diff changeset	21 'xstand','i10',2,'logical',
67769f496e2c Uploaded xuef parents: diff changeset	22 'bsize','i11',2,'integer',
67769f496e2c Uploaded xuef parents: diff changeset	23 'bnorm','i12',2,'logical',
67769f496e2c Uploaded xuef parents: diff changeset	24 'exclthr','i13',2,'double',
67769f496e2c Uploaded xuef parents: diff changeset	25 'exclcol','i14',2,'character',
67769f496e2c Uploaded xuef parents: diff changeset	26
67769f496e2c Uploaded xuef parents: diff changeset	27 'parn','o1',2,'character',
67769f496e2c Uploaded xuef parents: diff changeset	28 'outn','o2',2,'character',
67769f496e2c Uploaded xuef parents: diff changeset	29 'pdfn','o3',2,'character'
67769f496e2c Uploaded xuef parents: diff changeset	30 ), byrow=TRUE, ncol=4)
67769f496e2c Uploaded xuef parents: diff changeset	31
67769f496e2c Uploaded xuef parents: diff changeset	32 #parse options
67769f496e2c Uploaded xuef parents: diff changeset	33 options = getopt(option_specification)
67769f496e2c Uploaded xuef parents: diff changeset	34
67769f496e2c Uploaded xuef parents: diff changeset	35 # #FOR DEBUGGING
67769f496e2c Uploaded xuef parents: diff changeset	36 # options<-NULL
67769f496e2c Uploaded xuef parents: diff changeset	37 # ###INPUT FILE
67769f496e2c Uploaded xuef parents: diff changeset	38 # setwd("D:/Dropbox/_galaxy/")
67769f496e2c Uploaded xuef parents: diff changeset	39 # options$inf<-"nor22.vcf"
67769f496e2c Uploaded xuef parents: diff changeset	40 # ###BASE OPTIONS
67769f496e2c Uploaded xuef parents: diff changeset	41 # #interval type
67769f496e2c Uploaded xuef parents: diff changeset	42 # options$itype<-"C.elegans"
67769f496e2c Uploaded xuef parents: diff changeset	43 # #user interval type
67769f496e2c Uploaded xuef parents: diff changeset	44 # options$userif<-NULL
67769f496e2c Uploaded xuef parents: diff changeset	45 # #quality filter
67769f496e2c Uploaded xuef parents: diff changeset	46 # options$qual<-200
67769f496e2c Uploaded xuef parents: diff changeset	47 # #for scaling 0-1 = upper threshold for what is considered homozygous
67769f496e2c Uploaded xuef parents: diff changeset	48 # options$thrup<-1
67769f496e2c Uploaded xuef parents: diff changeset	49 # #for scaling 0-1 = lower threshold for what is considered homozygous
67769f496e2c Uploaded xuef parents: diff changeset	50 # options$thrlow<-0
67769f496e2c Uploaded xuef parents: diff changeset	51 # #type of allelic ratio (AB/ratio)+---------------------------------------------------------
67769f496e2c Uploaded xuef parents: diff changeset	52 # options$allr<-"AB"
67769f496e2c Uploaded xuef parents: diff changeset	53 # #include complex variants
67769f496e2c Uploaded xuef parents: diff changeset	54 # options$complex<-FALSE
67769f496e2c Uploaded xuef parents: diff changeset	55 # ###ADDITIONAL VARIANT EXCLUSION OPTIONS
67769f496e2c Uploaded xuef parents: diff changeset	56 # #files with variants to exclude
67769f496e2c Uploaded xuef parents: diff changeset	57 # options$exclf<-NULL
67769f496e2c Uploaded xuef parents: diff changeset	58 # options$exclf<-c("nor22chunk1.txt","nor22chunk5.txt")
67769f496e2c Uploaded xuef parents: diff changeset	59 # #for variants to exclude, bottom threshold for which to be used, i.e. 0=ALL, 1=HOM only, 0.8=near HOM)
67769f496e2c Uploaded xuef parents: diff changeset	60 # options$exclthr<-0
67769f496e2c Uploaded xuef parents: diff changeset	61 # #additional colour option for pre-subtraction line
67769f496e2c Uploaded xuef parents: diff changeset	62 # options$exclcol<-"green"
67769f496e2c Uploaded xuef parents: diff changeset	63 # ###PLOT OPTIONS
67769f496e2c Uploaded xuef parents: diff changeset	64 # #loess span
67769f496e2c Uploaded xuef parents: diff changeset	65 # options$lsp<-0.4
67769f496e2c Uploaded xuef parents: diff changeset	66 # #point colour
67769f496e2c Uploaded xuef parents: diff changeset	67 # options$pcol<-"black"
67769f496e2c Uploaded xuef parents: diff changeset	68 # #loess plot colour
67769f496e2c Uploaded xuef parents: diff changeset	69 # options$lcol<-"red"
67769f496e2c Uploaded xuef parents: diff changeset	70 # #standardize x-axis interval (e.g. 1Mb interval)
67769f496e2c Uploaded xuef parents: diff changeset	71 # options$xstand<-TRUE
67769f496e2c Uploaded xuef parents: diff changeset	72 # #bin size for barplot
67769f496e2c Uploaded xuef parents: diff changeset	73 # options$bsize<-1000000
67769f496e2c Uploaded xuef parents: diff changeset	74 # #normalization for barplot
67769f496e2c Uploaded xuef parents: diff changeset	75 # options$bnorm<-FALSE
67769f496e2c Uploaded xuef parents: diff changeset	76 # ###OUTPUT OPTIONS
67769f496e2c Uploaded xuef parents: diff changeset	77 # #custom files names (may not work for Galaxy)
67769f496e2c Uploaded xuef parents: diff changeset	78 # options$outn<-paste(gsub("vcf","",options$inf),"_output_q",options$qual,"-",paste(options$exclf,sep="",collapse=""),".txt",sep="")
67769f496e2c Uploaded xuef parents: diff changeset	79 # options$parn<-paste(gsub("vcf","",options$inf),"_parsed_q",options$qual,"-",paste(options$exclf,sep="",collapse=""),".txt",sep="")
67769f496e2c Uploaded xuef parents: diff changeset	80 # options$pdfn<-paste(gsub("vcf","",options$inf),"_plot_q",options$qual,"-",paste(options$exclf,sep="",collapse=""),".pdf",sep="")
67769f496e2c Uploaded xuef parents: diff changeset	81 # #fixed file names (will work in Galaxy)
67769f496e2c Uploaded xuef parents: diff changeset	82 # # options$outn<-"vcf_output.txt"
67769f496e2c Uploaded xuef parents: diff changeset	83 # # options$parn<-"vcf_parsedinput.txt"
67769f496e2c Uploaded xuef parents: diff changeset	84 # # options$pdfn<-"vdm_mapping_plot.pdf"
67769f496e2c Uploaded xuef parents: diff changeset	85
67769f496e2c Uploaded xuef parents: diff changeset	86
67769f496e2c Uploaded xuef parents: diff changeset	87 'inf','i01',1,'character',
67769f496e2c Uploaded xuef parents: diff changeset	88 'itype','i02',2,'character',
67769f496e2c Uploaded xuef parents: diff changeset	89 'qual','i03',2,'double',
67769f496e2c Uploaded xuef parents: diff changeset	90 'thrup','i04',2,'double',
67769f496e2c Uploaded xuef parents: diff changeset	91 'thrlow','i05',2,'double',
67769f496e2c Uploaded xuef parents: diff changeset	92 'allr','i06',2,'character',
67769f496e2c Uploaded xuef parents: diff changeset	93 'complex','i07',2,'logical',
67769f496e2c Uploaded xuef parents: diff changeset	94 'lsp','i08',2,'double',
67769f496e2c Uploaded xuef parents: diff changeset	95 'pcol','i09',2,'character',
67769f496e2c Uploaded xuef parents: diff changeset	96 'lcol','i10',2,'character',
67769f496e2c Uploaded xuef parents: diff changeset	97
67769f496e2c Uploaded xuef parents: diff changeset	98 'xstand','i11',2,'logical',
67769f496e2c Uploaded xuef parents: diff changeset	99 'bsize','i12',2,'integer',
67769f496e2c Uploaded xuef parents: diff changeset	100 'bnorm','i13',2,'logical',
67769f496e2c Uploaded xuef parents: diff changeset	101 'exclthr','i14',2,'double',
67769f496e2c Uploaded xuef parents: diff changeset	102 'exclcol','i15',2,'character',
67769f496e2c Uploaded xuef parents: diff changeset	103
67769f496e2c Uploaded xuef parents: diff changeset	104 'parn','o1',2,'character',
67769f496e2c Uploaded xuef parents: diff changeset	105 'outn','o2',2,'character',
67769f496e2c Uploaded xuef parents: diff changeset	106 'pdfn','o3',2,'character'
67769f496e2c Uploaded xuef parents: diff changeset	107
67769f496e2c Uploaded xuef parents: diff changeset	108
67769f496e2c Uploaded xuef parents: diff changeset	109 myfunction<-function(inf,itype,thrup,thrlow,allr,complex,lsp,pcol,lcol,xstand,bsize,bnorm,exclthr,exclcol,parn,outn,pdfn){
67769f496e2c Uploaded xuef parents: diff changeset	110
67769f496e2c Uploaded xuef parents: diff changeset	111 #PARAMETERS
67769f496e2c Uploaded xuef parents: diff changeset	112 # filename<-options$inf
67769f496e2c Uploaded xuef parents: diff changeset	113 # interval_type<-options$itype
67769f496e2c Uploaded xuef parents: diff changeset	114 # user_interval_file<-options$userif
67769f496e2c Uploaded xuef parents: diff changeset	115 # read_qual<-options$qual
67769f496e2c Uploaded xuef parents: diff changeset	116 # threshold_upper<-options$thrup
67769f496e2c Uploaded xuef parents: diff changeset	117 # threshold_lower<-options$thrlow
67769f496e2c Uploaded xuef parents: diff changeset	118 # allele_ratio<-options$allr
67769f496e2c Uploaded xuef parents: diff changeset	119 # incl_complex<-options$complex
67769f496e2c Uploaded xuef parents: diff changeset	120 # loess_span<-options$lsp
67769f496e2c Uploaded xuef parents: diff changeset	121 # plot_color<-options$pcol
67769f496e2c Uploaded xuef parents: diff changeset	122 # loess_color<-options$lcol
67769f496e2c Uploaded xuef parents: diff changeset	123 # #transparency for selected colour (to see plot points underneath)
67769f496e2c Uploaded xuef parents: diff changeset	124 # xaxis_standard<-options$xstand
67769f496e2c Uploaded xuef parents: diff changeset	125 # bin_size<-options$bsize
67769f496e2c Uploaded xuef parents: diff changeset	126 # bfreq_norm<-options$bnorm
67769f496e2c Uploaded xuef parents: diff changeset	127 # exclusion_list<-options$exclf
67769f496e2c Uploaded xuef parents: diff changeset	128 # excl_threshold<-options$exclthr
67769f496e2c Uploaded xuef parents: diff changeset	129 # excl_loess_color<-options$exclcol
67769f496e2c Uploaded xuef parents: diff changeset	130 # vcfoutput_filename<-options$outn
67769f496e2c Uploaded xuef parents: diff changeset	131 # vcfparsed_filename<-options$parn
67769f496e2c Uploaded xuef parents: diff changeset	132 # pdf_filename<-options$pdfn
67769f496e2c Uploaded xuef parents: diff changeset	133
67769f496e2c Uploaded xuef parents: diff changeset	134 # plot_color<-rgb(c(col2rgb(plot_color)[1]),c(col2rgb(plot_color)[2]),c(col2rgb(plot)[3]),max=255,alpha=150)
67769f496e2c Uploaded xuef parents: diff changeset	135 # loess_color<-rgb(c(col2rgb(loess_color)[1]),c(col2rgb(loess_color)[2]),c(col2rgb(loess_color)[3]),max=255,alpha=150)
67769f496e2c Uploaded xuef parents: diff changeset	136 # excl_loess_color<-rgb(c(col2rgb(excl_loess_color)[1]),c(col2rgb(excl_loess_color)[2]),c(col2rgb(excl_loess_color)[3]),max=255,alpha=150)
67769f496e2c Uploaded xuef parents: diff changeset	137
67769f496e2c Uploaded xuef parents: diff changeset	138 inf,itype,thrup,thrlow,allr,complex,lsp,pcol,lcol,xstand,bsize,bnorm,exclthr,exclcol,parn,outn,pdfn
67769f496e2c Uploaded xuef parents: diff changeset	139
67769f496e2c Uploaded xuef parents: diff changeset	140 filename<-inf
67769f496e2c Uploaded xuef parents: diff changeset	141 interval_type<-itype
67769f496e2c Uploaded xuef parents: diff changeset	142 # user_interval_file<-userif
67769f496e2c Uploaded xuef parents: diff changeset	143 read_qual<-as.numeric(qual)
67769f496e2c Uploaded xuef parents: diff changeset	144 threshold_upper<-as.numeric(thrup)
67769f496e2c Uploaded xuef parents: diff changeset	145 threshold_lower<-as.numeric(thrlow)
67769f496e2c Uploaded xuef parents: diff changeset	146 allele_ratio<-allr
67769f496e2c Uploaded xuef parents: diff changeset	147 incl_complex<-complex
67769f496e2c Uploaded xuef parents: diff changeset	148 loess_span<-as.numeric(lsp)
67769f496e2c Uploaded xuef parents: diff changeset	149 plot_color<-pcol
67769f496e2c Uploaded xuef parents: diff changeset	150 loess_color<-lcol
67769f496e2c Uploaded xuef parents: diff changeset	151 xaxis_standard<-xstand
67769f496e2c Uploaded xuef parents: diff changeset	152 bin_size<-as.numeric(bsize)
67769f496e2c Uploaded xuef parents: diff changeset	153 bfreq_norm<-bnorm
67769f496e2c Uploaded xuef parents: diff changeset	154 # exclusion_list<-exclf
67769f496e2c Uploaded xuef parents: diff changeset	155 excl_threshold<-as.numeric(exclthr)
67769f496e2c Uploaded xuef parents: diff changeset	156 excl_loess_color<-exclcol
67769f496e2c Uploaded xuef parents: diff changeset	157 vcfoutput_filename<-outn
67769f496e2c Uploaded xuef parents: diff changeset	158 vcfparsed_filename<-parn
67769f496e2c Uploaded xuef parents: diff changeset	159 pdf_filename<-pdfn
67769f496e2c Uploaded xuef parents: diff changeset	160
67769f496e2c Uploaded xuef parents: diff changeset	161 #transparency for selected colour (to see plot points underneath)
67769f496e2c Uploaded xuef parents: diff changeset	162 plot_color<-rgb(c(col2rgb(plot_color)[1]),c(col2rgb(plot_color)[2]),c(col2rgb(plot)[3]),max=255,alpha=150)
67769f496e2c Uploaded xuef parents: diff changeset	163 loess_color<-rgb(c(col2rgb(loess_color)[1]),c(col2rgb(loess_color)[2]),c(col2rgb(loess_color)[3]),max=255,alpha=150)
67769f496e2c Uploaded xuef parents: diff changeset	164 excl_loess_color<-rgb(c(col2rgb(excl_loess_color)[1]),c(col2rgb(excl_loess_color)[2]),c(col2rgb(excl_loess_color)[3]),max=255,alpha=150)
67769f496e2c Uploaded xuef parents: diff changeset	165
67769f496e2c Uploaded xuef parents: diff changeset	166 ###FIXED PARAMETERS
67769f496e2c Uploaded xuef parents: diff changeset	167 #linkage scatter plot yaxis max value=1
67769f496e2c Uploaded xuef parents: diff changeset	168 sp_yaxis<-1
67769f496e2c Uploaded xuef parents: diff changeset	169 #chromosome intervals in Mb rather than custom
67769f496e2c Uploaded xuef parents: diff changeset	170 interval_unit<-1000000
67769f496e2c Uploaded xuef parents: diff changeset	171
67769f496e2c Uploaded xuef parents: diff changeset	172
67769f496e2c Uploaded xuef parents: diff changeset	173 ######################
67769f496e2c Uploaded xuef parents: diff changeset	174 ###READ IN VCF FILE
67769f496e2c Uploaded xuef parents: diff changeset	175 #extract column names
67769f496e2c Uploaded xuef parents: diff changeset	176 vcf_readin<-readLines(filename)
67769f496e2c Uploaded xuef parents: diff changeset	177 #find header line, i.e. last line to begin with #
67769f496e2c Uploaded xuef parents: diff changeset	178 for(l in 1:length(vcf_readin)){
67769f496e2c Uploaded xuef parents: diff changeset	179 vcf_readinl<-vcf_readin[l]
67769f496e2c Uploaded xuef parents: diff changeset	180 if(substr(vcf_readinl,1,1)=="#"){next}
67769f496e2c Uploaded xuef parents: diff changeset	181 else if(substr(vcf_readinl,1,1)!="#"){rowline<-l-1;break}
67769f496e2c Uploaded xuef parents: diff changeset	182 }
67769f496e2c Uploaded xuef parents: diff changeset	183 vcf_header<-vcf_readin[rowline]
67769f496e2c Uploaded xuef parents: diff changeset	184 #e.g. CHROM\tPOS\tID\tREF\tALT\tQUAL\tFILTER\tINFO\tFORMAT\trgSM"
67769f496e2c Uploaded xuef parents: diff changeset	185 vcf_header<-gsub("#","",vcf_header)
67769f496e2c Uploaded xuef parents: diff changeset	186 vcf_colnames<-unlist(strsplit(vcf_header,"\t"))
67769f496e2c Uploaded xuef parents: diff changeset	187
67769f496e2c Uploaded xuef parents: diff changeset	188 #extract data (hashed vcf header skipped with read.table)
67769f496e2c Uploaded xuef parents: diff changeset	189 vcf_rtable<-read.table(filename,sep="\t",stringsAsFactors=FALSE)
67769f496e2c Uploaded xuef parents: diff changeset	190 names(vcf_rtable)<-vcf_colnames
67769f496e2c Uploaded xuef parents: diff changeset	191
67769f496e2c Uploaded xuef parents: diff changeset	192 ######################
67769f496e2c Uploaded xuef parents: diff changeset	193 ###PREPARE DATA
67769f496e2c Uploaded xuef parents: diff changeset	194
67769f496e2c Uploaded xuef parents: diff changeset	195 vcfinfo_dat<-NULL
67769f496e2c Uploaded xuef parents: diff changeset	196 vcfinfo_pdat<-NULL
67769f496e2c Uploaded xuef parents: diff changeset	197 multiallele_counter<-0
67769f496e2c Uploaded xuef parents: diff changeset	198 diviserror_counter<-0
67769f496e2c Uploaded xuef parents: diff changeset	199 for(i in c(1:nrow(vcf_rtable))){
67769f496e2c Uploaded xuef parents: diff changeset	200 vcf_line<-vcf_rtable[i,]
67769f496e2c Uploaded xuef parents: diff changeset	201 #to speed up runtime- quality filter here
67769f496e2c Uploaded xuef parents: diff changeset	202 if(vcf_line$QUAL>=read_qual){
67769f496e2c Uploaded xuef parents: diff changeset	203 #remove chrom or chr prefix from chromosome value
67769f496e2c Uploaded xuef parents: diff changeset	204 if(grepl("chrom",vcf_line$CHROM,ignore.case=TRUE)==TRUE){
67769f496e2c Uploaded xuef parents: diff changeset	205 vcf_line$CHROM<-gsub("chrom","",vcf_line$CHROM,ignore.case=TRUE)
67769f496e2c Uploaded xuef parents: diff changeset	206 }else if(grepl("chr",vcf_line$CHROM,ignore.case=TRUE)==TRUE){
67769f496e2c Uploaded xuef parents: diff changeset	207 vcf_line$CHROM<-gsub("chr","",vcf_line$CHROM,ignore.case=TRUE)
67769f496e2c Uploaded xuef parents: diff changeset	208 }
67769f496e2c Uploaded xuef parents: diff changeset	209 #PARSE INFO
67769f496e2c Uploaded xuef parents: diff changeset	210 vcfinfo_split<-strsplit(vcf_line$INFO,split=";")
67769f496e2c Uploaded xuef parents: diff changeset	211 vcfinfo_coln<-gsub("=.*","",unlist(vcfinfo_split))
67769f496e2c Uploaded xuef parents: diff changeset	212 vcfinfo_cold<-gsub(".*=","",unlist(vcfinfo_split))
67769f496e2c Uploaded xuef parents: diff changeset	213 vcfinfo_ldat<-data.frame(t(vcfinfo_cold),stringsAsFactors=FALSE)
67769f496e2c Uploaded xuef parents: diff changeset	214 names(vcfinfo_ldat)<-vcfinfo_coln
67769f496e2c Uploaded xuef parents: diff changeset	215
67769f496e2c Uploaded xuef parents: diff changeset	216 #skip if commas in values to avoid returning errors
67769f496e2c Uploaded xuef parents: diff changeset	217 if(grepl(",",vcfinfo_ldat$AO)==TRUE){
67769f496e2c Uploaded xuef parents: diff changeset	218 multiallele_counter<-multiallele_counter+1
67769f496e2c Uploaded xuef parents: diff changeset	219 next
67769f496e2c Uploaded xuef parents: diff changeset	220 }
67769f496e2c Uploaded xuef parents: diff changeset	221 #skip divide by zero errors (under "ratio" setting for ratio calculation)
67769f496e2c Uploaded xuef parents: diff changeset	222 if(as.numeric(vcfinfo_ldat$AO)+as.numeric(vcfinfo_ldat$RO)=="0"){
67769f496e2c Uploaded xuef parents: diff changeset	223 diviserror_counter<-diviserror_counter+1
67769f496e2c Uploaded xuef parents: diff changeset	224 next
67769f496e2c Uploaded xuef parents: diff changeset	225 }
67769f496e2c Uploaded xuef parents: diff changeset	226
67769f496e2c Uploaded xuef parents: diff changeset	227 #specific accounting for nonstandard categories
67769f496e2c Uploaded xuef parents: diff changeset	228 #LOF columns only present for loss-of-function variants + assign NA values to all other variants
67769f496e2c Uploaded xuef parents: diff changeset	229 if(("LOF" %in% names(vcfinfo_ldat))==TRUE){
67769f496e2c Uploaded xuef parents: diff changeset	230 LOF<-vcfinfo_ldat$LOF
67769f496e2c Uploaded xuef parents: diff changeset	231 vcfinfo_ldat<-vcfinfo_ldat[,!names(vcfinfo_ldat) %in% "LOF"]
67769f496e2c Uploaded xuef parents: diff changeset	232 vcfinfo_ldat<-cbind(vcfinfo_ldat,LOF)
67769f496e2c Uploaded xuef parents: diff changeset	233 }else{
67769f496e2c Uploaded xuef parents: diff changeset	234 LOF<-"NA"
67769f496e2c Uploaded xuef parents: diff changeset	235 vcfinfo_ldat<-cbind(vcfinfo_ldat,LOF)
67769f496e2c Uploaded xuef parents: diff changeset	236 }
67769f496e2c Uploaded xuef parents: diff changeset	237 #NMD columns only present for nonsense-mediated-decay variants + assign NA values to all other variants
67769f496e2c Uploaded xuef parents: diff changeset	238 if(("NMD" %in% names(vcfinfo_ldat))==TRUE){
67769f496e2c Uploaded xuef parents: diff changeset	239 NMD<-vcfinfo_ldat$NMD
67769f496e2c Uploaded xuef parents: diff changeset	240 vcfinfo_ldat<-vcfinfo_ldat[,!names(vcfinfo_ldat) %in% "NMD"]
67769f496e2c Uploaded xuef parents: diff changeset	241 vcfinfo_ldat<-cbind(vcfinfo_ldat,NMD)
67769f496e2c Uploaded xuef parents: diff changeset	242 }else{
67769f496e2c Uploaded xuef parents: diff changeset	243 NMD<-"NA"
67769f496e2c Uploaded xuef parents: diff changeset	244 vcfinfo_ldat<-cbind(vcfinfo_ldat,NMD)
67769f496e2c Uploaded xuef parents: diff changeset	245 }
67769f496e2c Uploaded xuef parents: diff changeset	246
67769f496e2c Uploaded xuef parents: diff changeset	247 #general accounting for nonstandard categories
67769f496e2c Uploaded xuef parents: diff changeset	248
67769f496e2c Uploaded xuef parents: diff changeset	249
67769f496e2c Uploaded xuef parents: diff changeset	250 #PARSE ANNOTATION
67769f496e2c Uploaded xuef parents: diff changeset	251 ann_rparsed<-unlist(strsplit(vcfinfo_ldat$ANN[1],split="\\\|"))[1:20]
67769f496e2c Uploaded xuef parents: diff changeset	252 ann_rparsed[ann_rparsed==""]<-"novalue"
67769f496e2c Uploaded xuef parents: diff changeset	253 ann_parsed<-data.frame(t(ann_rparsed),stringsAsFactors=FALSE)
67769f496e2c Uploaded xuef parents: diff changeset	254 names(ann_parsed)<-paste("ANN",c(1:dim(ann_parsed)[2]),sep="")
67769f496e2c Uploaded xuef parents: diff changeset	255 #remove duplicate redundant INFO column (fully parsed)
67769f496e2c Uploaded xuef parents: diff changeset	256 vcf_line<-vcf_line[,names(vcf_line)!="INFO"]
67769f496e2c Uploaded xuef parents: diff changeset	257
67769f496e2c Uploaded xuef parents: diff changeset	258 #dataset keeping unparsed annotation (full)
67769f496e2c Uploaded xuef parents: diff changeset	259 vcfinfo_pldat<-cbind(vcf_line,vcfinfo_ldat)
67769f496e2c Uploaded xuef parents: diff changeset	260 vcfinfo_pdat<-rbind(vcfinfo_pdat,vcfinfo_pldat)
67769f496e2c Uploaded xuef parents: diff changeset	261
67769f496e2c Uploaded xuef parents: diff changeset	262 #dataset keeping parsed annotation (partial parsed-for relevant)
67769f496e2c Uploaded xuef parents: diff changeset	263 vcfinfo_ldat<-vcfinfo_ldat[,names(vcfinfo_ldat)!="ANN"]
67769f496e2c Uploaded xuef parents: diff changeset	264 #append copy of original data to parsed data
67769f496e2c Uploaded xuef parents: diff changeset	265 vcfinfo_lldat<-cbind(vcf_line,vcfinfo_ldat,ann_parsed)
67769f496e2c Uploaded xuef parents: diff changeset	266 vcfinfo_dat<-rbind(vcfinfo_dat,vcfinfo_lldat)
67769f496e2c Uploaded xuef parents: diff changeset	267 }
67769f496e2c Uploaded xuef parents: diff changeset	268 }
67769f496e2c Uploaded xuef parents: diff changeset	269 print(paste("rows with multiple alleles skipped: ",multiallele_counter,sep=""))
67769f496e2c Uploaded xuef parents: diff changeset	270 # print(paste("rows with AO+RO=0 (not multiple alleles) skipped: ",diviserror_counter,sep=""))
67769f496e2c Uploaded xuef parents: diff changeset	271
67769f496e2c Uploaded xuef parents: diff changeset	272 #ENSURE CORRECT DATATYPES
67769f496e2c Uploaded xuef parents: diff changeset	273 #convert dataframe columns of factor type to character type
67769f496e2c Uploaded xuef parents: diff changeset	274 vcfinfo_dat<-data.frame(lapply(vcfinfo_dat,as.character),stringsAsFactors=FALSE)
67769f496e2c Uploaded xuef parents: diff changeset	275 #convert to numeric if column is numeric and not string
67769f496e2c Uploaded xuef parents: diff changeset	276 for(n in c(1:dim(vcfinfo_dat)[2])){
67769f496e2c Uploaded xuef parents: diff changeset	277 #suppress warnings when columns with strings encountered (not converted)
67769f496e2c Uploaded xuef parents: diff changeset	278 suppressWarnings(
67769f496e2c Uploaded xuef parents: diff changeset	279 colnum_index<-!is.na(as.numeric(vcfinfo_dat[,n]))
67769f496e2c Uploaded xuef parents: diff changeset	280 )
67769f496e2c Uploaded xuef parents: diff changeset	281 if(all(colnum_index)==TRUE){
67769f496e2c Uploaded xuef parents: diff changeset	282 vcfinfo_dat[,n]<-as.numeric(vcfinfo_dat[,n])
67769f496e2c Uploaded xuef parents: diff changeset	283 }
67769f496e2c Uploaded xuef parents: diff changeset	284 }
67769f496e2c Uploaded xuef parents: diff changeset	285
67769f496e2c Uploaded xuef parents: diff changeset	286 ######################
67769f496e2c Uploaded xuef parents: diff changeset	287 #RATIO CALCULATION
67769f496e2c Uploaded xuef parents: diff changeset	288 #ratio calculation from AO and RO
67769f496e2c Uploaded xuef parents: diff changeset	289 RATIO<-c(vcfinfo_dat$AO/(vcfinfo_dat$AO+vcfinfo_dat$RO))
67769f496e2c Uploaded xuef parents: diff changeset	290 #add adj_AB for AB=0->AO=1 conversion
67769f496e2c Uploaded xuef parents: diff changeset	291 adj_AB<-replace(vcfinfo_dat$AB,vcfinfo_dat$AB==0,1)
67769f496e2c Uploaded xuef parents: diff changeset	292 vcfinfo_dat<-cbind(vcfinfo_dat,RATIO,adj_AB)
67769f496e2c Uploaded xuef parents: diff changeset	293 vcfinfo_dat<-vcfinfo_dat[with(vcfinfo_dat,order(CHROM,POS)),]
67769f496e2c Uploaded xuef parents: diff changeset	294
67769f496e2c Uploaded xuef parents: diff changeset	295 #EXCLUDE COMPLEX VARIANTS
67769f496e2c Uploaded xuef parents: diff changeset	296 if(incl_complex==FALSE){
67769f496e2c Uploaded xuef parents: diff changeset	297 vcfinfo_dat<-subset(vcfinfo_dat,CIGAR=="1X")
67769f496e2c Uploaded xuef parents: diff changeset	298 }
67769f496e2c Uploaded xuef parents: diff changeset	299
67769f496e2c Uploaded xuef parents: diff changeset	300 ######################
67769f496e2c Uploaded xuef parents: diff changeset	301 #SUBTRACT VARIANTS FROM EXCLUSION LIST
67769f496e2c Uploaded xuef parents: diff changeset	302 if(length(exclusion_list)>0){
67769f496e2c Uploaded xuef parents: diff changeset	303 #keep copy of pre-subtraction data for later plotting
67769f496e2c Uploaded xuef parents: diff changeset	304 vcfinfo_origdat<-vcfinfo_dat
67769f496e2c Uploaded xuef parents: diff changeset	305
67769f496e2c Uploaded xuef parents: diff changeset	306 #identifiers for exclusion list based on CHROM/POS/REF/ALT
67769f496e2c Uploaded xuef parents: diff changeset	307 index1<-paste(vcfinfo_dat$CHROM,vcfinfo_dat$POS,sep="_")
67769f496e2c Uploaded xuef parents: diff changeset	308 index2<-paste(vcfinfo_dat$CHROM,vcfinfo_dat$POS,vcfinfo_dat$REF,sep="_")
67769f496e2c Uploaded xuef parents: diff changeset	309 index3<-paste(vcfinfo_dat$CHROM,vcfinfo_dat$POS,vcfinfo_dat$REF,vcfinfo_dat$ALT,sep="_")
67769f496e2c Uploaded xuef parents: diff changeset	310 vcfinfo_dat<-cbind(vcfinfo_dat,index1,index2,index3)
67769f496e2c Uploaded xuef parents: diff changeset	311
67769f496e2c Uploaded xuef parents: diff changeset	312 print(paste("before: ",nrow(vcfinfo_dat),sep=""))
67769f496e2c Uploaded xuef parents: diff changeset	313 #loop and subtract through exclusion lists (if multiple files)
67769f496e2c Uploaded xuef parents: diff changeset	314 for(exclusion_ind in exclusion_list){
67769f496e2c Uploaded xuef parents: diff changeset	315 exclin<-read.table(exclusion_ind,header=TRUE)
67769f496e2c Uploaded xuef parents: diff changeset	316
67769f496e2c Uploaded xuef parents: diff changeset	317 #THRESHOLD FILTER ON EXCLUSION LIST VARIANTS
67769f496e2c Uploaded xuef parents: diff changeset	318 if(allele_ratio=="AB"){
67769f496e2c Uploaded xuef parents: diff changeset	319 exclin<-subset(exclin,adj_AB>=excl_threshold)
67769f496e2c Uploaded xuef parents: diff changeset	320 }
67769f496e2c Uploaded xuef parents: diff changeset	321 if(allele_ratio=="ratio"){
67769f496e2c Uploaded xuef parents: diff changeset	322 exclin<-subset(exclin,ratio>=excl_threshold)
67769f496e2c Uploaded xuef parents: diff changeset	323 }
67769f496e2c Uploaded xuef parents: diff changeset	324
67769f496e2c Uploaded xuef parents: diff changeset	325 #identifiers for vcf data based on CHROM/POS/REF/ALT
67769f496e2c Uploaded xuef parents: diff changeset	326 index1<-paste(exclin$CHROM,exclin$POS,sep="_")
67769f496e2c Uploaded xuef parents: diff changeset	327 index2<-paste(exclin$CHROM,exclin$POS,exclin$REF,sep="_")
67769f496e2c Uploaded xuef parents: diff changeset	328 index3<-paste(exclin$CHROM,exclin$POS,exclin$REF,exclin$ALT,sep="_")
67769f496e2c Uploaded xuef parents: diff changeset	329 exclin<-cbind(exclin,index1,index2,index3)
67769f496e2c Uploaded xuef parents: diff changeset	330 #exclude based on CHROM+POS+REF+ALT
67769f496e2c Uploaded xuef parents: diff changeset	331 vcfinfo_dat<-subset(vcfinfo_dat,!(index3 %in% exclin$index3))
67769f496e2c Uploaded xuef parents: diff changeset	332 }
67769f496e2c Uploaded xuef parents: diff changeset	333 print(paste("after: ",nrow(vcfinfo_dat),sep=""))
67769f496e2c Uploaded xuef parents: diff changeset	334 }
67769f496e2c Uploaded xuef parents: diff changeset	335
67769f496e2c Uploaded xuef parents: diff changeset	336 ######################
67769f496e2c Uploaded xuef parents: diff changeset	337 #WRITE TO OUTPUT
67769f496e2c Uploaded xuef parents: diff changeset	338 #select relevant columns 2 variant type; 4 gene; !5 wormbase ID; 8 type change; 10 nucleotide change; 11 amino acid change; 16 warning message
67769f496e2c Uploaded xuef parents: diff changeset	339 vcfinfo_simp<-subset(vcfinfo_dat,select=c("CHROM","POS","QUAL","DP","REF","ALT","AB","AO","RO","RATIO","adj_AB","ANN2","ANN4","ANN8","ANN10","ANN11","ANN16"))
67769f496e2c Uploaded xuef parents: diff changeset	340 names(vcfinfo_simp)<-c("CHROM","POS","QUAL","DP","REF","ALT","AB","AO","RO","RATIO","adj_AB","VARTYPE","GENE","TYPE","NTCHANGE","PRCHANGE","WARNINGS")
67769f496e2c Uploaded xuef parents: diff changeset	341 vcfsimp_dat<-vcfinfo_simp[with(vcfinfo_simp,order(CHROM,POS)),]
67769f496e2c Uploaded xuef parents: diff changeset	342
67769f496e2c Uploaded xuef parents: diff changeset	343 #write table with quality filtered variants for VDM plotting and relevant columns
67769f496e2c Uploaded xuef parents: diff changeset	344 try(
67769f496e2c Uploaded xuef parents: diff changeset	345 write.table(vcfsimp_dat,vcfoutput_filename,sep="\t",quote=FALSE,row.names=FALSE)
67769f496e2c Uploaded xuef parents: diff changeset	346 ,silent=TRUE)
67769f496e2c Uploaded xuef parents: diff changeset	347 #write table with all unfiltered variants and all columns including parsed INFO
67769f496e2c Uploaded xuef parents: diff changeset	348 try(
67769f496e2c Uploaded xuef parents: diff changeset	349 write.table(vcfinfo_pdat,vcfparsed_filename,sep="\t",quote=FALSE,row.names=FALSE)
67769f496e2c Uploaded xuef parents: diff changeset	350 ,silent=TRUE)
67769f496e2c Uploaded xuef parents: diff changeset	351
67769f496e2c Uploaded xuef parents: diff changeset	352
67769f496e2c Uploaded xuef parents: diff changeset	353 ######################
67769f496e2c Uploaded xuef parents: diff changeset	354 ###CHROMOSOME (INTERVAL) ARRANGEMENT
67769f496e2c Uploaded xuef parents: diff changeset	355 #define chromosome and chromosome size in Mb
67769f496e2c Uploaded xuef parents: diff changeset	356 if(interval_type == 'C.elegans'){
67769f496e2c Uploaded xuef parents: diff changeset	357 chrom_n<-c('I','II','III','IV','V','X')
67769f496e2c Uploaded xuef parents: diff changeset	358 chrom_mb<-c(16,16,14,18,21,18)
67769f496e2c Uploaded xuef parents: diff changeset	359 interval_frame<-data.frame(chrom_n,chrom_mb)
67769f496e2c Uploaded xuef parents: diff changeset	360 } else if(interval_type == 'Zebrafish'){
67769f496e2c Uploaded xuef parents: diff changeset	361 chrom_n<-c('1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25')
67769f496e2c Uploaded xuef parents: diff changeset	362 chrom_mb<-c(61,61,64,63,76,60,78,57,59,47,47,51,55,54,48,59,54,50,51,56,45,43,47,44,39)
67769f496e2c Uploaded xuef parents: diff changeset	363 interval_frame<-data.frame(chrom_n,chrom_mb)
67769f496e2c Uploaded xuef parents: diff changeset	364 } else if(interval_type == 'Brachypodium'){
67769f496e2c Uploaded xuef parents: diff changeset	365 chrom_n<-c('1','2','3','4','5')
67769f496e2c Uploaded xuef parents: diff changeset	366 chrom_mb<-c(75,60,60,50,30)
67769f496e2c Uploaded xuef parents: diff changeset	367 interval_frame<-data.frame(chrom_n,chrom_mb)
67769f496e2c Uploaded xuef parents: diff changeset	368 } else if(interval_type == 'Arabidopsis'){
67769f496e2c Uploaded xuef parents: diff changeset	369 chrom_n<-c('1','2','3','4','5')
67769f496e2c Uploaded xuef parents: diff changeset	370 chrom_mb<-c(31, 20,24,19,27 )
67769f496e2c Uploaded xuef parents: diff changeset	371 interval_frame<-data.frame(chrom_n,chrom_mb)
67769f496e2c Uploaded xuef parents: diff changeset	372 } else{
67769f496e2c Uploaded xuef parents: diff changeset	373 #user interval file- no headers, with chromosome in column 1 (format CHR# or CHROM#) and size in Mb (rounded up) in column 2
67769f496e2c Uploaded xuef parents: diff changeset	374 user_interval_type<-read.table(user_interval_file)
67769f496e2c Uploaded xuef parents: diff changeset	375 if(grepl("chrom",user_interval_type[1,1],ignore.case=TRUE)==TRUE){
67769f496e2c Uploaded xuef parents: diff changeset	376 user_interval_type[,1]<-gsub("chrom","",user_interval_type[,1],ignore.case=TRUE)
67769f496e2c Uploaded xuef parents: diff changeset	377 }else if(grep("chr",user_interval_type[1,1],ignore.case=TRUE)==TRUE){
67769f496e2c Uploaded xuef parents: diff changeset	378 user_interval_type[,1]<-gsub("chr","",user_interval_type[,1],ignore.case=TRUE)
67769f496e2c Uploaded xuef parents: diff changeset	379 }
67769f496e2c Uploaded xuef parents: diff changeset	380 chrom_n<-user_interval_type[,1]
67769f496e2c Uploaded xuef parents: diff changeset	381 chrom_mb<-user_interval_type[,2]
67769f496e2c Uploaded xuef parents: diff changeset	382 interval_frame<-data.frame(chrom_n,chrom_mb)
67769f496e2c Uploaded xuef parents: diff changeset	383 }
67769f496e2c Uploaded xuef parents: diff changeset	384 names(interval_frame)<-c("CHROM","INTERVAL")
67769f496e2c Uploaded xuef parents: diff changeset	385
67769f496e2c Uploaded xuef parents: diff changeset	386
67769f496e2c Uploaded xuef parents: diff changeset	387 ######################
67769f496e2c Uploaded xuef parents: diff changeset	388 ###PLOTTING
67769f496e2c Uploaded xuef parents: diff changeset	389 #VDM SCATTER PLOT
67769f496e2c Uploaded xuef parents: diff changeset	390 #save to pdf
67769f496e2c Uploaded xuef parents: diff changeset	391 pdf(file=pdf_filename,width=9,height=8)
67769f496e2c Uploaded xuef parents: diff changeset	392 #par(mfrow=c(2,3))
67769f496e2c Uploaded xuef parents: diff changeset	393 for(chromind in interval_frame$CHROM){
67769f496e2c Uploaded xuef parents: diff changeset	394 #subset by data by chromosome for plotting
67769f496e2c Uploaded xuef parents: diff changeset	395 intervalind<-interval_frame$INTERVAL[interval_frame$CHROM==chromind]
67769f496e2c Uploaded xuef parents: diff changeset	396 chr_dat<-subset(vcfsimp_dat,CHROM==chromind,silent=TRUE)
67769f496e2c Uploaded xuef parents: diff changeset	397
67769f496e2c Uploaded xuef parents: diff changeset	398 #same subsetting by chromosome for pre-subtraction data
67769f496e2c Uploaded xuef parents: diff changeset	399 if(length(exclusion_list)>0){
67769f496e2c Uploaded xuef parents: diff changeset	400 chr_origdat<-subset(vcfinfo_origdat,CHROM==chromind,silent=TRUE)
67769f496e2c Uploaded xuef parents: diff changeset	401 }
67769f496e2c Uploaded xuef parents: diff changeset	402
67769f496e2c Uploaded xuef parents: diff changeset	403 #define x-axis upper limit
67769f496e2c Uploaded xuef parents: diff changeset	404 if(xaxis_standard==TRUE){
67769f496e2c Uploaded xuef parents: diff changeset	405 #for standardized x-axis (max x-axis chromosome length)
67769f496e2c Uploaded xuef parents: diff changeset	406 scupper_xaxis<-max(interval_frame$INTERVAL)
67769f496e2c Uploaded xuef parents: diff changeset	407 scupper_xval<-scupper_xaxis*interval_unit
67769f496e2c Uploaded xuef parents: diff changeset	408 } else if(xaxis_standard==FALSE){
67769f496e2c Uploaded xuef parents: diff changeset	409 scupper_xaxis<-intervalind
67769f496e2c Uploaded xuef parents: diff changeset	410 scupper_xval<-intervalind*interval_unit
67769f496e2c Uploaded xuef parents: diff changeset	411 }
67769f496e2c Uploaded xuef parents: diff changeset	412
67769f496e2c Uploaded xuef parents: diff changeset	413 if(allele_ratio=="AB"){
67769f496e2c Uploaded xuef parents: diff changeset	414 plot(chr_dat$POS,chr_dat$adj_AB,cex=0.60,xlim=c(0,scupper_xval),ylim=c(0,sp_yaxis),main=paste("Chr",chromind," Variant Discovery Mapping",sep=""),xlab="Position along Chromosome (in Mb)",ylab='Ratio of Variant Reads/Total Reads [AB]',pch=10, col=plot_color,xaxt='n')
67769f496e2c Uploaded xuef parents: diff changeset	415 try(lines(loess.smooth(chr_dat$POS,chr_dat$adj_AB,span=loess_span),lwd=5,col=loess_color))
67769f496e2c Uploaded xuef parents: diff changeset	416 #plot loess curve for data without subtraction of exclusion variants
67769f496e2c Uploaded xuef parents: diff changeset	417 if(length(exclusion_list)>0){
67769f496e2c Uploaded xuef parents: diff changeset	418 try(lines(loess.smooth(chr_origdat$POS,chr_origdat$adj_AB,span=loess_span),lwd=5,col=excl_loess_color))
67769f496e2c Uploaded xuef parents: diff changeset	419 }
67769f496e2c Uploaded xuef parents: diff changeset	420
67769f496e2c Uploaded xuef parents: diff changeset	421 axis(1,at=seq(0,scupper_xval,by=interval_unit),labels=c(0:scupper_xaxis))
67769f496e2c Uploaded xuef parents: diff changeset	422 abline(h=seq(0,sp_yaxis,by=0.1),v=c(1:scupper_xaxis)*interval_unit,col="gray")
67769f496e2c Uploaded xuef parents: diff changeset	423 } else if(allele_ratio=="ratio"){
67769f496e2c Uploaded xuef parents: diff changeset	424 plot(chr_dat$POS,chr_dat$RATIO,cex=0.60,xlim=c(0,scupper_xval),ylim=c(0,sp_yaxis),main=paste("Chr",chromind," Variant Discovery Mapping",sep=""),xlab="Position along Chromosome (in Mb)",ylab='Ratio of Variant Reads/Total Reads [ratio]',pch=10, col=plot,xaxt='n')
67769f496e2c Uploaded xuef parents: diff changeset	425 try(lines(loess.smooth(chr_dat$POS,chr_dat$RATIO,span=loess_span),lwd=5,col=loess_color))
67769f496e2c Uploaded xuef parents: diff changeset	426 #plot loess curve for data without subtraction of exclusion variants
67769f496e2c Uploaded xuef parents: diff changeset	427 if(length(exclusion_list)>0){
67769f496e2c Uploaded xuef parents: diff changeset	428 try(lines(loess.smooth(chr_origdat$POS,chr_origdat$adj_AB,span=loess_span),lwd=5,col=excl_loess_color))
67769f496e2c Uploaded xuef parents: diff changeset	429 }
67769f496e2c Uploaded xuef parents: diff changeset	430 axis(1,at=seq(0,scupper_xval,by=interval_unit),labels=c(0:scupper_xaxis))
67769f496e2c Uploaded xuef parents: diff changeset	431 abline(h=seq(0,sp_yaxis,by=0.1),v=c(1:scupper_xaxis)*interval_unit,col="gray")
67769f496e2c Uploaded xuef parents: diff changeset	432 }
67769f496e2c Uploaded xuef parents: diff changeset	433 }
67769f496e2c Uploaded xuef parents: diff changeset	434
67769f496e2c Uploaded xuef parents: diff changeset	435 ######################
67769f496e2c Uploaded xuef parents: diff changeset	436 #graph barplots
67769f496e2c Uploaded xuef parents: diff changeset	437 location_index<-NULL
67769f496e2c Uploaded xuef parents: diff changeset	438 meanSNP_dat<-NULL
67769f496e2c Uploaded xuef parents: diff changeset	439 # prepare table of counts and calculations
67769f496e2c Uploaded xuef parents: diff changeset	440 for(chromind in interval_frame$CHROM){
67769f496e2c Uploaded xuef parents: diff changeset	441 #for standardized x-axis
67769f496e2c Uploaded xuef parents: diff changeset	442 if(xaxis_standard==TRUE){
67769f496e2c Uploaded xuef parents: diff changeset	443 intervalind<-max(interval_frame$INTERVAL)*1000000/bin_size
67769f496e2c Uploaded xuef parents: diff changeset	444 } else if(xaxis_standard==FALSE){
67769f496e2c Uploaded xuef parents: diff changeset	445 intervalind<-interval_frame$INTERVAL[interval_frame$CHROM==chromind]*1000000/bin_size
67769f496e2c Uploaded xuef parents: diff changeset	446 }
67769f496e2c Uploaded xuef parents: diff changeset	447 #start intervals with 1 and end with 0
67769f496e2c Uploaded xuef parents: diff changeset	448 interval_begin<-c(((0:(intervalind-1))*bin_size)+1)
67769f496e2c Uploaded xuef parents: diff changeset	449 interval_end<-c((1:intervalind)*bin_size)
67769f496e2c Uploaded xuef parents: diff changeset	450
67769f496e2c Uploaded xuef parents: diff changeset	451 #define x-axis upper limit
67769f496e2c Uploaded xuef parents: diff changeset	452 if(xaxis_standard==TRUE){
67769f496e2c Uploaded xuef parents: diff changeset	453 upper_xaxis<-max(interval_frame$INTERVAL)
67769f496e2c Uploaded xuef parents: diff changeset	454 } else if(xaxis_standard==FALSE){
67769f496e2c Uploaded xuef parents: diff changeset	455 upper_xaxis<-interval_frame$INTERVAL[interval_frame$CHROM==chromind]
67769f496e2c Uploaded xuef parents: diff changeset	456 }
67769f496e2c Uploaded xuef parents: diff changeset	457 #prepare columns
67769f496e2c Uploaded xuef parents: diff changeset	458 snp_counter<-0
67769f496e2c Uploaded xuef parents: diff changeset	459 purealt_counter<-0
67769f496e2c Uploaded xuef parents: diff changeset	460 pureref_counter<-0
67769f496e2c Uploaded xuef parents: diff changeset	461 het_counter<-0
67769f496e2c Uploaded xuef parents: diff changeset	462 chr_mean<-0
67769f496e2c Uploaded xuef parents: diff changeset	463 normed_freq<-0
67769f496e2c Uploaded xuef parents: diff changeset	464 ratio<-0
67769f496e2c Uploaded xuef parents: diff changeset	465
67769f496e2c Uploaded xuef parents: diff changeset	466 interval_index<-data.frame(chromind,interval_begin,interval_end,snp_counter,purealt_counter,pureref_counter,het_counter,chr_mean,normed_freq)
67769f496e2c Uploaded xuef parents: diff changeset	467 chr_dat<-subset(vcfinfo_dat,CHROM==chromind)
67769f496e2c Uploaded xuef parents: diff changeset	468 #ratio calculation
67769f496e2c Uploaded xuef parents: diff changeset	469 ratio<-chr_dat$AO/(chr_dat$AO+chr_dat$RO)
67769f496e2c Uploaded xuef parents: diff changeset	470
67769f496e2c Uploaded xuef parents: diff changeset	471 #if counter based on adj_AB or ratio
67769f496e2c Uploaded xuef parents: diff changeset	472 if(allele_ratio=="ratio"){
67769f496e2c Uploaded xuef parents: diff changeset	473 chr_purealtdat<-subset(chr_dat,ratio>=threshold_upper)#;chr_purealtdat
67769f496e2c Uploaded xuef parents: diff changeset	474 chr_purerefdat<-subset(chr_dat,ratio<=threshold_lower)#;chr_purerefdat
67769f496e2c Uploaded xuef parents: diff changeset	475 chr_hetdat<-subset(chr_dat,ratio>threshold_lower & ratio<threshold_upper)#;chr_hetdat
67769f496e2c Uploaded xuef parents: diff changeset	476 } else if(allele_ratio=="AB"){
67769f496e2c Uploaded xuef parents: diff changeset	477 chr_purealtdat<-subset(chr_dat,adj_AB>=threshold_upper)#;chr_purealtdat
67769f496e2c Uploaded xuef parents: diff changeset	478 chr_purerefdat<-subset(chr_dat,adj_AB<=threshold_lower)#;chr_purerefdat
67769f496e2c Uploaded xuef parents: diff changeset	479 chr_hetdat<-subset(chr_dat,adj_AB>threshold_lower & adj_AB<threshold_upper)#;chr_hetdat
67769f496e2c Uploaded xuef parents: diff changeset	480 }
67769f496e2c Uploaded xuef parents: diff changeset	481 #if chromosome with data, count number of snps within each bin (positions rounded up to nearest bin), else skip to next chromosome
67769f496e2c Uploaded xuef parents: diff changeset	482 if(dim(chr_dat)[1]>0){
67769f496e2c Uploaded xuef parents: diff changeset	483 for(i in 1:dim(chr_dat)[1]){
67769f496e2c Uploaded xuef parents: diff changeset	484 chr_datind<-chr_dat[i,]
67769f496e2c Uploaded xuef parents: diff changeset	485 #round up to nearest bin-size interval
67769f496e2c Uploaded xuef parents: diff changeset	486 chr_datind_upper<-ceiling(chr_datind$POS/bin_size)*bin_size
67769f496e2c Uploaded xuef parents: diff changeset	487 interval_coln<-NULL;interval_rown<-NULL
67769f496e2c Uploaded xuef parents: diff changeset	488 #identify row and and counter column to increment
67769f496e2c Uploaded xuef parents: diff changeset	489 interval_coln<-which(names(interval_index)=="snp_counter")
67769f496e2c Uploaded xuef parents: diff changeset	490 interval_rown<-match(chr_datind_upper,interval_index$interval_end)
67769f496e2c Uploaded xuef parents: diff changeset	491 interval_index[interval_rown,interval_coln]<-c(interval_index$snp_counter[interval_rown]+1)
67769f496e2c Uploaded xuef parents: diff changeset	492 }
67769f496e2c Uploaded xuef parents: diff changeset	493 }else{
67769f496e2c Uploaded xuef parents: diff changeset	494 next
67769f496e2c Uploaded xuef parents: diff changeset	495 }
67769f496e2c Uploaded xuef parents: diff changeset	496 ##if chromosome with pure AO, count number of snps with each bin (positions rounded up to nearest bin)
67769f496e2c Uploaded xuef parents: diff changeset	497 if(dim(chr_purealtdat)[1]>0){
67769f496e2c Uploaded xuef parents: diff changeset	498 for(i in 1:dim(chr_purealtdat)[1]){
67769f496e2c Uploaded xuef parents: diff changeset	499 chr_purealtind<-chr_purealtdat[i,]
67769f496e2c Uploaded xuef parents: diff changeset	500 chr_purealtind_upper<-ceiling(chr_purealtind$POS/bin_size)*bin_size
67769f496e2c Uploaded xuef parents: diff changeset	501 interval_coln<-NULL;interval_rown<-NULL
67769f496e2c Uploaded xuef parents: diff changeset	502 interval_coln<-which(names(interval_index)=="purealt_counter")
67769f496e2c Uploaded xuef parents: diff changeset	503 interval_rown<-match(chr_purealtind_upper,interval_index$interval_end)
67769f496e2c Uploaded xuef parents: diff changeset	504 interval_index[interval_rown,interval_coln]<-c(interval_index$purealt_counter[interval_rown]+1)
67769f496e2c Uploaded xuef parents: diff changeset	505 }
67769f496e2c Uploaded xuef parents: diff changeset	506 }
67769f496e2c Uploaded xuef parents: diff changeset	507 #if chromosome with pure RO, count number of snps with each bin (positions rounded up to nearest bin)
67769f496e2c Uploaded xuef parents: diff changeset	508 if(dim(chr_purerefdat)[1]>0){
67769f496e2c Uploaded xuef parents: diff changeset	509 for(i in 1:dim(chr_purerefdat)[1]){
67769f496e2c Uploaded xuef parents: diff changeset	510 chr_purerefind<-chr_purerefdat[i,]
67769f496e2c Uploaded xuef parents: diff changeset	511 chr_purerefind_upper<-ceiling(chr_purerefind$POS/bin_size)*bin_size
67769f496e2c Uploaded xuef parents: diff changeset	512 interval_coln<-NULL;interval_rown<-NULL
67769f496e2c Uploaded xuef parents: diff changeset	513 interval_coln<-which(names(interval_index)=="pureref_counter")
67769f496e2c Uploaded xuef parents: diff changeset	514 interval_rown<-match(chr_purerefind_upper,interval_index$interval_end)
67769f496e2c Uploaded xuef parents: diff changeset	515 interval_index[interval_rown,interval_coln]<-c(interval_index$pureref_counter[interval_rown]+1)
67769f496e2c Uploaded xuef parents: diff changeset	516 }
67769f496e2c Uploaded xuef parents: diff changeset	517 }
67769f496e2c Uploaded xuef parents: diff changeset	518 #if chromosome with hets, count number of snps with each bin (positions rounded up to nearest bin)
67769f496e2c Uploaded xuef parents: diff changeset	519 if(dim(chr_hetdat)[1]>0){
67769f496e2c Uploaded xuef parents: diff changeset	520 for(i in 1:dim(chr_hetdat)[1]){
67769f496e2c Uploaded xuef parents: diff changeset	521 chr_hetind<-chr_hetdat[i,]
67769f496e2c Uploaded xuef parents: diff changeset	522 chr_hetind_upper<-ceiling(chr_hetind$POS/bin_size)*bin_size
67769f496e2c Uploaded xuef parents: diff changeset	523 interval_coln<-NULL;interval_rown<-NULL
67769f496e2c Uploaded xuef parents: diff changeset	524 interval_coln<-which(names(interval_index)=="het_counter")
67769f496e2c Uploaded xuef parents: diff changeset	525 interval_rown<-match(chr_hetind_upper,interval_index$interval_end)
67769f496e2c Uploaded xuef parents: diff changeset	526 interval_index[interval_rown,interval_coln]<-c(interval_index$het_counter[interval_rown]+1)
67769f496e2c Uploaded xuef parents: diff changeset	527 }
67769f496e2c Uploaded xuef parents: diff changeset	528 }
67769f496e2c Uploaded xuef parents: diff changeset	529 #irrespective of standardized x-axis, mean should be calculated from actual interval range of chromosome
67769f496e2c Uploaded xuef parents: diff changeset	530 chr_mean<-sum(interval_index$purealt_counter)/(interval_frame$INTERVAL[interval_frame$CHROM==chromind]*1000000/bin_size)
67769f496e2c Uploaded xuef parents: diff changeset	531 interval_index$chr_mean<-chr_mean
67769f496e2c Uploaded xuef parents: diff changeset	532 meanSNP_dat<-rbind(meanSNP_dat,data.frame(chromind,chr_mean))
67769f496e2c Uploaded xuef parents: diff changeset	533 #normalization treatment for if SNPs are AO=0, AO=total SNPs, or AO and RO in bin
67769f496e2c Uploaded xuef parents: diff changeset	534 for(i in 1:dim(interval_index)[1]){
67769f496e2c Uploaded xuef parents: diff changeset	535 chr_intind<-interval_index[i,]
67769f496e2c Uploaded xuef parents: diff changeset	536 #hom definition based on specified upper and lower thresholds
67769f496e2c Uploaded xuef parents: diff changeset	537 if(chr_intind$purealt_counter<=threshold_lower){
67769f496e2c Uploaded xuef parents: diff changeset	538 interval_coln<-NULL
67769f496e2c Uploaded xuef parents: diff changeset	539 interval_coln<-which(names(interval_index)=="normed_freq")
67769f496e2c Uploaded xuef parents: diff changeset	540 interval_index[i,interval_coln]=0
67769f496e2c Uploaded xuef parents: diff changeset	541 } else if (chr_intind$purealt_counter==chr_intind$snp_counter){
67769f496e2c Uploaded xuef parents: diff changeset	542 interval_coln<-NULL
67769f496e2c Uploaded xuef parents: diff changeset	543 interval_coln<-which(names(interval_index)=="normed_freq")
67769f496e2c Uploaded xuef parents: diff changeset	544 interval_index[i,interval_coln]=(chr_intind$purealt_counter)^2/chr_mean
67769f496e2c Uploaded xuef parents: diff changeset	545 } else {
67769f496e2c Uploaded xuef parents: diff changeset	546 interval_coln<-NULL
67769f496e2c Uploaded xuef parents: diff changeset	547 interval_coln<-which(names(interval_index)=="normed_freq")
67769f496e2c Uploaded xuef parents: diff changeset	548 interval_index[i,interval_coln]=chr_mean*(chr_intind$purealt_counter)^2/(chr_intind$snp_counter-chr_intind$purealt_counter)
67769f496e2c Uploaded xuef parents: diff changeset	549 }
67769f496e2c Uploaded xuef parents: diff changeset	550 }
67769f496e2c Uploaded xuef parents: diff changeset	551 location_index<-rbind(location_index,interval_index)
67769f496e2c Uploaded xuef parents: diff changeset	552 }
67769f496e2c Uploaded xuef parents: diff changeset	553
67769f496e2c Uploaded xuef parents: diff changeset	554 for(chromind in interval_frame$CHROM){
67769f496e2c Uploaded xuef parents: diff changeset	555 interval_index<-location_index[location_index$chromind==chromind,]
67769f496e2c Uploaded xuef parents: diff changeset	556 #assign 0 values to avoid empty datatable error
67769f496e2c Uploaded xuef parents: diff changeset	557 if(dim(interval_index)[1]==0){
67769f496e2c Uploaded xuef parents: diff changeset	558 interval_index[1,]<-rep(0,dim(interval_index)[2])
67769f496e2c Uploaded xuef parents: diff changeset	559 }
67769f496e2c Uploaded xuef parents: diff changeset	560 }
67769f496e2c Uploaded xuef parents: diff changeset	561 #set up x_axis
67769f496e2c Uploaded xuef parents: diff changeset	562 if(xaxis_standard==TRUE){
67769f496e2c Uploaded xuef parents: diff changeset	563 #for standardized x-axis (max x-axis chromosome length)
67769f496e2c Uploaded xuef parents: diff changeset	564 bpupper_xaxis<-max(interval_frame$INTERVAL)
67769f496e2c Uploaded xuef parents: diff changeset	565 bpupper_xval<-bpupper_xaxis*interval_unit
67769f496e2c Uploaded xuef parents: diff changeset	566 } else if(xaxis_standard==FALSE){
67769f496e2c Uploaded xuef parents: diff changeset	567 bpupper_xaxis<-intervalind
67769f496e2c Uploaded xuef parents: diff changeset	568 bpupper_xval<-intervalind*interval_unit
67769f496e2c Uploaded xuef parents: diff changeset	569 }
67769f496e2c Uploaded xuef parents: diff changeset	570 #set up y_axis range for barplots
67769f496e2c Uploaded xuef parents: diff changeset	571 if(bfreq_norm==TRUE){
67769f496e2c Uploaded xuef parents: diff changeset	572 bp_yaxis<-5*ceiling(max(location_index$normed_freq)/5)
67769f496e2c Uploaded xuef parents: diff changeset	573 #assign non-0 value to yaxis to avoid error
67769f496e2c Uploaded xuef parents: diff changeset	574 if(bp_yaxis==0){
67769f496e2c Uploaded xuef parents: diff changeset	575 bp_yaxis<-10
67769f496e2c Uploaded xuef parents: diff changeset	576 }
67769f496e2c Uploaded xuef parents: diff changeset	577 # }
67769f496e2c Uploaded xuef parents: diff changeset	578 if(xaxis_standard==TRUE){
67769f496e2c Uploaded xuef parents: diff changeset	579 bplot<-barplot(interval_index$normed_freq,space=0,ylim=c(0,bp_yaxis),main=paste("Chr",chromind," Variant Only",sep=""),xlab="Position along Chromosome (in Mb)",ylab='Normalised Frequency')
67769f496e2c Uploaded xuef parents: diff changeset	580 }else if(xaxis_standard==FALSE){
67769f496e2c Uploaded xuef parents: diff changeset	581 bplot<-barplot(interval_index$normed_freq,space=0,xlim=c(0,bpupper_xaxis),ylim=c(0,bp_yaxis),main=paste("Chr",chromind," Variant Only",sep=""),xlab="Position along Chromosome (in Mb)",ylab='Normalised Frequency')
67769f496e2c Uploaded xuef parents: diff changeset	582 }
67769f496e2c Uploaded xuef parents: diff changeset	583 }else if(bfreq_norm==FALSE){
67769f496e2c Uploaded xuef parents: diff changeset	584 bp_yaxis<-5*ceiling(max(location_index$purealt_counter)/5)
67769f496e2c Uploaded xuef parents: diff changeset	585 #assign non-0 value to yaxis to avoid error
67769f496e2c Uploaded xuef parents: diff changeset	586 if(bp_yaxis==0){
67769f496e2c Uploaded xuef parents: diff changeset	587 bp_yaxis<-10
67769f496e2c Uploaded xuef parents: diff changeset	588 }
67769f496e2c Uploaded xuef parents: diff changeset	589 # }
67769f496e2c Uploaded xuef parents: diff changeset	590 if(xaxis_standard==TRUE){
67769f496e2c Uploaded xuef parents: diff changeset	591 bplot<-barplot(interval_index$purealt_counter,space=0,ylim=c(0,bp_yaxis),main=paste("Chr",chromind," Variant Only",sep=""),xlab="Position along Chromosome (in Mb)",ylab='Frequency')
67769f496e2c Uploaded xuef parents: diff changeset	592 }else if(xaxis_standard==FALSE){
67769f496e2c Uploaded xuef parents: diff changeset	593 bplot<-barplot(interval_index$purealt_counter,space=0,xlim=c(0,bpupper_xaxis),ylim=c(0,bp_yaxis),main=paste("Chr",chromind," Variant Only",sep=""),xlab="Position along Chromosome (in Mb)",ylab='Frequency')
67769f496e2c Uploaded xuef parents: diff changeset	594 }
67769f496e2c Uploaded xuef parents: diff changeset	595
67769f496e2c Uploaded xuef parents: diff changeset	596 bp_xaxis1<-as.numeric(bplot)
67769f496e2c Uploaded xuef parents: diff changeset	597 bp_xaxis2<-c(bp_xaxis1,tail(bp_xaxis1,1)+bp_xaxis1[2]-bp_xaxis1[1])
67769f496e2c Uploaded xuef parents: diff changeset	598 bp_xaxis<-bp_xaxis2-bp_xaxis1[1]
67769f496e2c Uploaded xuef parents: diff changeset	599
67769f496e2c Uploaded xuef parents: diff changeset	600 axis(1,at=bp_xaxis,labels=seq(0,bpupper_xaxis,by=c(bin_size/1000000)))
67769f496e2c Uploaded xuef parents: diff changeset	601 }
67769f496e2c Uploaded xuef parents: diff changeset	602 dev.off()
67769f496e2c Uploaded xuef parents: diff changeset	603
67769f496e2c Uploaded xuef parents: diff changeset	604

Mercurial > repos > xuef > vdm_plot

annotate my_VDM_tool.r @ 0:67769f496e2c draft