iterativepca: R_functions/plotting

annotate R_functions/plotting_functions.R @ 0:cb54350e76ae draft default tip

Uploaded

author	jason-ellul
date	Wed, 01 Jun 2016 03:24:56 -0400
parents
children

rev	line source
0 cb54350e76ae Uploaded jason-ellul parents: diff changeset	1 ## Plotting and grouping ##
cb54350e76ae Uploaded jason-ellul parents: diff changeset	2 # input data: some number of 2d observations. Each row represents a single observation,
cb54350e76ae Uploaded jason-ellul parents: diff changeset	3 # column 1 = variable 1, to be plotted on the x-axis,
cb54350e76ae Uploaded jason-ellul parents: diff changeset	4 # column 2 = variable 2, to be plotted on the y-axis
cb54350e76ae Uploaded jason-ellul parents: diff changeset	5 # groups: Integer vector with same number of entries as there are rows in the input data,
cb54350e76ae Uploaded jason-ellul parents: diff changeset	6 # representing which group each observation belongs to. Negative numbers are not plotted
cb54350e76ae Uploaded jason-ellul parents: diff changeset	7 # tags: the tag to put on the legend for each group
cb54350e76ae Uploaded jason-ellul parents: diff changeset	8 # plot_colors: colors to use for each group
cb54350e76ae Uploaded jason-ellul parents: diff changeset	9 # plot_symbols: symbols to use for each group
cb54350e76ae Uploaded jason-ellul parents: diff changeset	10 # plot_title: as name suggests
cb54350e76ae Uploaded jason-ellul parents: diff changeset	11 # plot_filename: if this is not null, graph is output to a png with the specified name
cb54350e76ae Uploaded jason-ellul parents: diff changeset	12 plot_by_groups = function(input_data, groups, tags, plot_colors, plot_symbols, plot_title, plot_filename=NULL) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	13 if(!is.null(plot_filename)) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	14 png(plot_filename)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	15 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	16 # leave some extra room on the RHS for the legend
cb54350e76ae Uploaded jason-ellul parents: diff changeset	17 par(mar=c(5.1, 4.1, 4.1, 8.1))
cb54350e76ae Uploaded jason-ellul parents: diff changeset	18 x = as.numeric(input_data[, 1])
cb54350e76ae Uploaded jason-ellul parents: diff changeset	19 y = as.numeric(input_data[, 2])
cb54350e76ae Uploaded jason-ellul parents: diff changeset	20 gids = sort(unique(groups[which(groups >= 0)]))
cb54350e76ae Uploaded jason-ellul parents: diff changeset	21 n = length(gids)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	22
cb54350e76ae Uploaded jason-ellul parents: diff changeset	23 # first set up the plot area to the correct dimensions
cb54350e76ae Uploaded jason-ellul parents: diff changeset	24 plot(x, y, col="white")
cb54350e76ae Uploaded jason-ellul parents: diff changeset	25
cb54350e76ae Uploaded jason-ellul parents: diff changeset	26 for (i in 1:n) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	27 gid = gids[i]
cb54350e76ae Uploaded jason-ellul parents: diff changeset	28 pts_x = x[which(groups == gid)]
cb54350e76ae Uploaded jason-ellul parents: diff changeset	29 pts_y = y[which(groups == gid)]
cb54350e76ae Uploaded jason-ellul parents: diff changeset	30 pts_color = plot_colors[i]
cb54350e76ae Uploaded jason-ellul parents: diff changeset	31 pts_symbol = plot_symbols[i]
cb54350e76ae Uploaded jason-ellul parents: diff changeset	32 points(pts_x, pts_y, col=pts_color, pch=pts_symbol)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	33 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	34 legend(x="topright",
cb54350e76ae Uploaded jason-ellul parents: diff changeset	35 xpd=TRUE,
cb54350e76ae Uploaded jason-ellul parents: diff changeset	36 inset=c(-0.3, 0),
cb54350e76ae Uploaded jason-ellul parents: diff changeset	37 col=plot_colors,
cb54350e76ae Uploaded jason-ellul parents: diff changeset	38 pch=plot_symbols,
cb54350e76ae Uploaded jason-ellul parents: diff changeset	39 legend=tags,
cb54350e76ae Uploaded jason-ellul parents: diff changeset	40 text.col=plot_colors)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	41 title(main=plot_title)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	42 if(!is.null(plot_filename)) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	43 dev.off()
cb54350e76ae Uploaded jason-ellul parents: diff changeset	44 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	45 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	46
cb54350e76ae Uploaded jason-ellul parents: diff changeset	47 # Controls vs cases plot. Colour controls blue, cases red,
cb54350e76ae Uploaded jason-ellul parents: diff changeset	48 # Samples which are neither control nor case are black.
cb54350e76ae Uploaded jason-ellul parents: diff changeset	49 setup_cvc_plot = function(pca_data, control_tag, cases_tag) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	50 plot_info = list()
cb54350e76ae Uploaded jason-ellul parents: diff changeset	51 nsamples = length(pca_data$ids)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	52 groups = rep(1, nsamples)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	53 control_legend = paste0("CO: ", control_tag)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	54 cases_legend = paste0("CA: ", cases_tag)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	55 if (!is.null(control_tag)) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	56 groups[grep(control_tag, pca_data$ids)] = 2
cb54350e76ae Uploaded jason-ellul parents: diff changeset	57 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	58 if (!is.null(cases_tag)) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	59 groups[grep(cases_tag, pca_data$ids)] = 3
cb54350e76ae Uploaded jason-ellul parents: diff changeset	60 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	61 res = sort(unique(groups))
cb54350e76ae Uploaded jason-ellul parents: diff changeset	62 if (length(res) == 1) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	63 tags = c("UNKNOWN")
cb54350e76ae Uploaded jason-ellul parents: diff changeset	64 plot_colors = c("black")
cb54350e76ae Uploaded jason-ellul parents: diff changeset	65 } else if (length(res) == 3) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	66 tags = c("UNKNOWN", control_legend, cases_legend)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	67 plot_colors = c("black", "blue", "red")
cb54350e76ae Uploaded jason-ellul parents: diff changeset	68 } else {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	69 if (all(res == c(1, 2))) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	70 tags = c("UNKNOWN", control_legend)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	71 plot_colors = c("black", "blue")
cb54350e76ae Uploaded jason-ellul parents: diff changeset	72 } else if (all(res == c(1, 3))) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	73 tags = c("UNKNOWN", cases_legend)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	74 plot_colors = c("black", "red")
cb54350e76ae Uploaded jason-ellul parents: diff changeset	75 } else {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	76 tags = c(control_legend, cases_legend)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	77 plot_colors = c("blue", "red")
cb54350e76ae Uploaded jason-ellul parents: diff changeset	78 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	79 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	80 plot_info$groups = groups
cb54350e76ae Uploaded jason-ellul parents: diff changeset	81 plot_info$tags = tags
cb54350e76ae Uploaded jason-ellul parents: diff changeset	82 plot_info$plot_colors = plot_colors
cb54350e76ae Uploaded jason-ellul parents: diff changeset	83 plot_info$plot_symbols = rep(1, length(res))
cb54350e76ae Uploaded jason-ellul parents: diff changeset	84 plot_info$plot_title = "Control vs Cases Plot"
cb54350e76ae Uploaded jason-ellul parents: diff changeset	85 return(plot_info)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	86 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	87
cb54350e76ae Uploaded jason-ellul parents: diff changeset	88 # outliers plot; colour outliers red, non-outliers green
cb54350e76ae Uploaded jason-ellul parents: diff changeset	89 setup_ol_plot = function(pca_data, outliers) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	90 plot_info = list()
cb54350e76ae Uploaded jason-ellul parents: diff changeset	91 nsamples = dim(pca_data$values)[1]
cb54350e76ae Uploaded jason-ellul parents: diff changeset	92 groups = 1:nsamples
cb54350e76ae Uploaded jason-ellul parents: diff changeset	93 groups[outliers] = 1
cb54350e76ae Uploaded jason-ellul parents: diff changeset	94 groups[setdiff(1:nsamples, outliers)] = 2
cb54350e76ae Uploaded jason-ellul parents: diff changeset	95 plot_info$groups = groups
cb54350e76ae Uploaded jason-ellul parents: diff changeset	96 plot_info$tags = c("outliers", "good data")
cb54350e76ae Uploaded jason-ellul parents: diff changeset	97 plot_info$plot_colors = c("red", "green")
cb54350e76ae Uploaded jason-ellul parents: diff changeset	98 plot_info$plot_symbols = c(1, 20)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	99 plot_info$plot_title = "Outliers Plot"
cb54350e76ae Uploaded jason-ellul parents: diff changeset	100 return(plot_info)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	101 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	102
cb54350e76ae Uploaded jason-ellul parents: diff changeset	103 # standard deviations plot; colour samples by s.dev
cb54350e76ae Uploaded jason-ellul parents: diff changeset	104 setup_sd_plot = function(pca_data) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	105 plot_info = list()
cb54350e76ae Uploaded jason-ellul parents: diff changeset	106 nsamples = dim(pca_data$values)[1]
cb54350e76ae Uploaded jason-ellul parents: diff changeset	107 pc1 = as.numeric(pca_data$values[, 1])
cb54350e76ae Uploaded jason-ellul parents: diff changeset	108 pc2 = as.numeric(pca_data$values[, 2])
cb54350e76ae Uploaded jason-ellul parents: diff changeset	109 pc1_sds = as.numeric(lapply(pc1, compute_numsds, pc1))
cb54350e76ae Uploaded jason-ellul parents: diff changeset	110 pc2_sds = as.numeric(lapply(pc2, compute_numsds, pc2))
cb54350e76ae Uploaded jason-ellul parents: diff changeset	111
cb54350e76ae Uploaded jason-ellul parents: diff changeset	112 groups = 1:nsamples
cb54350e76ae Uploaded jason-ellul parents: diff changeset	113 groups[get_sdset2d(pc1_sds, pc2_sds, 1)] = 1
cb54350e76ae Uploaded jason-ellul parents: diff changeset	114 groups[get_sdset2d(pc1_sds, pc2_sds, 2)] = 2
cb54350e76ae Uploaded jason-ellul parents: diff changeset	115 groups[get_sdset2d(pc1_sds, pc2_sds, 3)] = 3
cb54350e76ae Uploaded jason-ellul parents: diff changeset	116 groups[union(which(pc1_sds > 3), which(pc2_sds > 3))] = 4
cb54350e76ae Uploaded jason-ellul parents: diff changeset	117 plot_info$groups = groups
cb54350e76ae Uploaded jason-ellul parents: diff changeset	118 plot_info$tags = c("SD = 1", "SD = 2", "SD = 3", "SD > 3")
cb54350e76ae Uploaded jason-ellul parents: diff changeset	119 plot_info$plot_colors = rainbow(4)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	120 plot_info$plot_symbols = rep(20, 4)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	121 plot_info$plot_title = "Standard Deviations Plot"
cb54350e76ae Uploaded jason-ellul parents: diff changeset	122 return(plot_info)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	123 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	124
cb54350e76ae Uploaded jason-ellul parents: diff changeset	125 # Plot samples, with coloured clusters. Rejected clusters use
cb54350e76ae Uploaded jason-ellul parents: diff changeset	126 # a cross symbol instead of a filled circle
cb54350e76ae Uploaded jason-ellul parents: diff changeset	127 setup_cluster_plot = function(pca_data, clusters, rc=NULL) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	128 plot_info = list()
cb54350e76ae Uploaded jason-ellul parents: diff changeset	129 groups = clusters
cb54350e76ae Uploaded jason-ellul parents: diff changeset	130 ids = sort(unique(groups))
cb54350e76ae Uploaded jason-ellul parents: diff changeset	131 n = length(ids)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	132 tags = 1:n
cb54350e76ae Uploaded jason-ellul parents: diff changeset	133 for (i in 1:n) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	134 tags[i] = sprintf("cluster %s", ids[i])
cb54350e76ae Uploaded jason-ellul parents: diff changeset	135 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	136 outliers = which(groups == 0)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	137 if (length(outliers) != 0) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	138 tags[1] = "outliers"
cb54350e76ae Uploaded jason-ellul parents: diff changeset	139 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	140 plot_colors = rainbow(n)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	141 plot_symbols = rep(20, n)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	142 if (length(outliers) != 0) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	143 plot_symbols[1] = 1
cb54350e76ae Uploaded jason-ellul parents: diff changeset	144 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	145 # labelling for rejected clusters
cb54350e76ae Uploaded jason-ellul parents: diff changeset	146 if(!is.null(rc)) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	147 for(i in 1:n) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	148 if((ids[i] != 0) && (ids[i] %in% as.numeric(rc))) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	149 tags[i] = "rej. clust."
cb54350e76ae Uploaded jason-ellul parents: diff changeset	150 plot_symbols[i] = 4
cb54350e76ae Uploaded jason-ellul parents: diff changeset	151 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	152 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	153 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	154 plot_info$groups = groups
cb54350e76ae Uploaded jason-ellul parents: diff changeset	155 plot_info$tags = tags
cb54350e76ae Uploaded jason-ellul parents: diff changeset	156 plot_info$plot_colors = plot_colors
cb54350e76ae Uploaded jason-ellul parents: diff changeset	157 plot_info$plot_symbols = plot_symbols
cb54350e76ae Uploaded jason-ellul parents: diff changeset	158 plot_info$plot_title = "Cluster Plot"
cb54350e76ae Uploaded jason-ellul parents: diff changeset	159 return(plot_info)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	160 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	161
cb54350e76ae Uploaded jason-ellul parents: diff changeset	162 # Plot samples, colouring by ethnicity. Different ethnicities also
cb54350e76ae Uploaded jason-ellul parents: diff changeset	163 # have different symbols.
cb54350e76ae Uploaded jason-ellul parents: diff changeset	164 setup_ethnicity_plot = function(pca_data, ethnicity_data) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	165 plot_info = list()
cb54350e76ae Uploaded jason-ellul parents: diff changeset	166 nsamples = dim(pca_data$values)[1]
cb54350e76ae Uploaded jason-ellul parents: diff changeset	167 eth = 1:nsamples
cb54350e76ae Uploaded jason-ellul parents: diff changeset	168
cb54350e76ae Uploaded jason-ellul parents: diff changeset	169 for (i in 1:nsamples) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	170 sample_id = pca_data$ids[i]
cb54350e76ae Uploaded jason-ellul parents: diff changeset	171 eth[i] = as.character(ethnicity_data[sample_id, "population"])
cb54350e76ae Uploaded jason-ellul parents: diff changeset	172 if(is.na(eth[i])) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	173 eth[i] = "UNKNOWN"
cb54350e76ae Uploaded jason-ellul parents: diff changeset	174 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	175 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	176 n = length(unique(eth))
cb54350e76ae Uploaded jason-ellul parents: diff changeset	177 plot_info$groups = as.numeric(as.factor(eth))
cb54350e76ae Uploaded jason-ellul parents: diff changeset	178 plot_info$tags = sort(unique(eth))
cb54350e76ae Uploaded jason-ellul parents: diff changeset	179 plot_info$plot_colors = rainbow(n)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	180 plot_info$plot_symbols = 1:n
cb54350e76ae Uploaded jason-ellul parents: diff changeset	181 plot_info$plot_title = "Ethnicity Plot"
cb54350e76ae Uploaded jason-ellul parents: diff changeset	182 return(plot_info)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	183 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	184
cb54350e76ae Uploaded jason-ellul parents: diff changeset	185 draw_cutoffs = function(input_data, x, y, numsds) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	186 pcx = as.numeric(input_data[x, ])
cb54350e76ae Uploaded jason-ellul parents: diff changeset	187 pcy = as.numeric(input_data[y, ])
cb54350e76ae Uploaded jason-ellul parents: diff changeset	188
cb54350e76ae Uploaded jason-ellul parents: diff changeset	189 vlines = c(median(pcx) - numsds*sd(pcx),
cb54350e76ae Uploaded jason-ellul parents: diff changeset	190 median(pcx) + numsds*sd(pcx))
cb54350e76ae Uploaded jason-ellul parents: diff changeset	191 hlines = c(median(pcy) - numsds*sd(pcy),
cb54350e76ae Uploaded jason-ellul parents: diff changeset	192 median(pcy) + numsds*sd(pcy))
cb54350e76ae Uploaded jason-ellul parents: diff changeset	193 abline(v=vlines)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	194 abline(h=hlines)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	195 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	196
cb54350e76ae Uploaded jason-ellul parents: diff changeset	197 # Following helper functions are used in the 'setup_sd_plot' function
cb54350e76ae Uploaded jason-ellul parents: diff changeset	198 # given a list of standard deviations, work out which points are n standard deviations away
cb54350e76ae Uploaded jason-ellul parents: diff changeset	199 get_sdset2d = function(x1, x2, n) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	200 if (n == 1) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	201 ind = intersect(which(x1 == 1), which(x2 == 1))
cb54350e76ae Uploaded jason-ellul parents: diff changeset	202 } else {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	203 lower = get_sdset2d(x1, x2, n - 1)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	204 upper = union(which(x1 > n), which(x2 > n))
cb54350e76ae Uploaded jason-ellul parents: diff changeset	205 xset = union(lower, upper)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	206 bigset = union(which(x1 == n), which(x2 == n))
cb54350e76ae Uploaded jason-ellul parents: diff changeset	207 ind = setdiff(bigset, xset)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	208 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	209 return(ind)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	210 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	211
cb54350e76ae Uploaded jason-ellul parents: diff changeset	212 # work out how many standard deviations away from the sample median a single point is
cb54350e76ae Uploaded jason-ellul parents: diff changeset	213 # accuracy of this decreases for outliers, as the error in the estimated sd is
cb54350e76ae Uploaded jason-ellul parents: diff changeset	214 # multiplied
cb54350e76ae Uploaded jason-ellul parents: diff changeset	215 compute_numsds = function(point, x) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	216 x_sd = sd(x)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	217 sum = x_sd
cb54350e76ae Uploaded jason-ellul parents: diff changeset	218 m = median(x)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	219 i = 1
cb54350e76ae Uploaded jason-ellul parents: diff changeset	220 while(abs(point - m) > sum) {
cb54350e76ae Uploaded jason-ellul parents: diff changeset	221 i = i + 1
cb54350e76ae Uploaded jason-ellul parents: diff changeset	222 sum = sum + x_sd
cb54350e76ae Uploaded jason-ellul parents: diff changeset	223 }
cb54350e76ae Uploaded jason-ellul parents: diff changeset	224 return(i)
cb54350e76ae Uploaded jason-ellul parents: diff changeset	225 }

Mercurial > repos > jason-ellul > iterativepca

annotate R_functions/plotting_functions.R @ 0:cb54350e76ae draft default tip