oghma: evaluate_aggregation.R annotate

annotate evaluate_aggregation.R @ 91:b0b172279433 draft

Uploaded

author	nicolas
date	Mon, 31 Oct 2016 04:53:14 -0400
parents
children

rev	line source
91 b0b172279433 Uploaded nicolas parents: diff changeset	1 ########################################################
b0b172279433 Uploaded nicolas parents: diff changeset	2 #
b0b172279433 Uploaded nicolas parents: diff changeset	3 # creation date : 10/10/16
b0b172279433 Uploaded nicolas parents: diff changeset	4 # last modification : 29/10/16
b0b172279433 Uploaded nicolas parents: diff changeset	5 # author : Dr Nicolas Beaume
b0b172279433 Uploaded nicolas parents: diff changeset	6 #
b0b172279433 Uploaded nicolas parents: diff changeset	7 ########################################################
b0b172279433 Uploaded nicolas parents: diff changeset	8
b0b172279433 Uploaded nicolas parents: diff changeset	9 suppressWarnings(suppressMessages(library(GA)))
b0b172279433 Uploaded nicolas parents: diff changeset	10 library("miscTools")
b0b172279433 Uploaded nicolas parents: diff changeset	11 library(rpart)
b0b172279433 Uploaded nicolas parents: diff changeset	12 suppressWarnings(suppressMessages(library(randomForest)))
b0b172279433 Uploaded nicolas parents: diff changeset	13 library(e1071)
b0b172279433 Uploaded nicolas parents: diff changeset	14 suppressWarnings(suppressMessages(library(glmnet)))
b0b172279433 Uploaded nicolas parents: diff changeset	15 library(rrBLUP)
b0b172279433 Uploaded nicolas parents: diff changeset	16 options(warn=-1)
b0b172279433 Uploaded nicolas parents: diff changeset	17 ############################ helper functions #######################
b0b172279433 Uploaded nicolas parents: diff changeset	18
b0b172279433 Uploaded nicolas parents: diff changeset	19 ##### classifiers
b0b172279433 Uploaded nicolas parents: diff changeset	20 prediction <- function(genotype, model, classifier="unknown") {
b0b172279433 Uploaded nicolas parents: diff changeset	21 # run prediction according to the classifier
b0b172279433 Uploaded nicolas parents: diff changeset	22 switch(classifier,
b0b172279433 Uploaded nicolas parents: diff changeset	23 rrBLUP={
b0b172279433 Uploaded nicolas parents: diff changeset	24 predictions <- as.matrix(genotype) %*% as.matrix(model$u);
b0b172279433 Uploaded nicolas parents: diff changeset	25 predictions <- predictions[,1]+model$beta;
b0b172279433 Uploaded nicolas parents: diff changeset	26 },
b0b172279433 Uploaded nicolas parents: diff changeset	27 rf={
b0b172279433 Uploaded nicolas parents: diff changeset	28 predictions <- predict(model, genotype);
b0b172279433 Uploaded nicolas parents: diff changeset	29 },
b0b172279433 Uploaded nicolas parents: diff changeset	30 svm={
b0b172279433 Uploaded nicolas parents: diff changeset	31 predictions <- predict(model, genotype);
b0b172279433 Uploaded nicolas parents: diff changeset	32 },
b0b172279433 Uploaded nicolas parents: diff changeset	33 lasso={
b0b172279433 Uploaded nicolas parents: diff changeset	34 predictions <- predict(model, as.matrix(genotype), type = "response");
b0b172279433 Uploaded nicolas parents: diff changeset	35 },
b0b172279433 Uploaded nicolas parents: diff changeset	36 {warning("unkonwn classifier, please choose among the following : rrBLUP, rf, svm, lasso")})
b0b172279433 Uploaded nicolas parents: diff changeset	37 return(predictions)
b0b172279433 Uploaded nicolas parents: diff changeset	38 }
b0b172279433 Uploaded nicolas parents: diff changeset	39
b0b172279433 Uploaded nicolas parents: diff changeset	40 # extract parameter from a model, excluding rrBLUP which auto-optimize
b0b172279433 Uploaded nicolas parents: diff changeset	41 extractParameter <- function(model, classifierName) {
b0b172279433 Uploaded nicolas parents: diff changeset	42 param <- NULL
b0b172279433 Uploaded nicolas parents: diff changeset	43 switch(classifierName,
b0b172279433 Uploaded nicolas parents: diff changeset	44 # random forest
b0b172279433 Uploaded nicolas parents: diff changeset	45 rf={
b0b172279433 Uploaded nicolas parents: diff changeset	46 param <- model$ntree
b0b172279433 Uploaded nicolas parents: diff changeset	47 param <- c(param, list(model$mtry))
b0b172279433 Uploaded nicolas parents: diff changeset	48 names(param) <- c("ntree", "mtry")
b0b172279433 Uploaded nicolas parents: diff changeset	49 },
b0b172279433 Uploaded nicolas parents: diff changeset	50 # svm
b0b172279433 Uploaded nicolas parents: diff changeset	51 svm={
b0b172279433 Uploaded nicolas parents: diff changeset	52 param <- as.numeric(model$cost)
b0b172279433 Uploaded nicolas parents: diff changeset	53 param <- c(param, list(model$gamma))
b0b172279433 Uploaded nicolas parents: diff changeset	54 param <- c(param, list(model$coef0))
b0b172279433 Uploaded nicolas parents: diff changeset	55 param <- c(param, list(model$degree))
b0b172279433 Uploaded nicolas parents: diff changeset	56 param <- c(param, list(model$kernel))
b0b172279433 Uploaded nicolas parents: diff changeset	57 names(param) <- c("c", "g", "coef", "d", "kernel")
b0b172279433 Uploaded nicolas parents: diff changeset	58 switch((model$kernel+1),
b0b172279433 Uploaded nicolas parents: diff changeset	59 param$kernel <- "linear",
b0b172279433 Uploaded nicolas parents: diff changeset	60 param$kernel <- "polynomial",
b0b172279433 Uploaded nicolas parents: diff changeset	61 param$kernel <- "radial",
b0b172279433 Uploaded nicolas parents: diff changeset	62 param$kernel <- "sigmoid"
b0b172279433 Uploaded nicolas parents: diff changeset	63 )
b0b172279433 Uploaded nicolas parents: diff changeset	64 },
b0b172279433 Uploaded nicolas parents: diff changeset	65 # lasso
b0b172279433 Uploaded nicolas parents: diff changeset	66 lasso={
b0b172279433 Uploaded nicolas parents: diff changeset	67 param <- as.list(model$lambda)
b0b172279433 Uploaded nicolas parents: diff changeset	68 names(param) <- "lambda"
b0b172279433 Uploaded nicolas parents: diff changeset	69 },
b0b172279433 Uploaded nicolas parents: diff changeset	70 {print(paste("unknown classifier, please choose among rf, svm, lasso"));
b0b172279433 Uploaded nicolas parents: diff changeset	71 stop()}
b0b172279433 Uploaded nicolas parents: diff changeset	72 )
b0b172279433 Uploaded nicolas parents: diff changeset	73 return(param)
b0b172279433 Uploaded nicolas parents: diff changeset	74 }
b0b172279433 Uploaded nicolas parents: diff changeset	75
b0b172279433 Uploaded nicolas parents: diff changeset	76 ##### Genetic algorithm
b0b172279433 Uploaded nicolas parents: diff changeset	77
b0b172279433 Uploaded nicolas parents: diff changeset	78 # compute r2 by computing the classic formula
b0b172279433 Uploaded nicolas parents: diff changeset	79 # compare the sum of square difference from target to prediciton
b0b172279433 Uploaded nicolas parents: diff changeset	80 # to the sum of square difference from target to the mean of the target
b0b172279433 Uploaded nicolas parents: diff changeset	81 r2 <- function(target, prediction) {
b0b172279433 Uploaded nicolas parents: diff changeset	82 sst <- sum((target-mean(target))^2)
b0b172279433 Uploaded nicolas parents: diff changeset	83 ssr <- sum((target-prediction)^2)
b0b172279433 Uploaded nicolas parents: diff changeset	84 return(1-ssr/sst)
b0b172279433 Uploaded nicolas parents: diff changeset	85 }
b0b172279433 Uploaded nicolas parents: diff changeset	86
b0b172279433 Uploaded nicolas parents: diff changeset	87 optimizeOneIndividual <- function(values, trueValue) {
b0b172279433 Uploaded nicolas parents: diff changeset	88 # change the value into a function
b0b172279433 Uploaded nicolas parents: diff changeset	89 f <- function(w) {sum(values * w/sum(w))}
b0b172279433 Uploaded nicolas parents: diff changeset	90 fitness <- function(x) {1/abs(trueValue-f(x))}
b0b172279433 Uploaded nicolas parents: diff changeset	91 resp <- ga(type = "real-valued", fitness = fitness, min = rep(0, length(values)), max = rep(1, length(values)),
b0b172279433 Uploaded nicolas parents: diff changeset	92 maxiter = 1000, monitor = NULL, keepBest = T)
b0b172279433 Uploaded nicolas parents: diff changeset	93 resp@solution <- resp@solution/sum(resp@solution)
b0b172279433 Uploaded nicolas parents: diff changeset	94 return(resp)
b0b172279433 Uploaded nicolas parents: diff changeset	95 }
b0b172279433 Uploaded nicolas parents: diff changeset	96
b0b172279433 Uploaded nicolas parents: diff changeset	97 optimizeWeight <- function(values, trueValue, n=1000) {
b0b172279433 Uploaded nicolas parents: diff changeset	98 fitnessAll <- function(w) {
b0b172279433 Uploaded nicolas parents: diff changeset	99 predicted <- apply(values, 1, weightedPrediction.vec, w)
b0b172279433 Uploaded nicolas parents: diff changeset	100 return(mean(r2(trueValue, predicted)))
b0b172279433 Uploaded nicolas parents: diff changeset	101 #return(mean(1/abs(trueValue-predicted)))
b0b172279433 Uploaded nicolas parents: diff changeset	102 }
b0b172279433 Uploaded nicolas parents: diff changeset	103 resp <- ga(type = "real-valued", fitness = fitnessAll, min = rep(0, ncol(values)), max = rep(1, ncol(values)),
b0b172279433 Uploaded nicolas parents: diff changeset	104 maxiter = n, monitor = NULL, keepBest = T)
b0b172279433 Uploaded nicolas parents: diff changeset	105 resp@solution <- resp@solution/sum(resp@solution)
b0b172279433 Uploaded nicolas parents: diff changeset	106 return(resp)
b0b172279433 Uploaded nicolas parents: diff changeset	107 }
b0b172279433 Uploaded nicolas parents: diff changeset	108
b0b172279433 Uploaded nicolas parents: diff changeset	109 weightedPrediction <- function(classifiers, w) {
b0b172279433 Uploaded nicolas parents: diff changeset	110 if(length(w) > ncol(classifiers)) {
b0b172279433 Uploaded nicolas parents: diff changeset	111 warning("more weights than classifiers, extra weigths are ignored")
b0b172279433 Uploaded nicolas parents: diff changeset	112 w <- w[1:ncol(classifiers)]
b0b172279433 Uploaded nicolas parents: diff changeset	113 } else if(length(w) < ncol(classifiers)) {
b0b172279433 Uploaded nicolas parents: diff changeset	114 warning("less weights than classifiers, extra classifiers are ignored")
b0b172279433 Uploaded nicolas parents: diff changeset	115 classifiers <- classifiers[,1:length(w)]
b0b172279433 Uploaded nicolas parents: diff changeset	116 }
b0b172279433 Uploaded nicolas parents: diff changeset	117 prediction <- NULL
b0b172279433 Uploaded nicolas parents: diff changeset	118 prediction <- c(prediction, apply(classifiers, 1, weightedPrediction.vec, w))
b0b172279433 Uploaded nicolas parents: diff changeset	119 return(prediction)
b0b172279433 Uploaded nicolas parents: diff changeset	120 }
b0b172279433 Uploaded nicolas parents: diff changeset	121
b0b172279433 Uploaded nicolas parents: diff changeset	122 weightedPrediction.vec <- function(values, w) {
b0b172279433 Uploaded nicolas parents: diff changeset	123 return(sum(values * w/sum(w)))
b0b172279433 Uploaded nicolas parents: diff changeset	124 }
b0b172279433 Uploaded nicolas parents: diff changeset	125
b0b172279433 Uploaded nicolas parents: diff changeset	126 ##### meta-decision tree
b0b172279433 Uploaded nicolas parents: diff changeset	127
b0b172279433 Uploaded nicolas parents: diff changeset	128 tuneTree <- function(data, target) {
b0b172279433 Uploaded nicolas parents: diff changeset	129 data <- data.frame(data, target=target)
b0b172279433 Uploaded nicolas parents: diff changeset	130 size <- nrow(data)
b0b172279433 Uploaded nicolas parents: diff changeset	131 xerror <- NULL
b0b172279433 Uploaded nicolas parents: diff changeset	132 split <- 1:ceiling(size/5)
b0b172279433 Uploaded nicolas parents: diff changeset	133 leafSize <- 1:ceiling(size/10)
b0b172279433 Uploaded nicolas parents: diff changeset	134 xerror <- matrix(rep(-1, length(split)*length(leafSize)), ncol=length(leafSize))
b0b172279433 Uploaded nicolas parents: diff changeset	135 cp <- matrix(rep(-1, length(split)*length(leafSize)), ncol=length(leafSize))
b0b172279433 Uploaded nicolas parents: diff changeset	136 for(i in 1:length(split)) {
b0b172279433 Uploaded nicolas parents: diff changeset	137 for(j in 1:length(leafSize)) {
b0b172279433 Uploaded nicolas parents: diff changeset	138 op <- list(minsplit=split[i], minbucket=leafSize[j])
b0b172279433 Uploaded nicolas parents: diff changeset	139 tree <- rpart(target ~., data=data, control=op, method="anova")
b0b172279433 Uploaded nicolas parents: diff changeset	140 xerror[i,j] <- tree$cptable[which.min(tree$cptable[,"xerror"]),"xerror"]
b0b172279433 Uploaded nicolas parents: diff changeset	141 cp[i,j] <- tree$cptable[which.min(tree$cptable[,"xerror"]),"CP"]
b0b172279433 Uploaded nicolas parents: diff changeset	142 }
b0b172279433 Uploaded nicolas parents: diff changeset	143 }
b0b172279433 Uploaded nicolas parents: diff changeset	144 index <- which(xerror==min(xerror), arr.ind = T)
b0b172279433 Uploaded nicolas parents: diff changeset	145 op <- list(minsplit=split[index[1]], minbucket=leafSize[index[2]], cp=cp[index[1], index[2]])
b0b172279433 Uploaded nicolas parents: diff changeset	146 return(op)
b0b172279433 Uploaded nicolas parents: diff changeset	147 }
b0b172279433 Uploaded nicolas parents: diff changeset	148
b0b172279433 Uploaded nicolas parents: diff changeset	149 ###### meta-LASSO
b0b172279433 Uploaded nicolas parents: diff changeset	150 # create fold by picking at random row indexes
b0b172279433 Uploaded nicolas parents: diff changeset	151 createFolds <- function(nbObs, n) {
b0b172279433 Uploaded nicolas parents: diff changeset	152 # pick indexes
b0b172279433 Uploaded nicolas parents: diff changeset	153 index <- sample(1:n, size=nbObs, replace = T)
b0b172279433 Uploaded nicolas parents: diff changeset	154 # populate folds
b0b172279433 Uploaded nicolas parents: diff changeset	155 folds <- NULL
b0b172279433 Uploaded nicolas parents: diff changeset	156 for(i in 1:n) {
b0b172279433 Uploaded nicolas parents: diff changeset	157 folds <- c(folds, list(which(index==i)))
b0b172279433 Uploaded nicolas parents: diff changeset	158 }
b0b172279433 Uploaded nicolas parents: diff changeset	159 return(folds)
b0b172279433 Uploaded nicolas parents: diff changeset	160 }
b0b172279433 Uploaded nicolas parents: diff changeset	161
b0b172279433 Uploaded nicolas parents: diff changeset	162 searchParamLASSO <- function(genotype, phenotype, alpha=seq(0,1,0.1), n=7) {
b0b172279433 Uploaded nicolas parents: diff changeset	163 folds <- createFolds(nrow(genotype), n = n)
b0b172279433 Uploaded nicolas parents: diff changeset	164 acc <- NULL
b0b172279433 Uploaded nicolas parents: diff changeset	165 indexAlpha <- 1
b0b172279433 Uploaded nicolas parents: diff changeset	166 for(a in alpha) {
b0b172279433 Uploaded nicolas parents: diff changeset	167 curAcc <- NULL
b0b172279433 Uploaded nicolas parents: diff changeset	168 for(i in 1:n) {
b0b172279433 Uploaded nicolas parents: diff changeset	169 train <- genotype[-folds[[i]],]
b0b172279433 Uploaded nicolas parents: diff changeset	170 test <- genotype[folds[[i]],]
b0b172279433 Uploaded nicolas parents: diff changeset	171 phenoTrain <- phenotype[-folds[[i]]]
b0b172279433 Uploaded nicolas parents: diff changeset	172 phenoTest <- phenotype[folds[[i]]]
b0b172279433 Uploaded nicolas parents: diff changeset	173 cv <- cv.glmnet(x=as.matrix(train), y=phenoTrain, alpha=a)
b0b172279433 Uploaded nicolas parents: diff changeset	174 model <- glmnet(x=as.matrix(train), y=phenoTrain, alpha=a, lambda = cv$lambda.1se)
b0b172279433 Uploaded nicolas parents: diff changeset	175 pred <- predict(model, test, type = "response")
b0b172279433 Uploaded nicolas parents: diff changeset	176 curAcc <- c(curAcc, r2(phenoTest, pred))
b0b172279433 Uploaded nicolas parents: diff changeset	177 }
b0b172279433 Uploaded nicolas parents: diff changeset	178 acc <- c(acc, mean(curAcc))
b0b172279433 Uploaded nicolas parents: diff changeset	179 }
b0b172279433 Uploaded nicolas parents: diff changeset	180 names(acc) <- alpha
b0b172279433 Uploaded nicolas parents: diff changeset	181 return(as.numeric(names(acc)[which.max(acc)]))
b0b172279433 Uploaded nicolas parents: diff changeset	182 }
b0b172279433 Uploaded nicolas parents: diff changeset	183
b0b172279433 Uploaded nicolas parents: diff changeset	184 ###### meta-random forest
b0b172279433 Uploaded nicolas parents: diff changeset	185
b0b172279433 Uploaded nicolas parents: diff changeset	186 searchParamRF <- function(genotype, phenotype, rangeNtree, mtry=ncol(genotype)) {
b0b172279433 Uploaded nicolas parents: diff changeset	187 n <- ceiling(nrow(genotype)/3)
b0b172279433 Uploaded nicolas parents: diff changeset	188 indexTest <- sample(1:nrow(genotype), size=n)
b0b172279433 Uploaded nicolas parents: diff changeset	189 train <- genotype[-indexTest,]
b0b172279433 Uploaded nicolas parents: diff changeset	190 test <- genotype[indexTest,]
b0b172279433 Uploaded nicolas parents: diff changeset	191 phenoTrain <- phenotype[-indexTest]
b0b172279433 Uploaded nicolas parents: diff changeset	192 phenoTest <- phenotype[indexTest]
b0b172279433 Uploaded nicolas parents: diff changeset	193 acc <- NULL
b0b172279433 Uploaded nicolas parents: diff changeset	194 indexNtree <- 1
b0b172279433 Uploaded nicolas parents: diff changeset	195 for(ntree in rangeNtree) {
b0b172279433 Uploaded nicolas parents: diff changeset	196 model <- randomForest(x=train, y=phenoTrain, ntree = ntree, mtry = mtry)
b0b172279433 Uploaded nicolas parents: diff changeset	197 pred <- predict(model, test)
b0b172279433 Uploaded nicolas parents: diff changeset	198 acc <- c(acc, r2(phenoTest, pred))
b0b172279433 Uploaded nicolas parents: diff changeset	199 }
b0b172279433 Uploaded nicolas parents: diff changeset	200 names(acc) <- rangeNtree
b0b172279433 Uploaded nicolas parents: diff changeset	201 best <- which.max(acc)
b0b172279433 Uploaded nicolas parents: diff changeset	202 return(as.numeric(names(acc)[best]))
b0b172279433 Uploaded nicolas parents: diff changeset	203 }
b0b172279433 Uploaded nicolas parents: diff changeset	204
b0b172279433 Uploaded nicolas parents: diff changeset	205 ###### meta-SVM
b0b172279433 Uploaded nicolas parents: diff changeset	206 searchParamSVM <- function(train, target, kernel="radial") {
b0b172279433 Uploaded nicolas parents: diff changeset	207 # tuning parameters then train
b0b172279433 Uploaded nicolas parents: diff changeset	208 model <- NULL
b0b172279433 Uploaded nicolas parents: diff changeset	209 switch(kernel,
b0b172279433 Uploaded nicolas parents: diff changeset	210 sigmoid={
b0b172279433 Uploaded nicolas parents: diff changeset	211 tune <- tune.svm(train, target, gamma = 10^(-6:-1), cost = 10^(0:2), kernel="sigmoid");
b0b172279433 Uploaded nicolas parents: diff changeset	212 g <- tune$best.parameters[[1]];
b0b172279433 Uploaded nicolas parents: diff changeset	213 c <- tune$best.parameters[[2]];
b0b172279433 Uploaded nicolas parents: diff changeset	214 model <- svm(x=train, y=target, gamma = g, cost = c, kernel = "sigmoid")},
b0b172279433 Uploaded nicolas parents: diff changeset	215 linear={
b0b172279433 Uploaded nicolas parents: diff changeset	216 tune <- tune.svm(train, target, cost = 10^(0:2), kernel="linear");
b0b172279433 Uploaded nicolas parents: diff changeset	217 c <- tune$best.parameters[[1]];
b0b172279433 Uploaded nicolas parents: diff changeset	218 model <- svm(x=train, y=target, cost = c, kernel = "linear")},
b0b172279433 Uploaded nicolas parents: diff changeset	219 polynomial={
b0b172279433 Uploaded nicolas parents: diff changeset	220 tune <- tune.svm(train, target, gamma = 10^(-6:-1), cost = 10^(0:2), degree = 0:4, coef0 = 0:3, kernel="polynomial");
b0b172279433 Uploaded nicolas parents: diff changeset	221 d <- tune$best.parameters[[1]];
b0b172279433 Uploaded nicolas parents: diff changeset	222 g <- tune$best.parameters[[2]];
b0b172279433 Uploaded nicolas parents: diff changeset	223 coef <- tune$best.parameters[[3]];
b0b172279433 Uploaded nicolas parents: diff changeset	224 c <- tune$best.parameters[[4]];
b0b172279433 Uploaded nicolas parents: diff changeset	225 model <- svm(x=train, y=target, gamma = g, cost = c, kernel = "polynomial", degree = d, coef0 = coef)},
b0b172279433 Uploaded nicolas parents: diff changeset	226 {
b0b172279433 Uploaded nicolas parents: diff changeset	227 tune <- tune.svm(train, target, gamma = 10^(-6:-1), cost = 10^(0:3), kernel="radial");
b0b172279433 Uploaded nicolas parents: diff changeset	228 g <- tune$best.parameters[[1]];
b0b172279433 Uploaded nicolas parents: diff changeset	229 c <- tune$best.parameters[[2]];
b0b172279433 Uploaded nicolas parents: diff changeset	230 model <- svm(x=train, y=target, gamma = g, cost = c, kernel = "radial")}
b0b172279433 Uploaded nicolas parents: diff changeset	231 )
b0b172279433 Uploaded nicolas parents: diff changeset	232 return(model)
b0b172279433 Uploaded nicolas parents: diff changeset	233 }
b0b172279433 Uploaded nicolas parents: diff changeset	234
b0b172279433 Uploaded nicolas parents: diff changeset	235 #################### upper level functions #####################
b0b172279433 Uploaded nicolas parents: diff changeset	236
b0b172279433 Uploaded nicolas parents: diff changeset	237 aggregateDT <- function(train, test, target, folds) {
b0b172279433 Uploaded nicolas parents: diff changeset	238 r2Aggreg <- NULL
b0b172279433 Uploaded nicolas parents: diff changeset	239 for (i in 1:length(folds)) {
b0b172279433 Uploaded nicolas parents: diff changeset	240 trainIndex <- unlist(folds[-i])
b0b172279433 Uploaded nicolas parents: diff changeset	241 testIndex <- folds[[i]]
b0b172279433 Uploaded nicolas parents: diff changeset	242 treeParam <- tuneTree(train[[i]], target[trainIndex])
b0b172279433 Uploaded nicolas parents: diff changeset	243 data <- data.frame(train[[i]], target=target[trainIndex])
b0b172279433 Uploaded nicolas parents: diff changeset	244 model <- rpart(target ~., data=data, method = "anova", control = treeParam)
b0b172279433 Uploaded nicolas parents: diff changeset	245 model <- prune(model, cp=treeParam["cp"])
b0b172279433 Uploaded nicolas parents: diff changeset	246 pred <- predict(model, data.frame(test[[i]]))
b0b172279433 Uploaded nicolas parents: diff changeset	247 r2Aggreg <- c(r2Aggreg, r2(target[testIndex], pred))
b0b172279433 Uploaded nicolas parents: diff changeset	248 }
b0b172279433 Uploaded nicolas parents: diff changeset	249 return(r2Aggreg)
b0b172279433 Uploaded nicolas parents: diff changeset	250 }
b0b172279433 Uploaded nicolas parents: diff changeset	251
b0b172279433 Uploaded nicolas parents: diff changeset	252 aggregateGeneticMean <- function(train, test, target, folds) {
b0b172279433 Uploaded nicolas parents: diff changeset	253 r2Aggreg <- NULL
b0b172279433 Uploaded nicolas parents: diff changeset	254 for (i in 1:length(folds)) {
b0b172279433 Uploaded nicolas parents: diff changeset	255 trainIndex <- unlist(folds[-i])
b0b172279433 Uploaded nicolas parents: diff changeset	256 testIndex <- folds[[i]]
b0b172279433 Uploaded nicolas parents: diff changeset	257 opt <- optimizeWeight(values = train[[i]], trueValue = target[trainIndex])
b0b172279433 Uploaded nicolas parents: diff changeset	258 pred <- weightedPrediction(test[[i]], opt@solution)
b0b172279433 Uploaded nicolas parents: diff changeset	259 r2Aggreg <- c(r2Aggreg, r2(target[testIndex], pred))
b0b172279433 Uploaded nicolas parents: diff changeset	260 }
b0b172279433 Uploaded nicolas parents: diff changeset	261 return(r2Aggreg)
b0b172279433 Uploaded nicolas parents: diff changeset	262 }
b0b172279433 Uploaded nicolas parents: diff changeset	263
b0b172279433 Uploaded nicolas parents: diff changeset	264 aggregateLASSO <- function(train, test, target, folds) {
b0b172279433 Uploaded nicolas parents: diff changeset	265 r2Aggreg <- NULL
b0b172279433 Uploaded nicolas parents: diff changeset	266 for (i in 1:length(folds)) {
b0b172279433 Uploaded nicolas parents: diff changeset	267 trainIndex <- unlist(folds[-i])
b0b172279433 Uploaded nicolas parents: diff changeset	268 testIndex <- folds[[i]]
b0b172279433 Uploaded nicolas parents: diff changeset	269 alpha <- searchParamLASSO(train[[i]], target[trainIndex])
b0b172279433 Uploaded nicolas parents: diff changeset	270 cv <- cv.glmnet(x=as.matrix(train[[i]]), y=target[trainIndex], alpha=alpha)
b0b172279433 Uploaded nicolas parents: diff changeset	271 model <- glmnet(x=as.matrix(train[[i]]), y=target[trainIndex], alpha=alpha, lambda = cv$lambda.1se)
b0b172279433 Uploaded nicolas parents: diff changeset	272 pred <- predict(model, test[[i]])
b0b172279433 Uploaded nicolas parents: diff changeset	273 r2Aggreg <- c(r2Aggreg, r2(target[testIndex], pred))
b0b172279433 Uploaded nicolas parents: diff changeset	274 }
b0b172279433 Uploaded nicolas parents: diff changeset	275 return(r2Aggreg)
b0b172279433 Uploaded nicolas parents: diff changeset	276 }
b0b172279433 Uploaded nicolas parents: diff changeset	277
b0b172279433 Uploaded nicolas parents: diff changeset	278 aggregateRF <- function(train, test, target, folds) {
b0b172279433 Uploaded nicolas parents: diff changeset	279 r2Aggreg <- NULL
b0b172279433 Uploaded nicolas parents: diff changeset	280 for (i in 1:length(folds)) {
b0b172279433 Uploaded nicolas parents: diff changeset	281 trainIndex <- unlist(folds[-i])
b0b172279433 Uploaded nicolas parents: diff changeset	282 testIndex <- folds[[i]]
b0b172279433 Uploaded nicolas parents: diff changeset	283 ntree <- searchParamRF(genotype = train[[i]], phenotype = target[trainIndex],
b0b172279433 Uploaded nicolas parents: diff changeset	284 rangeNtree = seq(100, 1000, 100))
b0b172279433 Uploaded nicolas parents: diff changeset	285 model <- randomForest(x=as.matrix(train[[i]]), y=target[trainIndex],
b0b172279433 Uploaded nicolas parents: diff changeset	286 ntree = ntree, mtry = ncol(train[[i]]))
b0b172279433 Uploaded nicolas parents: diff changeset	287 pred <- predict(model, test[[i]])
b0b172279433 Uploaded nicolas parents: diff changeset	288 r2Aggreg <- c(r2Aggreg, r2(target[testIndex], pred))
b0b172279433 Uploaded nicolas parents: diff changeset	289 }
b0b172279433 Uploaded nicolas parents: diff changeset	290 return(r2Aggreg)
b0b172279433 Uploaded nicolas parents: diff changeset	291 }
b0b172279433 Uploaded nicolas parents: diff changeset	292
b0b172279433 Uploaded nicolas parents: diff changeset	293 aggregateSVM <- function(train, test, target, folds, kernel="linear") {
b0b172279433 Uploaded nicolas parents: diff changeset	294 r2Aggreg <- NULL
b0b172279433 Uploaded nicolas parents: diff changeset	295 for (i in 1:length(folds)) {
b0b172279433 Uploaded nicolas parents: diff changeset	296 trainIndex <- unlist(folds[-i])
b0b172279433 Uploaded nicolas parents: diff changeset	297 testIndex <- folds[[i]]
b0b172279433 Uploaded nicolas parents: diff changeset	298 model <- searchParamSVM(train = train[[i]], target = target[trainIndex], kernel = kernel)
b0b172279433 Uploaded nicolas parents: diff changeset	299 pred <- predict(model, test[[i]])
b0b172279433 Uploaded nicolas parents: diff changeset	300 r2Aggreg <- c(r2Aggreg, r2(target[testIndex], pred))
b0b172279433 Uploaded nicolas parents: diff changeset	301 }
b0b172279433 Uploaded nicolas parents: diff changeset	302 return(r2Aggreg)
b0b172279433 Uploaded nicolas parents: diff changeset	303 }
b0b172279433 Uploaded nicolas parents: diff changeset	304
b0b172279433 Uploaded nicolas parents: diff changeset	305 ################################### main #############################
b0b172279433 Uploaded nicolas parents: diff changeset	306 # # load argument
b0b172279433 Uploaded nicolas parents: diff changeset	307 cmd <- commandArgs(T)
b0b172279433 Uploaded nicolas parents: diff changeset	308 source(cmd[1])
b0b172279433 Uploaded nicolas parents: diff changeset	309 # load folds
b0b172279433 Uploaded nicolas parents: diff changeset	310 con = file(folds)
b0b172279433 Uploaded nicolas parents: diff changeset	311 folds <- readLines(con = con, n = 1, ok=T)
b0b172279433 Uploaded nicolas parents: diff changeset	312 close(con)
b0b172279433 Uploaded nicolas parents: diff changeset	313 folds <- readRDS(folds)
b0b172279433 Uploaded nicolas parents: diff changeset	314 # phenotype is written as a table (in columns) but it must be sent as a vector for mixed.solve
b0b172279433 Uploaded nicolas parents: diff changeset	315 phenotype <- read.table(phenotype, sep="\t", h=T)[,1]
b0b172279433 Uploaded nicolas parents: diff changeset	316 # load genotype
b0b172279433 Uploaded nicolas parents: diff changeset	317 con = file(genotype)
b0b172279433 Uploaded nicolas parents: diff changeset	318 genotype <- readLines(con = con, n = 1, ok=T)
b0b172279433 Uploaded nicolas parents: diff changeset	319 close(con)
b0b172279433 Uploaded nicolas parents: diff changeset	320 genotype <- read.table(genotype, sep="\t", h=T)
b0b172279433 Uploaded nicolas parents: diff changeset	321 # find which classifiers will be used for aggregation
b0b172279433 Uploaded nicolas parents: diff changeset	322 classifNames <- NULL
b0b172279433 Uploaded nicolas parents: diff changeset	323 if(lassoModel !="None"){
b0b172279433 Uploaded nicolas parents: diff changeset	324 classifNames <- c(classifNames, "lasso")
b0b172279433 Uploaded nicolas parents: diff changeset	325 con = file(lassoModel)
b0b172279433 Uploaded nicolas parents: diff changeset	326 lassoModel <- readLines(con = con, n = 1, ok=T)
b0b172279433 Uploaded nicolas parents: diff changeset	327 close(con)
b0b172279433 Uploaded nicolas parents: diff changeset	328 lassoModel <- readRDS(lassoModel)
b0b172279433 Uploaded nicolas parents: diff changeset	329 }
b0b172279433 Uploaded nicolas parents: diff changeset	330 if(rrBLUPModel !="None"){
b0b172279433 Uploaded nicolas parents: diff changeset	331 classifNames <- c(classifNames, "rrBLUP")
b0b172279433 Uploaded nicolas parents: diff changeset	332 con = file(rrBLUPModel)
b0b172279433 Uploaded nicolas parents: diff changeset	333 rrBLUPModel <- readLines(con = con, n = 1, ok=T)
b0b172279433 Uploaded nicolas parents: diff changeset	334 close(con)
b0b172279433 Uploaded nicolas parents: diff changeset	335 rrBLUPModel <- readRDS(rrBLUPModel)
b0b172279433 Uploaded nicolas parents: diff changeset	336 }
b0b172279433 Uploaded nicolas parents: diff changeset	337 if(rfModel !="None"){
b0b172279433 Uploaded nicolas parents: diff changeset	338 classifNames <- c(classifNames, "rf")
b0b172279433 Uploaded nicolas parents: diff changeset	339 con = file(rfModel)
b0b172279433 Uploaded nicolas parents: diff changeset	340 rfModel <- readLines(con = con, n = 1, ok=T)
b0b172279433 Uploaded nicolas parents: diff changeset	341 close(con)
b0b172279433 Uploaded nicolas parents: diff changeset	342 rfModel <- readRDS(rfModel)
b0b172279433 Uploaded nicolas parents: diff changeset	343 }
b0b172279433 Uploaded nicolas parents: diff changeset	344 if(svmModel !="None"){
b0b172279433 Uploaded nicolas parents: diff changeset	345 classifNames <- c(classifNames, "svm")
b0b172279433 Uploaded nicolas parents: diff changeset	346 con = file(svmModel)
b0b172279433 Uploaded nicolas parents: diff changeset	347 svmModel <- readLines(con = con, n = 1, ok=T)
b0b172279433 Uploaded nicolas parents: diff changeset	348 close(con)
b0b172279433 Uploaded nicolas parents: diff changeset	349 svmModel <- readRDS(svmModel)
b0b172279433 Uploaded nicolas parents: diff changeset	350 }
b0b172279433 Uploaded nicolas parents: diff changeset	351
b0b172279433 Uploaded nicolas parents: diff changeset	352 # compute prediction of the training set and test set for each fold and each classifiers
b0b172279433 Uploaded nicolas parents: diff changeset	353 # train predictions and test prediction are stored in separate lists
b0b172279433 Uploaded nicolas parents: diff changeset	354 # where each element of the list represent a folds
b0b172279433 Uploaded nicolas parents: diff changeset	355 predictionTrain.list <- NULL
b0b172279433 Uploaded nicolas parents: diff changeset	356 predictionTest.list <- NULL
b0b172279433 Uploaded nicolas parents: diff changeset	357 r2Classif.list <- NULL
b0b172279433 Uploaded nicolas parents: diff changeset	358 for(i in 1:length(folds)) {
b0b172279433 Uploaded nicolas parents: diff changeset	359 # for the current fold, create training set and test set
b0b172279433 Uploaded nicolas parents: diff changeset	360 trainIndex <- unlist(folds[-i])
b0b172279433 Uploaded nicolas parents: diff changeset	361 testIndex <- folds[[i]]
b0b172279433 Uploaded nicolas parents: diff changeset	362 train <- genotype[trainIndex,]
b0b172279433 Uploaded nicolas parents: diff changeset	363 phenoTrain <- phenotype[trainIndex]
b0b172279433 Uploaded nicolas parents: diff changeset	364 test <- genotype[testIndex,]
b0b172279433 Uploaded nicolas parents: diff changeset	365 phenoTest <- phenotype[testIndex]
b0b172279433 Uploaded nicolas parents: diff changeset	366 # only to intialize data frame containing predictions
b0b172279433 Uploaded nicolas parents: diff changeset	367 predictionTrain <- matrix(rep(-1, length(classifNames)*length(trainIndex)),
b0b172279433 Uploaded nicolas parents: diff changeset	368 ncol=length(classifNames))
b0b172279433 Uploaded nicolas parents: diff changeset	369 colnames(predictionTrain) <- classifNames
b0b172279433 Uploaded nicolas parents: diff changeset	370 predictionTest <- matrix(rep(-1, length(classifNames)*length(testIndex)),
b0b172279433 Uploaded nicolas parents: diff changeset	371 ncol=length(classifNames))
b0b172279433 Uploaded nicolas parents: diff changeset	372 colnames(predictionTest) <- classifNames
b0b172279433 Uploaded nicolas parents: diff changeset	373 r2Classif <- NULL
b0b172279433 Uploaded nicolas parents: diff changeset	374 # for each classifiers, compute prediction on both sets
b0b172279433 Uploaded nicolas parents: diff changeset	375 # and evaluate r2 to find the best classifier
b0b172279433 Uploaded nicolas parents: diff changeset	376 for(j in 1:length(classifNames)) {
b0b172279433 Uploaded nicolas parents: diff changeset	377 switch(classifNames[j],
b0b172279433 Uploaded nicolas parents: diff changeset	378 # random forest
b0b172279433 Uploaded nicolas parents: diff changeset	379 rf={
b0b172279433 Uploaded nicolas parents: diff changeset	380 # predict train and test
b0b172279433 Uploaded nicolas parents: diff changeset	381 param <- extractParameter(rfModel, "rf")
b0b172279433 Uploaded nicolas parents: diff changeset	382 model <- randomForest(x=train, y=phenoTrain, mtry = param$mtry,
b0b172279433 Uploaded nicolas parents: diff changeset	383 ntree = param$ntree);
b0b172279433 Uploaded nicolas parents: diff changeset	384 predictionTrain[,j] <- prediction(train, model, classifier = "rf");
b0b172279433 Uploaded nicolas parents: diff changeset	385 predictionTest[,j] <- prediction(test, model, classifier = "rf");
b0b172279433 Uploaded nicolas parents: diff changeset	386 r2Classif <- c(r2Classif, rf=r2(phenoTest, predictionTest[,"rf"]))},
b0b172279433 Uploaded nicolas parents: diff changeset	387 # svm
b0b172279433 Uploaded nicolas parents: diff changeset	388 svm={
b0b172279433 Uploaded nicolas parents: diff changeset	389 # predict train and test
b0b172279433 Uploaded nicolas parents: diff changeset	390 param <- extractParameter(svmModel, "svm");
b0b172279433 Uploaded nicolas parents: diff changeset	391 model <- svm(train, phenoTrain, kernel = param$kernel, cost = param$c,
b0b172279433 Uploaded nicolas parents: diff changeset	392 gamma=param$g, degree = param$d, coef0 = param$coef, scale = F)
b0b172279433 Uploaded nicolas parents: diff changeset	393 predictionTrain[,j] <- prediction(train, model, classifier = "svm");
b0b172279433 Uploaded nicolas parents: diff changeset	394 predictionTest[,j] <- prediction(test, model, classifier = "svm");
b0b172279433 Uploaded nicolas parents: diff changeset	395 r2Classif <- c(r2Classif, svm=r2(phenoTest, predictionTest[,"svm"]))},
b0b172279433 Uploaded nicolas parents: diff changeset	396 # lasso
b0b172279433 Uploaded nicolas parents: diff changeset	397 lasso={
b0b172279433 Uploaded nicolas parents: diff changeset	398 # predict train and test
b0b172279433 Uploaded nicolas parents: diff changeset	399 param <- extractParameter(lassoModel, "lasso");
b0b172279433 Uploaded nicolas parents: diff changeset	400 model <- glmnet(x=as.matrix(train), y=phenoTrain, lambda = param$lambda);
b0b172279433 Uploaded nicolas parents: diff changeset	401 predictionTrain[,j] <- prediction(train, model, classifier = "lasso");
b0b172279433 Uploaded nicolas parents: diff changeset	402 predictionTest[,j] <- prediction(test, model, classifier = "lasso");
b0b172279433 Uploaded nicolas parents: diff changeset	403 r2Classif <- c(r2Classif, lasso=r2(phenoTest, predictionTest[,"lasso"]))},
b0b172279433 Uploaded nicolas parents: diff changeset	404 # rrBLUP
b0b172279433 Uploaded nicolas parents: diff changeset	405 rrBLUP={
b0b172279433 Uploaded nicolas parents: diff changeset	406 # predict train and test
b0b172279433 Uploaded nicolas parents: diff changeset	407 model <- mixed.solve(phenoTrain, Z=train,K=NULL, SE=F,return.Hinv = F);
b0b172279433 Uploaded nicolas parents: diff changeset	408 predictionTrain[,j] <- prediction(train, model, classifier = "rrBLUP");
b0b172279433 Uploaded nicolas parents: diff changeset	409 predictionTest[,j] <- prediction(test, model, classifier = "rrBLUP");
b0b172279433 Uploaded nicolas parents: diff changeset	410 r2Classif <- c(r2Classif, rrBLUP=r2(phenoTest, predictionTest[,"rrBLUP"]))},
b0b172279433 Uploaded nicolas parents: diff changeset	411 {print(paste("unknown classifier, please choose among rf, svm, lasso, rrBLUP"));
b0b172279433 Uploaded nicolas parents: diff changeset	412 stop()}
b0b172279433 Uploaded nicolas parents: diff changeset	413 )
b0b172279433 Uploaded nicolas parents: diff changeset	414 }
b0b172279433 Uploaded nicolas parents: diff changeset	415 predictionTrain.list <- c(predictionTrain.list, list(predictionTrain))
b0b172279433 Uploaded nicolas parents: diff changeset	416 predictionTest.list <- c(predictionTest.list, list(predictionTest))
b0b172279433 Uploaded nicolas parents: diff changeset	417 r2Classif.list <- c(r2Classif.list, list(r2Classif))
b0b172279433 Uploaded nicolas parents: diff changeset	418 }
b0b172279433 Uploaded nicolas parents: diff changeset	419 # aggregate !
b0b172279433 Uploaded nicolas parents: diff changeset	420 switch(method,
b0b172279433 Uploaded nicolas parents: diff changeset	421 geneticMean={
b0b172279433 Uploaded nicolas parents: diff changeset	422 aggreg <- aggregateGeneticMean(train=predictionTrain.list, test=predictionTest.list,
b0b172279433 Uploaded nicolas parents: diff changeset	423 target = phenotype, folds=folds)
b0b172279433 Uploaded nicolas parents: diff changeset	424 },
b0b172279433 Uploaded nicolas parents: diff changeset	425 dt={
b0b172279433 Uploaded nicolas parents: diff changeset	426 aggreg <- aggregateDT(train=predictionTrain.list, test=predictionTest.list,
b0b172279433 Uploaded nicolas parents: diff changeset	427 target = phenotype, folds=folds)
b0b172279433 Uploaded nicolas parents: diff changeset	428 },
b0b172279433 Uploaded nicolas parents: diff changeset	429 lasso={
b0b172279433 Uploaded nicolas parents: diff changeset	430 aggreg <- aggregateLASSO(train=predictionTrain.list, test=predictionTest.list,
b0b172279433 Uploaded nicolas parents: diff changeset	431 target = phenotype, folds=folds)
b0b172279433 Uploaded nicolas parents: diff changeset	432 },
b0b172279433 Uploaded nicolas parents: diff changeset	433 rf={
b0b172279433 Uploaded nicolas parents: diff changeset	434 aggreg <- aggregateRF(train=predictionTrain.list, test=predictionTest.list,
b0b172279433 Uploaded nicolas parents: diff changeset	435 target = phenotype, folds=folds)
b0b172279433 Uploaded nicolas parents: diff changeset	436 },
b0b172279433 Uploaded nicolas parents: diff changeset	437 # svm, by default
b0b172279433 Uploaded nicolas parents: diff changeset	438 {aggreg <- aggregateSVM(train=predictionTrain.list, test=predictionTest.list,
b0b172279433 Uploaded nicolas parents: diff changeset	439 target = phenotype, folds=folds, kernel=kernel)}
b0b172279433 Uploaded nicolas parents: diff changeset	440 )
b0b172279433 Uploaded nicolas parents: diff changeset	441 # determine best classifier
b0b172279433 Uploaded nicolas parents: diff changeset	442 # first, transform list into a matrix
b0b172279433 Uploaded nicolas parents: diff changeset	443 saveRDS(r2Classif.list, "/Users/nbeaume/Desktop/r2Classif.rds")
b0b172279433 Uploaded nicolas parents: diff changeset	444 r2Classif.list <- t(data.frame(r2Classif.list))
b0b172279433 Uploaded nicolas parents: diff changeset	445 # then, compute the mean r2 for each classifier
b0b172279433 Uploaded nicolas parents: diff changeset	446 meanR2Classif <- apply(r2Classif.list, 2, mean)
b0b172279433 Uploaded nicolas parents: diff changeset	447 # choose the best one
b0b172279433 Uploaded nicolas parents: diff changeset	448 bestClassif <- which.max(meanR2Classif)
b0b172279433 Uploaded nicolas parents: diff changeset	449 # compare aggregation and best classifiers
b0b172279433 Uploaded nicolas parents: diff changeset	450 finalRes <- cbind(bestClassif=r2Classif.list[,bestClassif], aggreg=aggreg,
b0b172279433 Uploaded nicolas parents: diff changeset	451 diff=(aggreg-r2Classif.list[,bestClassif]))
b0b172279433 Uploaded nicolas parents: diff changeset	452 print(apply(finalRes, 2, mean))

Mercurial > repos > nicolas > oghma

annotate evaluate_aggregation.R @ 91:b0b172279433 draft