pampa_glmsp: FunctExeCalcGLMSpGalaxy.r comparison

comparison FunctExeCalcGLMSpGalaxy.r @ 2:6c14021f678e draft

"planemo upload for repository https://github.com/ColineRoyaux/PAMPA-Galaxy commit 3df1978827a91be30e815dee2ed83a92862d1b1c"

author	ecology
date	Sun, 22 Nov 2020 18:40:40 +0000
parents	0778efa9eb2e
children	c12897ba5f83

comparison

equal deleted inserted replaced

-:e972fe2bffee
+:6c14021f678e
 #Rscript
 #####################################################################################################################
 #####################################################################################################################
 ################################# Compute a Generalized Linear Model from your data #################################
 #####################################################################################################################
 #####################################################################################################################
 ###################### Packages
-#suppressMessages(library(MASS))
 suppressMessages(library(multcomp))
+suppressMessages(library(DHARMa))
 suppressMessages(library(glmmTMB)) ###Version: 0.2.3
 suppressMessages(library(gap))
 ###################### Load arguments and declaring variables
-args = commandArgs(trailingOnly=TRUE)
+args <- commandArgs(trailingOnly = TRUE)
-#options(encoding = "UTF-8")
 if (length(args) < 10) {
-stop("At least 4 arguments must be supplied : \n- two input dataset files (.tabular) : metrics table and unitobs table \n- Interest variable field from metrics table \n- Response variable from unitobs table.", call.=FALSE) #si pas d'arguments -> affiche erreur et quitte / if no args -> error and exit1
+stop("At least 4 arguments must be supplied : \n- two input dataset files (.tabular) : metrics table and unitobs table \n- Interest variable field from metrics table \n- Response variable from unitobs table.", call. = FALSE) # if no args -> error and exit1
 } else {
-Importdata <- args[1] ###### file name : metrics table
+import_data <- args[1] ###### file name : metrics table
-ImportUnitobs <- args[2] ###### file name : unitobs informations
+import_unitobs <- args[2] ###### file name : unitobs informations
 colmetric <- as.numeric(args[3]) ###### Selected interest metric for GLM
-listFact <- strsplit(args [4],",")[[1]] ###### Selected response factors for GLM
+list_fact <- strsplit(args [4], ",")[[1]] ###### Selected response factors for GLM
-listRand <- strsplit(args [5],",")[[1]] ###### Selected randomized response factors for GLM
+list_rand <- strsplit(args [5], ",")[[1]] ###### Selected randomized response factors for GLM
-colFactAna <- args[6] ####### (optional) Selected splitting factors for GLMs
+col_fact_ana <- args[6] ####### (optional) Selected splitting factors for GLMs
-Distrib <- args[7] ###### (optional) Selected distribution for GLM
+distrib <- args[7] ###### (optional) Selected distribution for GLM
-log <- args[8] ###### (Optional) Log on interest metric ?
+glm_out <- args[8] ###### (Optional) GLM object as Rdata output ?
 aggreg <- args[9] ###### Aggregation level of the data table
 source(args[10]) ###### Import functions
 }
-#### Data must be a dataframe with at least 3 variables : unitobs representing location and year ("observation.unit"), species code ("species.code") and abundance ("number")
+#### d_ata must be a dataframe with at least 3 variables : unitobs representing location and year ("observation.unit"), species code ("species.code") and abundance ("number")
 #Import des données / Import data
-obs<- read.table(Importdata,sep="\t",dec=".",header=TRUE,encoding="UTF-8") #
+obs <- read.table(import_data, sep = "\t", dec = ".", header = TRUE, encoding = "UTF-8") #
 obs[obs == -999] <- NA
 metric <- colnames(obs)[colmetric]
-tabUnitobs <- read.table(ImportUnitobs,sep="\t",dec=".",header=TRUE,encoding="UTF-8")
+tab_unitobs <- read.table(import_unitobs, sep = "\t", dec = ".", header = TRUE, encoding = "UTF-8")
-tabUnitobs[tabUnitobs == -999] <- NA
+tab_unitobs[tab_unitobs == -999] <- NA
-vars_data1<- c("species.code")
+vars_data1 <- c("species.code")
-err_msg_data1<-"The input metrics dataset doesn't have the right format. It needs to have at least the following 3 variables :\n- species.code \n- observation.unit (or year and site)\n- numeric or integer metric\n"
+err_msg_data1 <- "The input metrics dataset doesn't have the right format. It needs to have at least the following 3 variables :\n- species.code \n- observation.unit (or year and site)\n- numeric or integer metric\n"
-check_file(obs,err_msg_data1,vars_data1,3)
+check_file(obs, err_msg_data1, vars_data1, 3)
-vars_data2 <- c(listFact,listRand)
+vars_data2 <- c("observation.unit", list_fact, list_rand)
-vars_data2 <- vars_data2[vars_data2 != "None"]
+err_msg_data2 <- "The input unitobs dataset doesn't have the right format. It needs to have at least the following 2 variables :\n- observation.unit (or year and site)\n- factors used in GLM (habitat, year and/or site)\n"
-err_msg_data2<-"The input unitobs dataset doesn't have the right format. It needs to have at least the following 2 variables :\n- observation.unit (or year and site)\n- factors used in GLM (habitat, year and/or site)\n"
+check_file(tab_unitobs, err_msg_data2, vars_data2[vars_data2 != "None"], 2)
-check_file(tabUnitobs,err_msg_data2,vars_data2,2)
+if (col_fact_ana != "None") {
-if (colFactAna != "None")
+fact_ana <- col_fact_ana
-{
+if (class(obs[fact_ana]) == "numeric" || fact_ana == "observation.unit") {
-FactAna <- colFactAna
+stop("Wrong chosen separation factor : Analysis can't be separated by observation unit or numeric factor")
-if (class(obs[FactAna]) == "numeric" || FactAna == "observation.unit"){stop("Wrong chosen separation factor : Analysis can't be separated by observation unit or numeric factor")}
+}
 }else{
-FactAna <- colFactAna
+fact_ana <- col_fact_ana
 }
+if (all(c(list_fact, list_rand) == "None")) {
-#factors <- fact.det.f(Obs=obs)
+stop("GLM needs to have at least one response variable.")
+}
+if (list_fact[1] == "None" || all(is.element(list_fact, list_rand))) {
+stop("GLM can't have only random effects.")
+}
 ####################################################################################################
-########## Computing Generalized Linear Model ## Function : modeleLineaireWP2.unitobs.f ############
+########## Computing Generalized Linear Model ## Function : glm_species ############
 ####################################################################################################
-modeleLineaireWP2.species.f <- function(metrique, listFact, listRand, FactAna, Distrib, log=FALSE, tabMetrics, tableMetrique, tabUnitobs, unitobs="observation.unit", outresiduals = FALSE, nbName="number")
+glm_species <- function(metrique, list_fact, list_rand, fact_ana, distrib, tab_metrics, tab_metrique, tab_unitobs, unitobs = "observation.unit", nb_name = "number") {
-{
+## Purpose: Monitoring steps for GLM on species data
-## Purpose: Gestions des différentes étapes des modèles linéaires.
 ## ----------------------------------------------------------------------
-## Arguments: metrique : la métrique choisie.
+## Arguments: metrique : selected metric
-##            factAna : le facteur de séparation des graphiques.
+##            list_fact : Factors for GLM
-##            factAnaSel : la sélection de modalités pour ce dernier
+##            list_rand : Random factors for GLM
-##            listFact : liste du (des) facteur(s) de regroupement
+##            fact_ana : Separation factor for GLMs
-##            listFactSel : liste des modalités sélectionnées pour ce(s)
+##            distrib : selected distribution for model
-##                          dernier(s)
+##            tab_metrics : data table metrics
-##            tabMetrics : table de métriques.
+##            tab_metrique : data table's name
-##            tableMetrique : nom de la table de métriques.
+##            tab_unitobs : data table unitobs
-##            dataEnv : environnement de stockage des données.
-##            baseEnv : environnement de l'interface.
 ## ----------------------------------------------------------------------
-## Author: Yves Reecht, Date: 18 août 2010, 15:59
+## Author: Yves Reecht, Date: 18 août 2010, 15:59 modified by Coline ROYAUX 04 june 2020
-tmpData <- tabMetrics
+tmpd_ata <- tab_metrics
-if (listRand[1] != "None")
+out_fact <- .GlobalEnv$organise_fact(list_rand = list_rand, list_fact = list_fact)
-{
+resp_fact <- out_fact[[1]]
-if (all(is.element(listFact,listRand)) || listFact[1] == "None")
+list_f <- out_fact[[2]]
-{
+list_fact <- out_fact[[3]]
-RespFact <- paste("(1|",paste(listRand,collapse=") + (1|"),")")
-listF <- NULL
-listFact <- listRand
-}else{
-listF <- listFact[!is.element(listFact,listRand)]
-RespFact <- paste(paste(listF, collapse=" + ")," + (1|",paste(listRand,collapse=") + (1|"),")")
-listFact <- c(listF,listRand)
-}
-}else{
-listF <- listFact
-RespFact <- paste(listFact, collapse=" + ")
-}
 ##Creating model's expression :
-#if (log == FALSE) {
+expr_lm <- eval(parse(text = paste(metrique, "~", resp_fact)))
-exprML <- eval(parse(text=paste(metrique, "~", RespFact)))
-#}else{
-#  exprML <- eval(parse(text=paste("log(",metrique,")", "~", RespFact)))
-#}
 ##Creating analysis table :
-listFactTab <- c(listFact,FactAna)
+list_fact_tab <- c(list_fact, fact_ana)
-listFactTab <- listFactTab[listFactTab != "None"]
+list_fact_tab <- list_fact_tab[list_fact_tab != "None"]
-if (all(is.na(match(tmpData[,unitobs],tabUnitobs[,unitobs])))) {stop("Observation units doesn't match in the two input tables")}
+if (all(is.na(match(tmpd_ata[, unitobs], tab_unitobs[, unitobs])))) {
+stop("Observation units doesn't match in the two input tables")
-if(is.element("species.code",colnames(tmpData)))
+}
-{
-col <- c(unitobs,metrique,FactAna)
+if (is.element("species.code", colnames(tmpd_ata))) {
-tmpData <- cbind(tmpData[,col], tabUnitobs[match(tmpData[,unitobs],tabUnitobs[,unitobs]),listFact])
+col <- c(unitobs, metrique, fact_ana)
-colnames(tmpData) <- c(col,listFact)
+tmpd_ata <- cbind(tmpd_ata[, col], tab_unitobs[match(tmpd_ata[, unitobs], tab_unitobs[, unitobs]), list_fact])
+colnames(tmpd_ata) <- c(col, list_fact)
-for (i in listFactTab) {
-tmpData[,i] <- as.factor(tmpData[,i])
+for (i in list_fact_tab) {
+tmpd_ata[, i] <- as.factor(tmpd_ata[, i])
 }
 }else{
 stop("Warning : wrong data frame, data frame should be aggregated by observation unit (year and site) and species")
 }
 ## Suppression des 'levels' non utilisés :
-tmpData <- dropLevels.f(tmpData)
+tmpd_ata <- .GlobalEnv$drop_levels_f(tmpd_ata)
-## Aide au choix du type d'analyse :
+## Automatic choice of distribution if none is selected by user :
-if (Distrib == "None")
-{
+chose_distrib <- .GlobalEnv$distrib_choice(distrib = distrib, metrique = metrique, data = tmpd_ata)
-if (metrique == "pres.abs")
-{
+##Create results table :
-loiChoisie <- "binomial"
+lev <- unlist(lapply(list_f, FUN = function(x) {
+levels(tmpd_ata[, x])
+}))
+row <- levels(tmpd_ata[, fact_ana])
+if (is.element("year", list_f) && ! is.element("year", list_rand)) {
+tab_sum <- .GlobalEnv$create_res_table(list_rand = list_rand, list_fact = list_fact, row = row, lev = unlist(c("year", lev)), distrib = chose_distrib)
+}else{
+tab_sum <- .GlobalEnv$create_res_table(list_rand = list_rand, list_fact = list_fact, row = row, lev = lev, distrib = chose_distrib)
+}
+### creating rate table
+tab_rate <- data.frame(species = row, complete_plan = NA, balanced_plan = NA, NA_proportion_OK = NA, no_residual_dispersion = NA, uniform_residuals = NA, outliers_proportion_OK = NA, no_zero_inflation = NA, observation_factor_ratio_OK = NA, enough_levels_random_effect = NA, rate = NA)
+## Compute Model(s) :
+for (sp in levels(tmpd_ata[, fact_ana])) {
+cutd_ata <- tmpd_ata[grep(sp, tmpd_ata[, fact_ana]), ]
+cutd_ata <- .GlobalEnv$drop_levels_f(cutd_ata)
+res <- ""
+resy <- ""
+if (list_rand[1] != "None") {
+res <- tryCatch(glmmTMB(expr_lm, family = chose_distrib, data = cutd_ata), error = function(e) {
+})
+if (is.element("year", list_f) && ! is.element("year", list_rand)) { #Model with year as continuous
+cutd_ata$year <- as.numeric(cutd_ata$year)
+resy <- tryCatch(glmmTMB(expr_lm, family = chose_distrib, data = cutd_ata), error = function(e) {
+})
+cutd_ata$year <- as.factor(cutd_ata$year)
+}else{
+resy <- ""
+}
 }else{
-switch(class(tmpData[,metrique]),
+res <- tryCatch(glm(expr_lm, data = cutd_ata, family = chose_distrib), error = function(e) {
-"integer"={loiChoisie <- "poisson"},
+})
-"numeric"={loiChoisie <- "gaussian"},
+if (is.element("year", list_f)) { #Model with year as continuous
-stop("Selected metric class doesn't fit, you should select an integer or a numeric variable"))
+cutd_ata$year <- as.numeric(cutd_ata$year)
+resy <- tryCatch(glm(expr_lm, family = chose_distrib, data = cutd_ata), error = function(e) {
+})
+cutd_ata$year <- as.factor(cutd_ata$year)
+}else{
+resy <- ""
+}
 }
-}else{
-loiChoisie <- Distrib
+## Write results :
-}
+if (! is.null(res)) {
+file_save_glm_sp <- paste("GLM_", sp, ".Rdata", sep = "")
-##Create results table :
+save(res, file = file_save_glm_sp)
-lev <- unlist(lapply(listF,FUN=function(x){levels(tmpData[,x])}))
+tab_sum <- .GlobalEnv$sorties_lm_f(obj_lm = res, obj_lmy = resy, tab_sum = tab_sum, fact_ana = fact_ana, cut = sp, col_ana = "analysis", lev = lev, d_ata = cutd_ata, metrique = metrique, list_fact = list_fact, list_rand = list_rand)
-if (listRand[1] != "None") ## if random effects
-{
+tab_rate[tab_rate[, "species"] == sp, c(2:11)] <- .GlobalEnv$note_glm_f(data = cutd_ata, obj_lm = res, metric = metrique, list_fact = list_fact, details = TRUE)
-TabSum <- data.frame(species=levels(tmpData[,FactAna]),AIC=NA,BIC=NA,logLik=NA, deviance=NA,df.resid=NA)
-colrand <- unlist(lapply(listRand,
+}else{
-FUN=function(x){lapply(c("Std.Dev","NbObservation","NbLevels"),
+cat("\nCannot compute GLM for species", sp, "Check if one or more factor(s) have only one level, or try with another distribution for the model in advanced settings \n\n")
-FUN=function(y){paste(x,y,collapse = ":")
-})
-}))
-TabSum[,colrand] <- NA
-if (! is.null(lev)) ## if fixed effects + random effects
-{
-colcoef <- unlist(lapply(c("(Intercept)",lev),
-FUN=function(x){lapply(c("Estimate","Std.Err","Zvalue","Pvalue","signif"),
-FUN=function(y){paste(x,y,collapse = ":")
-})
-}))
-}else{ ## if no fixed effects
-colcoef <- NULL
 }
-}else{ ## if no random effects
+}
-TabSum <- data.frame(species=levels(tmpData[,FactAna]),AIC=NA,Resid.deviance=NA,df.resid=NA,Null.deviance=NA,df.null=NA)
+.GlobalEnv$note_glms_f(tab_rate = tab_rate, expr_lm = expr_lm, obj_lm = res, file_out = TRUE)
-switch(loiChoisie,
-"gaussian"={colcoef <- unlist(lapply(c("(Intercept)",lev),
-FUN=function(x){lapply(c("Estimate","Std.Err","Tvalue","Pvalue","signif"),
-FUN=function(y){paste(x,y,collapse = ":")
-})
-}))},
-"quasipoisson"={colcoef <- unlist(lapply(c("(Intercept)",lev),
-FUN=function(x){lapply(c("Estimate","Std.Err","Tvalue","Pvalue","signif"),
-FUN=function(y){paste(x,y,collapse = ":")
-})
-}))},
-colcoef <- unlist(lapply(c("(Intercept)",lev),
-FUN=function(x){lapply(c("Estimate","Std.Err","Zvalue","Pvalue","signif"),
-FUN=function(y){paste(x,y,collapse = ":")
-})
-})))
-}
-TabSum[,colcoef] <- NA
-### creating rate table
-TabRate <- data.frame(species=levels(tmpData[,FactAna]), complete_plan=NA, balanced_plan=NA, NA_proportion_OK=NA, no_residual_dispersion=NA, uniform_residuals=NA, outliers_proportion_OK=NA, no_zero_inflation=NA, observation_factor_ratio_OK=NA, enough_levels_random_effect=NA, rate=NA)
-## Compute Model(s) :
-for (sp in levels(tmpData[,FactAna]))
-{
-cutData <- tmpData[grep(sp,tmpData[,FactAna]),]
-cutData <- dropLevels.f(cutData)
-res <-""
-if (listRand[1] != "None")
-{
-res <- tryCatch(glmmTMB(exprML,family=loiChoisie, data=cutData), error=function(e){})
-}else{
-res <- tryCatch(glm(exprML,data=cutData,family=loiChoisie), error=function(e){})
-}
-## Écriture des résultats formatés dans un fichier :
-if (! is.null(res))
-{
-TabSum <- sortiesLM.f(objLM=res, TabSum=TabSum, factAna=factAna, cut=sp, colAna="species", lev=lev, Data=cutData, metrique=metrique, type="espece", listFact=listFact)
-TabRate[TabRate[,"species"]==sp,c(2:11)] <- noteGLM.f(data=cutData, objLM=res, metric=metrique, listFact=listFact, details=TRUE)
-}else{
-cat("\nCannot compute GLM for species",sp,"Check if one or more factor(s) have only one level, or try with another distribution for the model in advanced settings \n\n")
-}
-}
-noteGLMs.f(tabRate=TabRate,exprML=exprML,objLM=res,file_out=TRUE)
 ## simple statistics and infos :
 filename <- "GLMSummaryFull.txt"
 ## Save data on model :
-infoStats.f(filename=filename, Data=tmpData, agregLevel=aggreg, type="stat",
+info_stats_f(filename = filename, d_ata = tmpd_ata, agreg_level = aggreg, type = "stat",
-metrique=metrique, factGraph=factAna, #factGraphSel=modSel,
+metrique = metrique, fact_graph = fact_ana, #fact_graph_sel = modSel,
-listFact=listFact)#, listFactSel=listFactSel)
+list_fact = list_fact)#, list_fact_sel = list_fact_sel)
-return(TabSum)
+return(tab_sum)
 }
 ################# Analysis
-Tab <- modeleLineaireWP2.species.f(metrique=metric, listFact=listFact, listRand=listRand, FactAna=FactAna, Distrib=Distrib, tabMetrics=obs, tableMetrique=aggreg, tabUnitobs=tabUnitobs, outresiduals=SupprOutlay, nbName="number")
+tab <- glm_species(metrique = metric, list_fact = list_fact, list_rand = list_rand, fact_ana = fact_ana, distrib = distrib, tab_metrics = obs, tab_metrique = aggreg, tab_unitobs = tab_unitobs, nb_name = "number")
-write.table(Tab,"GLMSummary.tabular", row.names=FALSE, sep="\t", dec=".",fileEncoding="UTF-8")
+write.table(tab, "GLMSummary.tabular", row.names = FALSE, sep = "\t", dec = ".", fileEncoding = "UTF-8")

Mercurial > repos > ecology > pampa_glmsp

comparison FunctExeCalcGLMSpGalaxy.r @ 2:6c14021f678e draft