kmersvm: kmersvm/rocprcurve.xml annotate

annotate kmersvm/rocprcurve.xml @ 0:7fe1103032f7 draft

Uploaded

author	cafletezbrant
date	Mon, 20 Aug 2012 18:07:22 -0400
parents
children

rev	line source
0 7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	1 <tool id="ROC-PR Curve" name="ROC-PR Curve">
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	2 <description>calculates AUC for ROC and PR curves</description>
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	3 <command interpreter="sh">r_wrapper.sh $script_file</command>
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	4 <inputs>
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	5 <param format="tabular" name="cvpred_data" type="data" label="CV Predictions"/>
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	6 </inputs>
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	7 <outputs>
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	8 <!--
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	9 <data format="pdf" name="rocprc.pdf" from_work_dir="rocprc.pdf" label="ROC-PR Curve" />
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	10 -->
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	11 <data format="png" name="rocprc.png" from_work_dir="rocprc.png" />
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	12 </outputs>
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	13
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	14 <configfiles>
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	15 <configfile name="script_file">
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	16
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	17 rm(list = objects() )
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	18
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	19 ########## calculate auprc #########
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	20 auPRC <- function (perf) {
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	21 rec <- perf@x.values
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	22 prec <- perf@y.values
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	23 result <- list()
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	24 for (i in 1:length(perf@x.values)) {
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	25 result[i] <- list(sum((rec[[i]][2:length(rec[[i]])] - rec[[i]][2:length(rec[[i]])-1])*prec[[i]][-1]))
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	26 }
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	27 return(result)
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	28 }
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	29
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	30 ########## plot ROC and PR-Curve #########
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	31 rocprc <- function(x) {
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	32 sink(NULL,type="message")
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	33 options(warn=-1)
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	34 suppressMessages(suppressWarnings(library('ROCR')))
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	35 svmresult <- data.frame(x)
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	36 colnames(svmresult) <- c("Seqid","Pred","Label", "CV")
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	37
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	38 linewd <- 1
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	39 wd <- 4
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	40 ht <- 4
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	41 fig.nrows <- 1
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	42 fig.ncols <- 2
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	43 pt <- 10
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	44 cex.general <- 1
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	45 cex.lab <- 0.9
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	46 cex.axis <- 0.9
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	47 cex.main <- 1.2
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	48 cex.legend <- 0.8
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	49
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	50
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	51 #pdf("rocprc.pdf", width=wdfig.ncols, height=htfig.nrows)
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	52 png("rocprc.png", width=wdfig.ncols, height=htfig.nrows, unit="in", res=100)
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	53
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	54 par(xaxs="i", yaxs="i", mar=c(3.5,3.5,2,2)+0.1, mgp=c(2,0.8,0), mfrow=c(fig.nrows, fig.ncols))
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	55
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	56 CVs <- unique(svmresult[["CV"]])
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	57 preds <- list()
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	58 labs <- list()
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	59 auc <- c()
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	60 for(i in 1:length(CVs)) {
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	61 preds[i] <- subset(svmresult, CV==(i-1), select=c(Pred))
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	62 labs[i] <- subset(svmresult, CV==(i-1), select=c(Label))
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	63 }
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	64
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	65 pred <- prediction(preds, labs)
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	66 perf_roc <- performance(pred, 'tpr', 'fpr')
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	67 perf_prc <- performance(pred, 'prec', 'rec')
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	68
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	69 perf_auc <- performance(pred, 'auc')
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	70 prcs <- auPRC(perf_prc)
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	71 avgauc <- 0
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	72 avgprc <- 0
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	73
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	74 for(j in 1:length(CVs)) {
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	75 avgauc <- avgauc + perf_auc@y.values[[j]]
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	76 avgprc <- avgprc + prcs[[j]]
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	77 }
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	78
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	79 avgauc <- avgauc/length(CVs)
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	80 avgprc <- avgprc/length(CVs)
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	81
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	82 #preds_merged <- unlist(preds)
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	83 #labs_merged <- unlist(labs)
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	84 #pred_merged <- prediction(preds_merged, labs_merged)
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	85 #perf_merged_auc <- performance(pred_merged, 'auc')
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	86
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	87 plot(perf_roc, colorize=T, main="ROC curve", spread.estimate="stderror",
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	88 xlab="1-Specificity", ylab="Sensitivity", cex.lab=1.2)
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	89 text(0.2, 0.1, paste("AUC=", format(avgauc, digits=3, nsmall=3)))
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	90
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	91 plot(perf_prc, colorize=T, main="P-R curve", spread.estimate="stderror",
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	92 xlab="Recall", ylab="Precision", cex.lab=1.2, xlim=c(0,1), ylim=c(0,1))
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	93 text(0.2, 0.1, paste("AUC=", format(avgprc, digits=3, nsmall=3)))
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	94
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	95 dev.off()
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	96 }
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	97
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	98 ############## main function #################
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	99 d <- read.table("${cvpred_data}")
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	100
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	101 rocprc(d)
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	102
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	103 </configfile>
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	104 </configfiles>
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	105
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	106 <help>
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	107
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	108 Note
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	109
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	110 This tool is based on the ROCR library. If you use this tool please cite:
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	111
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	112 Tobias Sing, Oliver Sander, Niko Beerenwinkel, Thomas Lengauer.
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	113 ROCR: visualizing classifier performance in R.
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	114 Bioinformatics 21(20):3940-3941 (2005).
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	115
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	116 ----
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	117
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	118 What it does
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	119
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	120 Takes as input cross-validation predictions and calculates ROC Curve and its area under curve (AUC) and PR Curve and its AUC.
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	121
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	122 ----
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	123
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	124 Results
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	125
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	126 ROC Curve: Receiver Operating Characteristic Curve. Compares true positive rate (sensitivity) to false positive rate (1 - specificity).
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	127
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	128 PR Curve: Precision Recall Curve. Compares number of true positives (recall; same as sensitivity) to the number of true positives relative to the total number sequences classified as positive (precision).
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	129
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	130 AUC for a given curve: Area Under the Curve: Probability that of a randomly selected positive/negative pair, the positive will be scored more highly by the trained SVM than a negative.
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	131
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	132 .. class:: infomark
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	133
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	134 Both curves measure SVM performance, but ROC curves can be inaccurate if there is a large skew in class distribution. For more information see:
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	135
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	136 Jesse Davis, Mark Goadrich.
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	137 The Relationship Between Precision-Recall and ROC Curves.
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	138 Proceedings of the 23rd Annual Internation Conference on Machine Learning.
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	139 Pittsburgh, PA, 2006.
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	140
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	141 ----
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	142
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	143 Example
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	144
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	145 .. image:: ./static/images/sample_roc_chen.png
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	146 </help>
7fe1103032f7 Uploaded cafletezbrant parents: diff changeset	147 </tool>

Mercurial > repos > cafletezbrant > kmersvm

annotate kmersvm/rocprcurve.xml @ 0:7fe1103032f7 draft