compute_wrapper: compute.xml annotate

author	Assaf Gordon <assafgordon@gmail.com>
date	Sat, 22 Mar 2014 16:39:59 -0400
parents
children	16903bd2bb5b

rev	line source
0 e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	1 <tool id="GroupCompute" name="Group and Compute" version="1.0.3">
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	2 <description>operations on tabular data.</description>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	3
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	4 <requirements>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	5 <requirement type="package" version="1.0.3">compute</requirement>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	6 </requirements>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	7
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	8 <command>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	9 compute
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	10 $header_in
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	11 $header_out
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	12 $need_sort
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	13 $print_full_line
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	14 $ignore_case
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	15 #if str($grouping)>0
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	16 --group '$grouping'
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	17 #end if
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	18 -T
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	19 #for $oper in $operations
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	20 ${oper.op_name}
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	21 ${oper.op_column}
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	22 #end for
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	23 < $in_file > $out_file
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	24 </command>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	25 <inputs>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	26 <param format="tabular" name="in_file" type="data" label="Select Input Data" help=""/>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	27
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	28 <param name="grouping" label="Group by fields" type="text" help="Example: 1,4 - To group by the first and fourth fields. Leave empty to perform operation on entire file as one group."/>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	29
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	30 <param name="header_in" type="boolean" truevalue="--header-in" falsevalue=""
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	31 label="Input file has a header line" help="Mark this if the input file's first line is a header line" />
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	32
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	33 <param name="header_out" type="boolean" truevalue="--header-out" falsevalue=""
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	34 label="Print header line" help="Mark this if you want the first line to show the field names" />
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	35
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	36 <param name="need_sort" type="boolean" truevalue="--sort" falsevalue=""
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	37 label="Sort input" help="Mark if the input file is not sorted. If the input file is already sorted, unmark this option to reduce computing time." />
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	38
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	39 <param name="print_full_line" type="boolean" truevalue="--full" falsevalue=""
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	40 label="Print all fields from input file" help="If set, all input fields will be printed. If unset, only fields used for grouping will be printed." />
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	41
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	42 <param name="ignore_case" type="boolean" truevalue="--ignore-case" falsevalue=""
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	43 label="Ignore case when grouping" help="If set, upper/lowercase differences will be ignored when grouping fields." />
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	44
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	45 <repeat name="operations" title="Operation to perform on each group">
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	46 <param name="op_name" type="select" label="Type">
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	47 <option value="count">count</option>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	48 <option value="sum">sum</option>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	49 <option value="min">minimum</option>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	50 <option value="max">maximum</option>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	51 <option value="absmin">Absolute minimum</option>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	52 <option value="absmax">Absolute maximum</option>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	53 <option value="mean">Mean</option>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	54 <option value="median">Median</option>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	55 <option value="mode">Mode</option>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	56 <option value="antimode">Anti-Mode</option>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	57 <option value="pstdev">Population Standard deviantion</option>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	58 <option value="sstdev">Sample Standard deviantion</option>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	59 <option value="unique">Combine all unique values</option>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	60 <option value="collapse">Combine all values</option>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	61 <option value="countunique">Count Unique values</option>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	62 </param>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	63 <param name="op_column" label="On column" type="data_column" data_ref="in_file" />
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	64 </repeat>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	65 </inputs>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	66
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	67 <outputs>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	68 <data format="tabular" name="out_file" />
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	69 </outputs>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	70
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	71 <tests>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	72 <test>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	73 <param name="in_file" value="group_compute_input.txt" />
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	74 <param name="grouping" value="2" />
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	75 <param name="header_in" value="true" />
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	76 <param name="header_out" value="true" />
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	77 <param name="need_sort" value="true" />
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	78 <param name="print_full_line" value="false" />
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	79 <param name="op_column" value="3" />
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	80 <param name="op_name" value="sum" />
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	81 <param name="ignore_case" value="false" />
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	82 <output name="out_file" file="group_compute_output.txt" />
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	83 </test>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	84 </tests>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	85 <help>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	86
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	87 .. class:: infomark
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	88
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	89 TIP: Input data must be TAB delimited. If the desired dataset does not appear in the input list, use Text Manipulation->Convert to convert it to Tabular type.
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	90
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	91 -----
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	92
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	93 Syntax
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	94
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	95 This tools performs common operations (such as summing, counting, mean, standard-deviation) on input file, based on tabular data. The tool can also optionaly group the input based on a given field.
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	96
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	97 -----
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	98
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	99 Example 1
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	100
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	101 - Find the average score in statistics course of college students, grouped by their college major. The input file has three fields (Name,Major,Score) and a header line::
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	102
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	103 Name Major Score
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	104 Bryan Arts 68
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	105 Isaiah Arts 80
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	106 Gabriel Health-Medicine 100
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	107 Tysza Business 92
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	108 Zackery Engineering 54
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	109 ...
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	110 ...
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	111
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	112 - Grouping the input by the second column (Major), and performing operations mean and sample standard deviation on the third column (Score), gives::
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	113
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	114 GroupBy(Major) mean(Score) sstdev(Score)
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	115 Arts 68.9474 10.4215
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	116 Business 87.3636 5.18214
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	117 Engineering 66.5385 19.8814
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	118 Health-Medicine 90.6154 9.22441
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	119 Life-Sciences 55.3333 20.606
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	120 Social-Sciences 60.2667 17.2273
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	121
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	122 This sample file is available at http://agordon.github.io/compute/examples.html .
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	123
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	124 Example 2
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	125
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	126 - Using the UCSC RefSeq Human Gene Track, available at: http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/refGene.txt.gz
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	127
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	128 - List the number and identifiers of isoforms per gene. The gene identifier is in column 13, the isoform/transcript identifier is in column 2. Grouping by column 13 and performing count and Combine all values on column 2, gives::
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	129
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	130 GroupBy(field-13) count(field-2) collapse(field-2)
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	131 A1BG 1 NM_130786
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	132 A1BG-AS1 1 NR_015380
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	133 A1CF 6 NM_001198818,NM_001198819,NM_001198820,NM_014576,NM_138932,NM_138933
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	134 A2M 1 NM_000014
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	135 A2M-AS1 1 NR_026971
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	136 A2ML1 2 NM_001282424,NM_144670
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	137 ...
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	138
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	139 - Count how many transcripts are listed for each chromosome and strand. Chromosome is on column 3, Strand is in column 4. Transcript identifiers are in column 2. Grouping by columns 3,4 and performing operation count on column 2, gives::
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	140
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	141 GroupBy(field-3) GroupBy(field-4) count(field-2)
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	142 chr1 + 2456
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	143 chr1 - 2431
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	144 chr2 + 1599
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	145 chr2 - 1419
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	146 chr3 + 1287
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	147 chr3 - 1249
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	148 ...
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	149
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	150 -----
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	151
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	152 Compute is an open-sourced program, see more details on the Compute_ Website.
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	153
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	154 Compute is also available as a command-line program, see http://agordon.github.io/compute/examples.html .
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	155
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	156 .. _Compute: http://agordon.github.io/compute/
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	157
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	158 </help>
e91a07e82d96 First Galaxy Version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	159 </tool>

0

e91a07e82d96 First Galaxy Version