hadoop_galaxy: hadoop_galaxy-13348e73/cat

annotate hadoop_galaxy-13348e73/cat_paths.xml @ 1:30bd2584b6a0 draft default tip

Uploaded

author	crs4
date	Wed, 15 Oct 2014 09:39:16 -0400
parents
children

rev	line source
1 30bd2584b6a0 Uploaded crs4 parents: diff changeset	1 <tool id="hadoop_galaxy_cat_paths" name="Cat paths" version="0.1.4">
30bd2584b6a0 Uploaded crs4 parents: diff changeset	2 <description>Concatenate all components of a pathset into a single file.</description>
30bd2584b6a0 Uploaded crs4 parents: diff changeset	3 <requirements>
30bd2584b6a0 Uploaded crs4 parents: diff changeset	4 <requirement type="package" version="0.11">pydoop</requirement>
30bd2584b6a0 Uploaded crs4 parents: diff changeset	5 <requirement type="package" version="0.1.4">hadoop-galaxy</requirement>
30bd2584b6a0 Uploaded crs4 parents: diff changeset	6 </requirements>
30bd2584b6a0 Uploaded crs4 parents: diff changeset	7
30bd2584b6a0 Uploaded crs4 parents: diff changeset	8 <command>
30bd2584b6a0 Uploaded crs4 parents: diff changeset	9 #if $use_hadoop
30bd2584b6a0 Uploaded crs4 parents: diff changeset	10 dist_cat_paths
30bd2584b6a0 Uploaded crs4 parents: diff changeset	11 #else
30bd2584b6a0 Uploaded crs4 parents: diff changeset	12 cat_paths
30bd2584b6a0 Uploaded crs4 parents: diff changeset	13 #end if
30bd2584b6a0 Uploaded crs4 parents: diff changeset	14 #if $delete_source
30bd2584b6a0 Uploaded crs4 parents: diff changeset	15 --delete-source
30bd2584b6a0 Uploaded crs4 parents: diff changeset	16 #end if
30bd2584b6a0 Uploaded crs4 parents: diff changeset	17 $input_pathset $output_path
30bd2584b6a0 Uploaded crs4 parents: diff changeset	18 </command>
30bd2584b6a0 Uploaded crs4 parents: diff changeset	19
30bd2584b6a0 Uploaded crs4 parents: diff changeset	20 <inputs>
30bd2584b6a0 Uploaded crs4 parents: diff changeset	21 <param name="input_pathset" type="data" format="pathset" label="Input pathset">
30bd2584b6a0 Uploaded crs4 parents: diff changeset	22 <validator type="empty_field" />
30bd2584b6a0 Uploaded crs4 parents: diff changeset	23 </param>
30bd2584b6a0 Uploaded crs4 parents: diff changeset	24 <param name="delete_source" type="boolean" checked="false" label="Delete remote input data"
30bd2584b6a0 Uploaded crs4 parents: diff changeset	25 help="This option makes the tool move the data rather than copy it" />
30bd2584b6a0 Uploaded crs4 parents: diff changeset	26 <param name="use_hadoop" type="boolean" checked="false" label="Use Hadoop-based program"
30bd2584b6a0 Uploaded crs4 parents: diff changeset	27 help="The Galaxy workspace must be accessible by the Hadoop cluster (see help for details)" />
30bd2584b6a0 Uploaded crs4 parents: diff changeset	28 </inputs>
30bd2584b6a0 Uploaded crs4 parents: diff changeset	29
30bd2584b6a0 Uploaded crs4 parents: diff changeset	30 <outputs>
30bd2584b6a0 Uploaded crs4 parents: diff changeset	31 <!-- TODO: can we read the format from input pathset and transfer it to output? -->
30bd2584b6a0 Uploaded crs4 parents: diff changeset	32 <data name="output_path" format="data" label="Concatenated dataset $input_pathset.name" />
30bd2584b6a0 Uploaded crs4 parents: diff changeset	33 </outputs>
30bd2584b6a0 Uploaded crs4 parents: diff changeset	34
30bd2584b6a0 Uploaded crs4 parents: diff changeset	35 <stdio>
30bd2584b6a0 Uploaded crs4 parents: diff changeset	36 <exit_code range="1:" level="fatal" />
30bd2584b6a0 Uploaded crs4 parents: diff changeset	37 </stdio>
30bd2584b6a0 Uploaded crs4 parents: diff changeset	38
30bd2584b6a0 Uploaded crs4 parents: diff changeset	39 <help>
30bd2584b6a0 Uploaded crs4 parents: diff changeset	40 Datasets represented as pathsets can be split in a number of files.
30bd2584b6a0 Uploaded crs4 parents: diff changeset	41 This tool takes all of them and concatenates them into a single output file.
30bd2584b6a0 Uploaded crs4 parents: diff changeset	42
30bd2584b6a0 Uploaded crs4 parents: diff changeset	43 In your workflow, you'll need to explicitly set the appropriate data format on the
30bd2584b6a0 Uploaded crs4 parents: diff changeset	44 output dataset with an Action to "Change Datatype".
30bd2584b6a0 Uploaded crs4 parents: diff changeset	45
30bd2584b6a0 Uploaded crs4 parents: diff changeset	46 "Delete remote input data" option
30bd2584b6a0 Uploaded crs4 parents: diff changeset	47 ====================================
30bd2584b6a0 Uploaded crs4 parents: diff changeset	48 With this option, after the data has been concated into the new Galaxy dataset,
30bd2584b6a0 Uploaded crs4 parents: diff changeset	49 the original files that were referenced by the pathset are deleted. This effectively
30bd2584b6a0 Uploaded crs4 parents: diff changeset	50 tells the action to "move" the data instead of a "copying" it and helps
30bd2584b6a0 Uploaded crs4 parents: diff changeset	51 avoid amassing intermediate data in your Hadoop workspace.
30bd2584b6a0 Uploaded crs4 parents: diff changeset	52
30bd2584b6a0 Uploaded crs4 parents: diff changeset	53
30bd2584b6a0 Uploaded crs4 parents: diff changeset	54 "Use Hadoop-based program" option
30bd2584b6a0 Uploaded crs4 parents: diff changeset	55 ====================================
30bd2584b6a0 Uploaded crs4 parents: diff changeset	56
30bd2584b6a0 Uploaded crs4 parents: diff changeset	57 With this option you will use your entire Hadoop cluster to simultaneously write
30bd2584b6a0 Uploaded crs4 parents: diff changeset	58 multiple parts of the final file. For this to be possible, the Hadoop nodes
30bd2584b6a0 Uploaded crs4 parents: diff changeset	59 must be able to access the Galaxy file space directly. In addition, to achieve
30bd2584b6a0 Uploaded crs4 parents: diff changeset	60 reasonable results the Galaxy workspace should on a parallel shared file system.
30bd2584b6a0 Uploaded crs4 parents: diff changeset	61 </help>
30bd2584b6a0 Uploaded crs4 parents: diff changeset	62 </tool>

Mercurial > repos > crs4 > hadoop_galaxy

annotate hadoop_galaxy-13348e73/cat_paths.xml @ 1:30bd2584b6a0 draft default tip