vsnp_determine_ref_from_data: vsnp_determine_ref_from

annotate vsnp_determine_ref_from_data.xml @ 3:6116deacb2c7 draft

Uploaded

author	greg
date	Mon, 23 Nov 2020 21:42:34 +0000
parents	ee6166a3edd8
children	36bdf8b439ed

rev	line source
0 ebc08e5ce646 Uploaded greg parents: diff changeset	1 <tool id="vsnp_determine_ref_from_data" name="vSNP: determine reference" version="1.0.0">
ebc08e5ce646 Uploaded greg parents: diff changeset	2 <description>from input data</description>
ebc08e5ce646 Uploaded greg parents: diff changeset	3 <requirements>
ebc08e5ce646 Uploaded greg parents: diff changeset	4 <requirement type="package" version="1.76">biopython</requirement>
ebc08e5ce646 Uploaded greg parents: diff changeset	5 <requirement type="package" version="5.3">pyyaml</requirement>
ebc08e5ce646 Uploaded greg parents: diff changeset	6 </requirements>
ebc08e5ce646 Uploaded greg parents: diff changeset	7 <command detect_errors="exit_code"><![CDATA[
ebc08e5ce646 Uploaded greg parents: diff changeset	8 #import os
ebc08e5ce646 Uploaded greg parents: diff changeset	9 #import re
ebc08e5ce646 Uploaded greg parents: diff changeset	10 #set gzipped = 'false'
ebc08e5ce646 Uploaded greg parents: diff changeset	11 #set input_type = $input_type_cond.input_type
ebc08e5ce646 Uploaded greg parents: diff changeset	12 #set input_reads_dir = 'input_reads'
ebc08e5ce646 Uploaded greg parents: diff changeset	13 #set output_dbkey_dir = 'output_dbkey'
ebc08e5ce646 Uploaded greg parents: diff changeset	14 #set output_metrics_dir = 'output_metrics'
ebc08e5ce646 Uploaded greg parents: diff changeset	15 mkdir -p $input_reads_dir &&
ebc08e5ce646 Uploaded greg parents: diff changeset	16 mkdir -p $output_dbkey_dir &&
ebc08e5ce646 Uploaded greg parents: diff changeset	17 mkdir -p $output_metrics_dir &&
ebc08e5ce646 Uploaded greg parents: diff changeset	18 #if str($input_type) == "single":
ebc08e5ce646 Uploaded greg parents: diff changeset	19 #set read_type_cond = $input_type_cond.read_type_cond
ebc08e5ce646 Uploaded greg parents: diff changeset	20 #set read1 = $read_type_cond.read1
ebc08e5ce646 Uploaded greg parents: diff changeset	21 #set read1_identifier = re.sub('[^\s\w\-]', '_', str($read1.element_identifier))
ebc08e5ce646 Uploaded greg parents: diff changeset	22 #if str($read_type_cond.read_type) == "single":
ebc08e5ce646 Uploaded greg parents: diff changeset	23 ln -s '${read1}' '${read1_identifier}' &&
ebc08e5ce646 Uploaded greg parents: diff changeset	24 #if $read1.is_of_type('fastqsanger.gz'):
ebc08e5ce646 Uploaded greg parents: diff changeset	25 #set gzipped = 'true'
ebc08e5ce646 Uploaded greg parents: diff changeset	26 #end if
ebc08e5ce646 Uploaded greg parents: diff changeset	27 #else:
ebc08e5ce646 Uploaded greg parents: diff changeset	28 #set read2 = $read_type_cond.read2
ebc08e5ce646 Uploaded greg parents: diff changeset	29 #set read2_identifier = re.sub('[^\s\w\-]', '_', str($read2.element_identifier))
ebc08e5ce646 Uploaded greg parents: diff changeset	30 ln -s '${read1}' '${read1_identifier}' &&
ebc08e5ce646 Uploaded greg parents: diff changeset	31 ln -s '${read2}' '${read2_identifier}' &&
ebc08e5ce646 Uploaded greg parents: diff changeset	32 #if $read1.is_of_type('fastqsanger.gz') and $read2.is_of_type('fastqsanger.gz'):
ebc08e5ce646 Uploaded greg parents: diff changeset	33 #set gzipped = 'true'
ebc08e5ce646 Uploaded greg parents: diff changeset	34 #end if
ebc08e5ce646 Uploaded greg parents: diff changeset	35 #end if
ebc08e5ce646 Uploaded greg parents: diff changeset	36 #else:
3 6116deacb2c7 Uploaded greg parents: 2 diff changeset	37 #set collection_type = $input_type_cond.collection_type_cond.collection_type
1 bca267738b33 Uploaded greg parents: 0 diff changeset	38 #for $i in $input_type_cond.collection_type_cond.reads_collection:
0 ebc08e5ce646 Uploaded greg parents: diff changeset	39 #if $i.is_of_type('fastqsanger.gz'):
ebc08e5ce646 Uploaded greg parents: diff changeset	40 #set gzipped = 'true'
ebc08e5ce646 Uploaded greg parents: diff changeset	41 #end if
ebc08e5ce646 Uploaded greg parents: diff changeset	42 #set filename = $i.file_name
3 6116deacb2c7 Uploaded greg parents: 2 diff changeset	43 #if str($collection_type) == 'single_reads':
6116deacb2c7 Uploaded greg parents: 2 diff changeset	44 #set identifier = re.sub('[^\s\w\-]', '_', str($i.element_identifier))
6116deacb2c7 Uploaded greg parents: 2 diff changeset	45 #else:
6116deacb2c7 Uploaded greg parents: 2 diff changeset	46 ## Galaxy builds lists of pairs as nested lists with elements
6116deacb2c7 Uploaded greg parents: 2 diff changeset	47 ## named forward and reverse. When flattened, these lists
6116deacb2c7 Uploaded greg parents: 2 diff changeset	48 ## will work as inputs to the Parse parameter value expression
6116deacb2c7 Uploaded greg parents: 2 diff changeset	49 ## tool in workflows. However, the output list created by the
6116deacb2c7 Uploaded greg parents: 2 diff changeset	50 ## expression tool will not function correctly with the bwa_mem
6116deacb2c7 Uploaded greg parents: 2 diff changeset	51 ## mapper. Naming the identifier as follows is a solution.
6116deacb2c7 Uploaded greg parents: 2 diff changeset	52 #set identifier = re.sub('[^\s\w\-]', '_', str($i.name))
6116deacb2c7 Uploaded greg parents: 2 diff changeset	53 #end if
1 bca267738b33 Uploaded greg parents: 0 diff changeset	54 ln -s '$filename' '$input_reads_dir/$identifier' &&
0 ebc08e5ce646 Uploaded greg parents: diff changeset	55 #end for
ebc08e5ce646 Uploaded greg parents: diff changeset	56 #end if
ebc08e5ce646 Uploaded greg parents: diff changeset	57 python '$__tool_directory__/vsnp_determine_ref_from_data.py'
ebc08e5ce646 Uploaded greg parents: diff changeset	58 #if str($input_type) == "single":
ebc08e5ce646 Uploaded greg parents: diff changeset	59 #if str($read_type_cond.read_type) == "single":
ebc08e5ce646 Uploaded greg parents: diff changeset	60 --read1 '${read1_identifier}'
ebc08e5ce646 Uploaded greg parents: diff changeset	61 #else:
ebc08e5ce646 Uploaded greg parents: diff changeset	62 --read1 '${read1_identifier}'
ebc08e5ce646 Uploaded greg parents: diff changeset	63 --read2 '${read2_identifier}'
ebc08e5ce646 Uploaded greg parents: diff changeset	64 #end if
ebc08e5ce646 Uploaded greg parents: diff changeset	65 --output_dbkey '$output_dbkey'
ebc08e5ce646 Uploaded greg parents: diff changeset	66 --output_metrics '$output_metrics'
ebc08e5ce646 Uploaded greg parents: diff changeset	67 #end if
ebc08e5ce646 Uploaded greg parents: diff changeset	68 --gzipped $gzipped
ebc08e5ce646 Uploaded greg parents: diff changeset	69 --processes $processes
1 bca267738b33 Uploaded greg parents: 0 diff changeset	70 #if str($in_test_mode) == "false":
bca267738b33 Uploaded greg parents: 0 diff changeset	71 #set $dnaprint_fields = $__app__.tool_data_tables['vsnp_dnaprints'].get_fields()
bca267738b33 Uploaded greg parents: 0 diff changeset	72 #for $i in $dnaprint_fields:
bca267738b33 Uploaded greg parents: 0 diff changeset	73 --dnaprint_fields '${i[0]}' '${i[2]}'
bca267738b33 Uploaded greg parents: 0 diff changeset	74 #end for
bca267738b33 Uploaded greg parents: 0 diff changeset	75 #else:
bca267738b33 Uploaded greg parents: 0 diff changeset	76 --in_test_mode '$in_test_mode'
bca267738b33 Uploaded greg parents: 0 diff changeset	77 #end if
0 ebc08e5ce646 Uploaded greg parents: diff changeset	78 ]]></command>
ebc08e5ce646 Uploaded greg parents: diff changeset	79 <inputs>
ebc08e5ce646 Uploaded greg parents: diff changeset	80 <conditional name="input_type_cond">
ebc08e5ce646 Uploaded greg parents: diff changeset	81 <param name="input_type" type="select" label="Choose the category of the files to be analyzed">
ebc08e5ce646 Uploaded greg parents: diff changeset	82 <option value="single" selected="true">Single files</option>
1 bca267738b33 Uploaded greg parents: 0 diff changeset	83 <option value="collection">Collection of files</option>
0 ebc08e5ce646 Uploaded greg parents: diff changeset	84 </param>
ebc08e5ce646 Uploaded greg parents: diff changeset	85 <when value="single">
ebc08e5ce646 Uploaded greg parents: diff changeset	86 <conditional name="read_type_cond">
ebc08e5ce646 Uploaded greg parents: diff changeset	87 <param name="read_type" type="select" label="Choose the read type">
ebc08e5ce646 Uploaded greg parents: diff changeset	88 <option value="paired" selected="true">Paired</option>
ebc08e5ce646 Uploaded greg parents: diff changeset	89 <option value="single">Single</option>
ebc08e5ce646 Uploaded greg parents: diff changeset	90 </param>
ebc08e5ce646 Uploaded greg parents: diff changeset	91 <when value="paired">
ebc08e5ce646 Uploaded greg parents: diff changeset	92 <param name="read1" type="data" format="fastqsanger.gz,fastqsanger" label="Read1 fastq file"/>
ebc08e5ce646 Uploaded greg parents: diff changeset	93 <param name="read2" type="data" format="fastqsanger.gz,fastqsanger" label="Read2 fastq file"/>
ebc08e5ce646 Uploaded greg parents: diff changeset	94 </when>
ebc08e5ce646 Uploaded greg parents: diff changeset	95 <when value="single">
ebc08e5ce646 Uploaded greg parents: diff changeset	96 <param name="read1" type="data" format="fastqsanger.gz,fastqsanger" label="Read1 fastq file"/>
ebc08e5ce646 Uploaded greg parents: diff changeset	97 </when>
ebc08e5ce646 Uploaded greg parents: diff changeset	98 </conditional>
ebc08e5ce646 Uploaded greg parents: diff changeset	99 </when>
ebc08e5ce646 Uploaded greg parents: diff changeset	100 <when value="collection">
1 bca267738b33 Uploaded greg parents: 0 diff changeset	101 <conditional name="collection_type_cond">
bca267738b33 Uploaded greg parents: 0 diff changeset	102 <param name="collection_type" type="select" label="Collection of single reads or paired reads?">
bca267738b33 Uploaded greg parents: 0 diff changeset	103 <option value="single_reads" selected="true">Single reads</option>
bca267738b33 Uploaded greg parents: 0 diff changeset	104 <option value="paired_reads">Paired reads</option>
bca267738b33 Uploaded greg parents: 0 diff changeset	105 </param>
bca267738b33 Uploaded greg parents: 0 diff changeset	106 <when value="single_reads">
bca267738b33 Uploaded greg parents: 0 diff changeset	107 <param name="reads_collection" type="data_collection" format="fastqsanger,fastqsanger.gz" collection_type="list" label="Collection of fastqsanger files"/>
bca267738b33 Uploaded greg parents: 0 diff changeset	108 </when>
bca267738b33 Uploaded greg parents: 0 diff changeset	109 <when value="paired_reads">
bca267738b33 Uploaded greg parents: 0 diff changeset	110 <param name="reads_collection" type="data_collection" format="fastqsanger,fastqsanger.gz" collection_type="paired" label="Collection of fastqsanger paired read files"/>
bca267738b33 Uploaded greg parents: 0 diff changeset	111 </when>
bca267738b33 Uploaded greg parents: 0 diff changeset	112 </conditional>
0 ebc08e5ce646 Uploaded greg parents: diff changeset	113 </when>
ebc08e5ce646 Uploaded greg parents: diff changeset	114 </conditional>
ebc08e5ce646 Uploaded greg parents: diff changeset	115 <param name="processes" type="integer" min="1" max="20" value="8" label="Number of processes for job splitting"/>
1 bca267738b33 Uploaded greg parents: 0 diff changeset	116 <!-- Functional testing -->
bca267738b33 Uploaded greg parents: 0 diff changeset	117 <param name="in_test_mode" type="hidden" value="false"/>
0 ebc08e5ce646 Uploaded greg parents: diff changeset	118 </inputs>
ebc08e5ce646 Uploaded greg parents: diff changeset	119 <outputs>
ebc08e5ce646 Uploaded greg parents: diff changeset	120 <data name="output_dbkey" format="txt" label="${tool.name} (dbkey) on ${on_string}">
ebc08e5ce646 Uploaded greg parents: diff changeset	121 <filter>input_type_cond['input_type'] == 'single'</filter>
ebc08e5ce646 Uploaded greg parents: diff changeset	122 </data>
ebc08e5ce646 Uploaded greg parents: diff changeset	123 <data name="output_metrics" format="txt" label="${tool.name} (metrics) on ${on_string}">
ebc08e5ce646 Uploaded greg parents: diff changeset	124 <filter>input_type_cond['input_type'] == 'single'</filter>
ebc08e5ce646 Uploaded greg parents: diff changeset	125 </data>
2 ee6166a3edd8 Uploaded greg parents: 1 diff changeset	126 <collection name="output_dbkey_collection" type="list" label="${tool.name} (dbkey) on ${on_string}">
1 bca267738b33 Uploaded greg parents: 0 diff changeset	127 <discover_datasets pattern="__name__" directory="output_dbkey" format="txt"/>
0 ebc08e5ce646 Uploaded greg parents: diff changeset	128 <filter>input_type_cond['input_type'] == 'collection'</filter>
ebc08e5ce646 Uploaded greg parents: diff changeset	129 </collection>
2 ee6166a3edd8 Uploaded greg parents: 1 diff changeset	130 <collection name="output_metrics_collection" type="list" label="${tool.name} (metrics) on ${on_string}">
1 bca267738b33 Uploaded greg parents: 0 diff changeset	131 <discover_datasets pattern="__name__" directory="output_metrics" format="txt"/>
0 ebc08e5ce646 Uploaded greg parents: diff changeset	132 <filter>input_type_cond['input_type'] == 'collection'</filter>
ebc08e5ce646 Uploaded greg parents: diff changeset	133 </collection>
ebc08e5ce646 Uploaded greg parents: diff changeset	134 </outputs>
ebc08e5ce646 Uploaded greg parents: diff changeset	135 <tests>
ebc08e5ce646 Uploaded greg parents: diff changeset	136 <test>
1 bca267738b33 Uploaded greg parents: 0 diff changeset	137 <param name="in_test_mode" value="true"/>
bca267738b33 Uploaded greg parents: 0 diff changeset	138 <param name="read_type" value="single"/>
bca267738b33 Uploaded greg parents: 0 diff changeset	139 <param name="read1" value="Mcap_Deer_DE_SRR650221.fastq.gz" ftype="fastqsanger.gz"/>
0 ebc08e5ce646 Uploaded greg parents: diff changeset	140 <output name="output_dbkey" file="output_dbkey.txt" ftype="txt"/>
ebc08e5ce646 Uploaded greg parents: diff changeset	141 <output name="output_metrics" file="output_metrics.txt" ftype="txt"/>
ebc08e5ce646 Uploaded greg parents: diff changeset	142 </test>
1 bca267738b33 Uploaded greg parents: 0 diff changeset	143 <test>
bca267738b33 Uploaded greg parents: 0 diff changeset	144 <param name="in_test_mode" value="true"/>
bca267738b33 Uploaded greg parents: 0 diff changeset	145 <param name="input_type" value="collection"/>
bca267738b33 Uploaded greg parents: 0 diff changeset	146 <param name="collection_type" value="paired_reads"/>
bca267738b33 Uploaded greg parents: 0 diff changeset	147 <param name="reads_collection">
bca267738b33 Uploaded greg parents: 0 diff changeset	148 <collection type="paired">
bca267738b33 Uploaded greg parents: 0 diff changeset	149 <element name="forward" value="forward.fastq.gz" ftype="fastqsanger.gz"/>
bca267738b33 Uploaded greg parents: 0 diff changeset	150 <element name="reverse" value="reverse.fastq.gz" ftype="fastqsanger.gz"/>
bca267738b33 Uploaded greg parents: 0 diff changeset	151 </collection>
bca267738b33 Uploaded greg parents: 0 diff changeset	152 </param>
bca267738b33 Uploaded greg parents: 0 diff changeset	153 <output_collection name="output_dbkey_collection" type="list">
bca267738b33 Uploaded greg parents: 0 diff changeset	154 <element name="forward.txt" file="forward_dbkey.txt" ftype="txt"/>
bca267738b33 Uploaded greg parents: 0 diff changeset	155 <element name="reverse.txt" file="reverse_dbkey.txt" ftype="txt"/>
bca267738b33 Uploaded greg parents: 0 diff changeset	156 </output_collection>
bca267738b33 Uploaded greg parents: 0 diff changeset	157 <output_collection name="output_metrics_collection" type="list">
bca267738b33 Uploaded greg parents: 0 diff changeset	158 <element name="forward.txt" file="forward_metrics.txt" ftype="txt"/>
bca267738b33 Uploaded greg parents: 0 diff changeset	159 <element name="reverse.txt" file="reverse_metrics.txt" ftype="txt"/>
bca267738b33 Uploaded greg parents: 0 diff changeset	160 </output_collection>
bca267738b33 Uploaded greg parents: 0 diff changeset	161 </test>
0 ebc08e5ce646 Uploaded greg parents: diff changeset	162 </tests>
ebc08e5ce646 Uploaded greg parents: diff changeset	163 <help>
ebc08e5ce646 Uploaded greg parents: diff changeset	164 What it does
ebc08e5ce646 Uploaded greg parents: diff changeset	165
1 bca267738b33 Uploaded greg parents: 0 diff changeset	166 Accepts a single fastqsanger read, a set of paired reads, or a collection of reads and inspects the data to discover the
0 ebc08e5ce646 Uploaded greg parents: diff changeset	167 best reference genome for aligning the reads. This tool is, in essence, a DNA sniffer, and is the first Galaxy tool to
ebc08e5ce646 Uploaded greg parents: diff changeset	168 perform this task. While inspecting the data, a string of 0's and 1's is compiled based on the data contents, and we call
ebc08e5ce646 Uploaded greg parents: diff changeset	169 the complete string a "DNA print". All of the "DNA prints" files installed by the complementary **vSNP DNAprints data
ebc08e5ce646 Uploaded greg parents: diff changeset	170 manager** tool are then inspected to find a match for the compiled "DNA print" string. These files are each associated
ebc08e5ce646 Uploaded greg parents: diff changeset	171 with a Galaxy "dbkey" (i.e., genome build), so when a metach is found, the associated "dbkey" is passed to a mapper (e.g.,
ebc08e5ce646 Uploaded greg parents: diff changeset	172 Map with BWA-MEM) to align the reads to the associated reference.
ebc08e5ce646 Uploaded greg parents: diff changeset	173
ebc08e5ce646 Uploaded greg parents: diff changeset	174 The tool produces 2 text files, a "dbkey" file that contains the dbkey string and a "metrics" file that provides information
ebc08e5ce646 Uploaded greg parents: diff changeset	175 used to compile the "DNA print" string.
ebc08e5ce646 Uploaded greg parents: diff changeset	176
ebc08e5ce646 Uploaded greg parents: diff changeset	177 This tool is important for samples containing bacterial species because many of the samples have a "mixed bag" of species,
ebc08e5ce646 Uploaded greg parents: diff changeset	178 and discovering the primary species is critical. DNA print matchig is currently supported for the following genomes.
ebc08e5ce646 Uploaded greg parents: diff changeset	179
ebc08e5ce646 Uploaded greg parents: diff changeset	180 * Mycobacterium bovis AF2122/97
ebc08e5ce646 Uploaded greg parents: diff changeset	181 * Brucella abortus bv. 1 str. 9-941
ebc08e5ce646 Uploaded greg parents: diff changeset	182 * Brucella abortus strain BER
ebc08e5ce646 Uploaded greg parents: diff changeset	183 * Brucella canis ATCC 23365
ebc08e5ce646 Uploaded greg parents: diff changeset	184 * Brucella ceti TE10759-12
ebc08e5ce646 Uploaded greg parents: diff changeset	185 * Brucella melitensis bv. 1 str. 16M
ebc08e5ce646 Uploaded greg parents: diff changeset	186 * Brucella melitensis bv. 3 str. Ether
ebc08e5ce646 Uploaded greg parents: diff changeset	187 * Brucella melitensis BwIM_SOM_36b
ebc08e5ce646 Uploaded greg parents: diff changeset	188 * Brucella melitensis ATCC 23457
ebc08e5ce646 Uploaded greg parents: diff changeset	189 * Brucella ovis ATCC 25840
ebc08e5ce646 Uploaded greg parents: diff changeset	190 * Brucella suis 1330
ebc08e5ce646 Uploaded greg parents: diff changeset	191 * Mycobacterium tuberculosis H37Rv
ebc08e5ce646 Uploaded greg parents: diff changeset	192 * Mycobacterium avium subsp. paratuberculosis strain Telford
ebc08e5ce646 Uploaded greg parents: diff changeset	193 * Mycobacterium avium subsp. paratuberculosis K-10
ebc08e5ce646 Uploaded greg parents: diff changeset	194 * Brucella suis ATCC 23445
ebc08e5ce646 Uploaded greg parents: diff changeset	195 * Brucella suis bv. 3 str. 686
ebc08e5ce646 Uploaded greg parents: diff changeset	196
ebc08e5ce646 Uploaded greg parents: diff changeset	197 Required Options
ebc08e5ce646 Uploaded greg parents: diff changeset	198
1 bca267738b33 Uploaded greg parents: 0 diff changeset	199 * Choose the category of the files to be analyzed - select "Single files" or "Collection of files", then select the appropriate history items (single or paired fastqsanger reads or a collection of fastqsanger reads) based on the selected option.
0 ebc08e5ce646 Uploaded greg parents: diff changeset	200 * Number of processes for job splitting - Select the number of processes for splitting the job to shorten execution time.
ebc08e5ce646 Uploaded greg parents: diff changeset	201 </help>
ebc08e5ce646 Uploaded greg parents: diff changeset	202 <citations>
ebc08e5ce646 Uploaded greg parents: diff changeset	203 <citation type="bibtex">
ebc08e5ce646 Uploaded greg parents: diff changeset	204 @misc{None,
ebc08e5ce646 Uploaded greg parents: diff changeset	205 journal = {None},
ebc08e5ce646 Uploaded greg parents: diff changeset	206 author = {1. Stuber T},
ebc08e5ce646 Uploaded greg parents: diff changeset	207 title = {Manuscript in preparation},
ebc08e5ce646 Uploaded greg parents: diff changeset	208 year = {None},
ebc08e5ce646 Uploaded greg parents: diff changeset	209 url = {https://github.com/USDA-VS/vSNP},}
ebc08e5ce646 Uploaded greg parents: diff changeset	210 </citation>
ebc08e5ce646 Uploaded greg parents: diff changeset	211 </citations>
ebc08e5ce646 Uploaded greg parents: diff changeset	212 </tool>
ebc08e5ce646 Uploaded greg parents: diff changeset	213

Mercurial > repos > greg > vsnp_determine_ref_from_data

annotate vsnp_determine_ref_from_data.xml @ 3:6116deacb2c7 draft