vsnp_get_snps: vsnp_get_snps.xml annotate

annotate vsnp_get_snps.xml @ 7:2286f3a13e4d draft

Uploaded

author	greg
date	Thu, 22 Jul 2021 18:02:12 +0000
parents	49aceeefab0a
children	5e4595b9f63c

rev	line source
7 2286f3a13e4d Uploaded greg parents: 6 diff changeset	1 <tool id="vsnp_get_snps" name="vSNP: get SNPs" version="@WRAPPER_VERSION@.0+galaxy0" profile="@PROFILE@">
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	2 <description></description>
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	3 <macros>
14285a94fb13 Uploaded greg parents: 2 diff changeset	4 <import>macros.xml</import>
14285a94fb13 Uploaded greg parents: 2 diff changeset	5 </macros>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	6 <requirements>
7 2286f3a13e4d Uploaded greg parents: 6 diff changeset	7 <requirement type="package" version="3.0.7">openpyxl</requirement>
2286f3a13e4d Uploaded greg parents: 6 diff changeset	8 <requirement type="package" version="1.3.0">pandas</requirement>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	9 <requirement type="package" version="0.6.8">pyvcf</requirement>
7 2286f3a13e4d Uploaded greg parents: 6 diff changeset	10 <requirement type="package" version="2.0.1">xlrd</requirement>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	11 </requirements>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	12 <command detect_errors="exit_code"><![CDATA[
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	13 #import re
14285a94fb13 Uploaded greg parents: 2 diff changeset	14
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	15 #set input_vcf_dir = 'input_vcf_dir'
ee4ef1fc23c6 Uploaded greg parents: diff changeset	16 #set output_json_avg_mq_dir = 'output_json_avg_mq_dir'
ee4ef1fc23c6 Uploaded greg parents: diff changeset	17 #set output_json_snps_dir = 'output_json_snps_dir'
ee4ef1fc23c6 Uploaded greg parents: diff changeset	18 #set output_snps_dir = 'output_snps_dir'
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	19
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	20 mkdir -p $input_vcf_dir &&
ee4ef1fc23c6 Uploaded greg parents: diff changeset	21 mkdir -p $output_json_avg_mq_dir &&
ee4ef1fc23c6 Uploaded greg parents: diff changeset	22 mkdir -p $output_json_snps_dir &&
ee4ef1fc23c6 Uploaded greg parents: diff changeset	23 mkdir -p $output_snps_dir &&
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	24
14285a94fb13 Uploaded greg parents: 2 diff changeset	25 #set dbkey = '?'
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	26 #for $i in $input_vcf_collection:
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	27 #if str($dbkey) == '?':
14285a94fb13 Uploaded greg parents: 2 diff changeset	28 #set dbkey = $i.metadata.dbkey
14285a94fb13 Uploaded greg parents: 2 diff changeset	29 #else if str($dbkey) != $i.metadata.dbkey:
14285a94fb13 Uploaded greg parents: 2 diff changeset	30 >&2 echo "The dbkeys associated with the zero coverage VCF files with SNPs found in closely related isolate groups are not unique" &&
14285a94fb13 Uploaded greg parents: 2 diff changeset	31 exit 1
14285a94fb13 Uploaded greg parents: 2 diff changeset	32 #end if
14285a94fb13 Uploaded greg parents: 2 diff changeset	33 #set vcf_identifier = re.sub('[^\s\w\-]', '_', str($i.element_identifier))
14285a94fb13 Uploaded greg parents: 2 diff changeset	34 ln -s '${i}' '$input_vcf_dir/${vcf_identifier}' &&
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	35 #end for
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	36 #if str($dbkey) == '?':
14285a94fb13 Uploaded greg parents: 2 diff changeset	37 >&2 echo "The dbkey must be set for the zero coverage VCF files with SNPs found in closely related isolate groups" && exit 1
14285a94fb13 Uploaded greg parents: 2 diff changeset	38 #end if
14285a94fb13 Uploaded greg parents: 2 diff changeset	39 #if str($input_zc_vcf_type_cond.input_zc_vcf_type) == "single":
14285a94fb13 Uploaded greg parents: 2 diff changeset	40 #set zc_vcf_identifier = re.sub('[^\s\w\-]', '_', str($input_zc_vcf.element_identifier))
14285a94fb13 Uploaded greg parents: 2 diff changeset	41 ln -s '${input_zc_vcf}' '$input_vcf_dir/${zc_vcf_identifier}' &&
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	42 #else
ee4ef1fc23c6 Uploaded greg parents: diff changeset	43 #for $i in $input_zc_vcf_type_cond.input_zc_vcf_collection:
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	44 #set zc_vcf_identifier = re.sub('[^\s\w\-]', '_', str($i.element_identifier))
14285a94fb13 Uploaded greg parents: 2 diff changeset	45 ln -s '${i}' '$input_vcf_dir/${zc_vcf_identifier}' &&
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	46 #end for
ee4ef1fc23c6 Uploaded greg parents: diff changeset	47 #end if
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	48 #if str($input_excel_cond.input_excel_param) == 'yes':
14285a94fb13 Uploaded greg parents: 2 diff changeset	49 #if str($input_excel_cond.excel_source_cond.excel_source) == 'cached':
14285a94fb13 Uploaded greg parents: 2 diff changeset	50 #set excel_file = 'No genome specified for input VCF (database) file(s)'
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	51 #set excel_fields = $__app__.tool_data_tables['vsnp_excel'].get_fields()
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	52 ## The value of excel_fields is a nested list that looks like this.
14285a94fb13 Uploaded greg parents: 2 diff changeset	53 ## [['AF2122', 'Mbovis_define_filter.xlsx', '~/tool-data/vsnp/AF2122/excel/Mbovis_define_filter.xlsx', 'Excel file for AF2122'],...]
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	54 #for $i in $excel_fields:
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	55 #if str($i[0]) == $dbkey:
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	56 #set excel_file = $i[2]
ee4ef1fc23c6 Uploaded greg parents: diff changeset	57 #break
ee4ef1fc23c6 Uploaded greg parents: diff changeset	58 #end if
ee4ef1fc23c6 Uploaded greg parents: diff changeset	59 #end for
ee4ef1fc23c6 Uploaded greg parents: diff changeset	60 #else:
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	61 #set excel_file = $input_excel_cond.excel_source_cond.input_excel
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	62 #end if
ee4ef1fc23c6 Uploaded greg parents: diff changeset	63 #end if
ee4ef1fc23c6 Uploaded greg parents: diff changeset	64 python '$__tool_directory__/vsnp_get_snps.py'
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	65 --ac $ac
14285a94fb13 Uploaded greg parents: 2 diff changeset	66 #if str($input_excel_cond.input_excel_param) == 'yes':
14285a94fb13 Uploaded greg parents: 2 diff changeset	67 --input_excel '$excel_file'
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	68 #end if
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	69 $all_isolates
14285a94fb13 Uploaded greg parents: 2 diff changeset	70 --input_vcf_dir '$input_vcf_dir'
14285a94fb13 Uploaded greg parents: 2 diff changeset	71 --min_mq $min_mq
14285a94fb13 Uploaded greg parents: 2 diff changeset	72 --min_quality_score $min_quality_score
14285a94fb13 Uploaded greg parents: 2 diff changeset	73 --output_json_avg_mq_dir '$output_json_avg_mq_dir'
14285a94fb13 Uploaded greg parents: 2 diff changeset	74 --output_json_snps_dir '$output_json_snps_dir'
14285a94fb13 Uploaded greg parents: 2 diff changeset	75 --output_snps_dir '$output_snps_dir'
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	76 --output_summary '$output_summary'
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	77 --processes \${GALAXY_SLOTS:-8}
14285a94fb13 Uploaded greg parents: 2 diff changeset	78 --quality_score_n_threshold $quality_score_n_threshold
14285a94fb13 Uploaded greg parents: 2 diff changeset	79 --dbkey '$dbkey'
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	80 ]]></command>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	81 <inputs>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	82 <conditional name="input_zc_vcf_type_cond">
ee4ef1fc23c6 Uploaded greg parents: diff changeset	83 <param name="input_zc_vcf_type" type="select" label="Choose the category of the files to be analyzed">
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	84 <option value="collection" selected="true">A collection of zero coverage VCF files</option>
14285a94fb13 Uploaded greg parents: 2 diff changeset	85 <option value="single">A single zero coverage VCF file</option>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	86 </param>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	87 <when value="single">
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	88 <param name="input_zc_vcf" type="data" format="vcf" label="Zero coverage VCF file"/>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	89 </when>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	90 <when value="collection">
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	91 <param name="input_zc_vcf_collection" format="vcf" type="data_collection" collection_type="list" label="Collection of zero coverage VCF files"/>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	92 </when>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	93 </conditional>
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	94 <param name="input_vcf_collection" format="vcf" type="data_collection" collection_type="list" label="Collection of zero coverage VCF files with SNPs found in closely related isolate groups"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	95 <param name="ac" type="integer" min="0" value="2" label="Allele count threshold" help="At least 1 position must have this value for a SNP to be added to a group"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	96 <param name="min_mq" type="integer" min="0" value="56" label="Map quality threshold" help="At least 1 position must have a higher MQ value for a SNP to be added to a group"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	97 <param name="min_quality_score" type="integer" min="0" value="150" label="Quality score threshold" help="At least 1 position must have a higher quality score for a SNP to be added to a group"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	98 <param name="quality_score_n_threshold" type="integer" min="0" value="150" label="Minimum quality score N value for alleles" help="Alleles are marked as N for quality scores between this value and the minimum quality score value above"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	99 <conditional name="input_excel_cond">
14285a94fb13 Uploaded greg parents: 2 diff changeset	100 <param name="input_excel_param" type="select" label="Use Excel file for grouping and filtering?">
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	101 <option value="yes" selected="true">Yes</option>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	102 <option value="no">No</option>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	103 </param>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	104 <when value="yes">
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	105 <conditional name="excel_source_cond">
14285a94fb13 Uploaded greg parents: 2 diff changeset	106 <param name="excel_source" type="select" label="Choose the source for the Excel file">
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	107 <option value="cached">locally cached</option>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	108 <option value="history">from history</option>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	109 </param>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	110 <when value="cached">
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	111 <param name="input_excel" type="select" label="Excel file">
14285a94fb13 Uploaded greg parents: 2 diff changeset	112 <options from_data_table="vsnp_excel">
7 2286f3a13e4d Uploaded greg parents: 6 diff changeset	113 <filter type="data_meta" column="0" key="dbkey" ref="input_vcf_collection"/>
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	114 <validator type="no_options" message="No built-in Excel grouping and filtering datasets are available"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	115 </options>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	116 </param>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	117 </when>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	118 <when value="history">
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	119 <param name="input_excel" type="data" format="xlsx" label="Excel file"/>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	120 </when>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	121 </conditional>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	122 </when>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	123 <when value="no"/>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	124 </conditional>
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	125 <param argument="all_isolates" type="boolean" truevalue="--all_isolates" falsevalue="" checked="false" label="Create a group containing all isolates?"/>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	126 </inputs>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	127 <outputs>
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	128 <collection name="snps" type="list" label="${tool.name} on ${on_string} (SNPs)">
14285a94fb13 Uploaded greg parents: 2 diff changeset	129 <discover_datasets pattern="__name_and_ext__" directory="output_snps_dir"/>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	130 </collection>
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	131 <collection name="json_avg_mq" type="list" label="${tool.name} on ${on_string} (average mq)">
14285a94fb13 Uploaded greg parents: 2 diff changeset	132 <discover_datasets pattern="__name_and_ext__" directory="output_json_avg_mq_dir"/>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	133 </collection>
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	134 <collection name="json_snps" type="list" label="${tool.name} on ${on_string} (SNPs as json)">
14285a94fb13 Uploaded greg parents: 2 diff changeset	135 <discover_datasets pattern="__name_and_ext__" directory="output_json_snps_dir"/>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	136 </collection>
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	137 <data name="output_summary" format="html" label="${tool.name} on ${on_string} (summary)"/>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	138 </outputs>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	139 <tests>
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	140 <!--
14285a94fb13 Uploaded greg parents: 2 diff changeset	141 Unfortunately the test files cannot be gzipped since Galaxy changes the file names
14285a94fb13 Uploaded greg parents: 2 diff changeset	142 to be something like 00-0121_WI_Cervid_99-A_vcf_gz, and the VCF Reader requires
14285a94fb13 Uploaded greg parents: 2 diff changeset	143 gzipped files to have a .gz extension. The exception is
14285a94fb13 Uploaded greg parents: 2 diff changeset	144 UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
14285a94fb13 Uploaded greg parents: 2 diff changeset	145 -->
14285a94fb13 Uploaded greg parents: 2 diff changeset	146 <!-- A single vcf input, no excel file, all_isolates is False -->
14285a94fb13 Uploaded greg parents: 2 diff changeset	147 <test expect_num_outputs="4">
14285a94fb13 Uploaded greg parents: 2 diff changeset	148 <param name="input_zc_vcf_type" value="single"/>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	149 <param name="input_zc_vcf" value="input_zc_vcf.vcf" ftype="vcf" dbkey="89"/>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	150 <param name="input_vcf_collection">
ee4ef1fc23c6 Uploaded greg parents: diff changeset	151 <collection type="list">
ee4ef1fc23c6 Uploaded greg parents: diff changeset	152 <element name="SRR8073662_zc.vcf" value="SRR8073662_zc.vcf" dbkey="89"/>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	153 <element name="SRR1792272_zc.vcf" value="SRR1792272_zc.vcf" dbkey="89"/>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	154 </collection>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	155 </param>
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	156 <param name="input_excel_param" value="no"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	157 <output_collection name="snps" type="list" count="1">
14285a94fb13 Uploaded greg parents: 2 diff changeset	158 <element name="all_vcf" file="all_vcf.fasta" ftype="fasta" compare="contains"/>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	159 </output_collection>
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	160 <output_collection name="json_avg_mq" type="list" count="1">
14285a94fb13 Uploaded greg parents: 2 diff changeset	161 <element name="all_vcf" file="json_avg_mq_all_vcf.json" ftype="json" compare="contains"/>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	162 </output_collection>
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	163 <output_collection name="json_snps" type="list" count="1">
14285a94fb13 Uploaded greg parents: 2 diff changeset	164 <element name="all_vcf" file="json_all_vcf.json" ftype="json" compare="contains"/>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	165 </output_collection>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	166 <output name="output_summary" file="output_summary.html" ftype="html" compare="contains"/>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	167 </test>
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	168 <!-- An input collection, no excel file, all_isolates is False -->
14285a94fb13 Uploaded greg parents: 2 diff changeset	169 <test expect_num_outputs="4">
14285a94fb13 Uploaded greg parents: 2 diff changeset	170 <param name="input_zc_vcf_type" value="collection"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	171 <param name="input_zc_vcf_collection">
14285a94fb13 Uploaded greg parents: 2 diff changeset	172 <collection type="list">
14285a94fb13 Uploaded greg parents: 2 diff changeset	173 <element name="BCG_Pasteur_Unknown_FR_SRR8886989.vcf" value="BCG_Pasteur_Unknown_FR_SRR8886989.vcf" dbkey="89"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	174 <element name="BCG_Tokyo_Unknown_JP_DRR029468.vcf" value="BCG_Tokyo_Unknown_JP_DRR029468.vcf" dbkey="89"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	175 </collection>
14285a94fb13 Uploaded greg parents: 2 diff changeset	176 </param>
14285a94fb13 Uploaded greg parents: 2 diff changeset	177 <param name="input_vcf_collection">
14285a94fb13 Uploaded greg parents: 2 diff changeset	178 <collection type="list">
14285a94fb13 Uploaded greg parents: 2 diff changeset	179 <element name="01_1787_FL_Zoo_Jaguar.vcf" value="01_1787_FL_Zoo_Jaguar.vcf" dbkey="89"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	180 <element name="02_5877_MEX_TX_Fed.vcf" value="02_5877_MEX_TX_Fed.vcf" dbkey="89"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	181 <element name="02_0585_COA_TX_Fed.vcf" value="02_0585_COA_TX_Fed.vcf" dbkey="89"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	182 </collection>
14285a94fb13 Uploaded greg parents: 2 diff changeset	183 </param>
14285a94fb13 Uploaded greg parents: 2 diff changeset	184 <param name="input_excel_param" value="no"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	185 <output_collection name="snps" type="list" count="1">
14285a94fb13 Uploaded greg parents: 2 diff changeset	186 <element name="all_vcf" file="all_vcf2.fasta" ftype="fasta" compare="contains"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	187 </output_collection>
14285a94fb13 Uploaded greg parents: 2 diff changeset	188 <output_collection name="json_avg_mq" type="list" count="1">
7 2286f3a13e4d Uploaded greg parents: 6 diff changeset	189 <element name="all_vcf" file="json_avg_mq_all_vcf.json" ftype="json" compare="contains"/>
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	190 </output_collection>
14285a94fb13 Uploaded greg parents: 2 diff changeset	191 <output_collection name="json_snps" type="list" count="1">
7 2286f3a13e4d Uploaded greg parents: 6 diff changeset	192 <element name="all_vcf" file="json_all_vcf.json" ftype="json" compare="contains"/>
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	193 </output_collection>
14285a94fb13 Uploaded greg parents: 2 diff changeset	194 <output name="output_summary" file="output_summary2.html" ftype="html" compare="contains"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	195 </test>
14285a94fb13 Uploaded greg parents: 2 diff changeset	196 <!-- An input collection, an excel file, all_isolates is False -->
14285a94fb13 Uploaded greg parents: 2 diff changeset	197 <test expect_num_outputs="4">
14285a94fb13 Uploaded greg parents: 2 diff changeset	198 <param name="input_zc_vcf_type" value="collection"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	199 <param name="input_zc_vcf_collection">
14285a94fb13 Uploaded greg parents: 2 diff changeset	200 <collection type="list">
14285a94fb13 Uploaded greg parents: 2 diff changeset	201 <element name="BCG_Pasteur_Unknown_FR_SRR8886989.vcf" value="BCG_Pasteur_Unknown_FR_SRR8886989.vcf" dbkey="89"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	202 <element name="BCG_Tokyo_Unknown_JP_DRR029468.vcf" value="BCG_Tokyo_Unknown_JP_DRR029468.vcf" dbkey="89"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	203 </collection>
14285a94fb13 Uploaded greg parents: 2 diff changeset	204 </param>
14285a94fb13 Uploaded greg parents: 2 diff changeset	205 <param name="input_vcf_collection">
14285a94fb13 Uploaded greg parents: 2 diff changeset	206 <collection type="list">
14285a94fb13 Uploaded greg parents: 2 diff changeset	207 <element name="01_1787_FL_Zoo_Jaguar.vcf" value="01_1787_FL_Zoo_Jaguar.vcf" dbkey="89"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	208 <element name="02_5877_MEX_TX_Fed.vcf" value="02_5877_MEX_TX_Fed.vcf" dbkey="89"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	209 <element name="02_0585_COA_TX_Fed.vcf" value="02_0585_COA_TX_Fed.vcf" dbkey="89"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	210 </collection>
14285a94fb13 Uploaded greg parents: 2 diff changeset	211 </param>
14285a94fb13 Uploaded greg parents: 2 diff changeset	212 <param name="input_excel_param" value="yes"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	213 <param name="input_excel" value="89"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	214 <output_collection name="snps" type="list" count="1">
14285a94fb13 Uploaded greg parents: 2 diff changeset	215 <element name="Mbovis-17" file="Mbovis-17_snps.fasta" ftype="fasta"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	216 </output_collection>
14285a94fb13 Uploaded greg parents: 2 diff changeset	217 <output_collection name="json_avg_mq" type="list" count="1">
14285a94fb13 Uploaded greg parents: 2 diff changeset	218 <element name="Mbovis-17" file="Mbovis-17_avg_mq_json.json" ftype="json" compare="contains"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	219 </output_collection>
14285a94fb13 Uploaded greg parents: 2 diff changeset	220 <output_collection name="json_snps" type="list" count="1">
14285a94fb13 Uploaded greg parents: 2 diff changeset	221 <element name="Mbovis-17" file="Mbovis-17_snps_json.json" ftype="json" compare="contains"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	222 </output_collection>
14285a94fb13 Uploaded greg parents: 2 diff changeset	223 <output name="output_summary" file="output_summary3.html" ftype="html" compare="contains"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	224 </test>
14285a94fb13 Uploaded greg parents: 2 diff changeset	225 <!-- An input collection, an excel file, all_isolates is True -->
14285a94fb13 Uploaded greg parents: 2 diff changeset	226 <test expect_num_outputs="4">
14285a94fb13 Uploaded greg parents: 2 diff changeset	227 <param name="input_zc_vcf_type" value="collection"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	228 <param name="input_zc_vcf_collection">
14285a94fb13 Uploaded greg parents: 2 diff changeset	229 <collection type="list">
14285a94fb13 Uploaded greg parents: 2 diff changeset	230 <element name="BCG_Pasteur_Unknown_FR_SRR8886989.vcf" value="BCG_Pasteur_Unknown_FR_SRR8886989.vcf" dbkey="89"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	231 <element name="BCG_Tokyo_Unknown_JP_DRR029468.vcf" value="BCG_Tokyo_Unknown_JP_DRR029468.vcf" dbkey="89"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	232 </collection>
14285a94fb13 Uploaded greg parents: 2 diff changeset	233 </param>
14285a94fb13 Uploaded greg parents: 2 diff changeset	234 <param name="input_vcf_collection">
14285a94fb13 Uploaded greg parents: 2 diff changeset	235 <collection type="list">
14285a94fb13 Uploaded greg parents: 2 diff changeset	236 <element name="01_1787_FL_Zoo_Jaguar.vcf" value="01_1787_FL_Zoo_Jaguar.vcf" dbkey="89"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	237 <element name="02_5877_MEX_TX_Fed.vcf" value="02_5877_MEX_TX_Fed.vcf" dbkey="89"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	238 <element name="02_0585_COA_TX_Fed.vcf" value="02_0585_COA_TX_Fed.vcf" dbkey="89"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	239 </collection>
14285a94fb13 Uploaded greg parents: 2 diff changeset	240 </param>
14285a94fb13 Uploaded greg parents: 2 diff changeset	241 <param name="input_excel_param" value="yes"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	242 <param name="input_excel" value="89"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	243 <param name="all_isolates" value="--all_isolates"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	244 <output_collection name="snps" type="list" count="2">
14285a94fb13 Uploaded greg parents: 2 diff changeset	245 <element name="Mbovis-17" file="Mbovis-17_snps.fasta" ftype="fasta"/>
7 2286f3a13e4d Uploaded greg parents: 6 diff changeset	246 <element name="all_vcf" file="all_vcf2.fasta" ftype="fasta" compare="contains"/>
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	247 </output_collection>
14285a94fb13 Uploaded greg parents: 2 diff changeset	248 <output_collection name="json_avg_mq" type="list" count="2">
14285a94fb13 Uploaded greg parents: 2 diff changeset	249 <element name="Mbovis-17" file="Mbovis-17_avg_mq_json.json" ftype="json" compare="contains"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	250 <element name="all_vcf" file="Mbovis-17_avg_mq_json.json" ftype="json" compare="contains"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	251 </output_collection>
14285a94fb13 Uploaded greg parents: 2 diff changeset	252 <output_collection name="json_snps" type="list" count="2">
14285a94fb13 Uploaded greg parents: 2 diff changeset	253 <element name="Mbovis-17" file="Mbovis-17_snps_json.json" ftype="json" compare="contains"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	254 <element name="all_vcf" file="Mbovis-17_snps_json.json" ftype="json" compare="contains"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	255 </output_collection>
14285a94fb13 Uploaded greg parents: 2 diff changeset	256 <output name="output_summary" file="output_summary4.html" ftype="html" compare="contains"/>
14285a94fb13 Uploaded greg parents: 2 diff changeset	257 </test>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	258 </tests>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	259 <help>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	260 What it does
ee4ef1fc23c6 Uploaded greg parents: diff changeset	261
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	262 Accepts a zero coverage VCF file produced by the vSNP: add zero coverage tool (or a collection of them) along with a collection
14285a94fb13 Uploaded greg parents: 2 diff changeset	263 of zero coverage VCF files that have been aligned with the same reference and contain SNPs called between closely related isolate groups.
14285a94fb13 Uploaded greg parents: 2 diff changeset	264 The tool produces fasta files containing SNP alignments, json files containing the SNP positions and additional json files containing
14285a94fb13 Uploaded greg parents: 2 diff changeset	265 the average map quality values.
14285a94fb13 Uploaded greg parents: 2 diff changeset	266
14285a94fb13 Uploaded greg parents: 2 diff changeset	267 The SNP alignments produced by this tool are used to create phylogenetic trees, so larger input collections result in more populated
14285a94fb13 Uploaded greg parents: 2 diff changeset	268 phylogenetic trees. Both of the json outputs are used by the vSNP: build tables tool to produce annotated SNP tables in the form
14285a94fb13 Uploaded greg parents: 2 diff changeset	269 of Excel spreadsheets.
14285a94fb13 Uploaded greg parents: 2 diff changeset	270
14285a94fb13 Uploaded greg parents: 2 diff changeset	271 An Excel spreadsheet containing specified SNPs can optiomally be used to filter desired SNP positions by group. Users can choose a
14285a94fb13 Uploaded greg parents: 2 diff changeset	272 locally cached Excel spreadsheet or one from their current history.
14285a94fb13 Uploaded greg parents: 2 diff changeset	273
14285a94fb13 Uploaded greg parents: 2 diff changeset	274 A SNP is added to a group if it has at least one position with a specified allele count value, a quality score greater than a specified
14285a94fb13 Uploaded greg parents: 2 diff changeset	275 value, and a map quality greater than a specified value.
14285a94fb13 Uploaded greg parents: 2 diff changeset	276
14285a94fb13 Uploaded greg parents: 2 diff changeset	277 If the allele count equals the specified value (2) and the quality score for a SNP position is greater than the minimum quality score
14285a94fb13 Uploaded greg parents: 2 diff changeset	278 value (150), the alternate allele is called.
14285a94fb13 Uploaded greg parents: 2 diff changeset	279
14285a94fb13 Uploaded greg parents: 2 diff changeset	280 However, if the allele count is 1, the position is called ambiguous. Deletions are called when the alternate allele is a gap. If the
14285a94fb13 Uploaded greg parents: 2 diff changeset	281 quality score is less than or equal to the minimum quality score N value for alleles (150), the allele is marked "N".
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	282
ee4ef1fc23c6 Uploaded greg parents: diff changeset	283 Required Options
ee4ef1fc23c6 Uploaded greg parents: diff changeset	284
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	285 * Zero coverage VCF file(s) - Select a single or collection of zero coverage VCF files, typically produced by the vSNP: add zero coverage tool, from the current history.
14285a94fb13 Uploaded greg parents: 2 diff changeset	286 * Collection of zero coverage VCF files with SNPs found in closely related isolate groups - Select a dataset collection of zero coverage vcf files from the current history.
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	287
ee4ef1fc23c6 Uploaded greg parents: diff changeset	288 Additional Options
ee4ef1fc23c6 Uploaded greg parents: diff changeset	289
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	290 * Allele count threshold - At least 1 position must have an allele count greater than this value for a SNP to be added to a group (2 is optimal).
14285a94fb13 Uploaded greg parents: 2 diff changeset	291 * Map quality threshold - At least 1 position must have a higher MQ value for a SNP to be added to a group (56 is optimal).
14285a94fb13 Uploaded greg parents: 2 diff changeset	292 * Quality score threshold -At least 1 position must have a higher quality score for a SNP to be added to a group (150 is optimal).
14285a94fb13 Uploaded greg parents: 2 diff changeset	293 * Minimum quality score N value for alleles - If none of the avove 3 requirements is met and the quality score is less than or equal to the minimum quality score N value for alleles, the allele is marked "N" (150 is optimal).
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	294 * Use Excel file for grouping and filtering? - select Yes to filter desired SNP positions by group. A cached Excel spreadsheet provides the most widely used SNP positions for grouping, but a custom spreadhseet can be selected from the current history.
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	295 * Create a group containing all isolates? - select Yes to output an additional group containing of all isolates.
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	296 </help>
3 14285a94fb13 Uploaded greg parents: 2 diff changeset	297 <expand macro="citations"/>
0 ee4ef1fc23c6 Uploaded greg parents: diff changeset	298 </tool>
ee4ef1fc23c6 Uploaded greg parents: diff changeset	299

Mercurial > repos > greg > vsnp_get_snps

annotate vsnp_get_snps.xml @ 7:2286f3a13e4d draft