nbic_fasta: ExtractMiscleavageSiteSequenceContext.xml annotate

annotate ExtractMiscleavageSiteSequenceContext.xml @ 0:163892325845 draft default tip

Initial commit.

author	galaxyp
date	Fri, 10 May 2013 17:15:08 -0400
parents
children

rev	line source
0 163892325845 Initial commit. galaxyp parents: diff changeset	1 <!--
163892325845 Initial commit. galaxyp parents: diff changeset	2 # =====================================================
163892325845 Initial commit. galaxyp parents: diff changeset	3 # $Id: ExtractMiscleavageSiteSequenceContext.xml 90 2011-01-19 13:20:31Z pieter.neerincx@gmail.com $
163892325845 Initial commit. galaxyp parents: diff changeset	4 # $URL: https://trac.nbic.nl/svn/galaxytools/trunk/tools/general/FastaTools/ExtractMiscleavageSiteSequenceContext.xml $
163892325845 Initial commit. galaxyp parents: diff changeset	5 # $LastChangedDate: 2011-01-19 07:20:31 -0600 (Wed, 19 Jan 2011) $
163892325845 Initial commit. galaxyp parents: diff changeset	6 # $LastChangedRevision: 90 $
163892325845 Initial commit. galaxyp parents: diff changeset	7 # $LastChangedBy: pieter.neerincx@gmail.com $
163892325845 Initial commit. galaxyp parents: diff changeset	8 # =====================================================
163892325845 Initial commit. galaxyp parents: diff changeset	9 -->
163892325845 Initial commit. galaxyp parents: diff changeset	10 <tool id="ExtractPeptideSequenceContext3" version="2.1" name="Extract Miscleavage Site Context">
163892325845 Initial commit. galaxyp parents: diff changeset	11 <description>by mapping peptides back to proteins and fetching the regions surrounding missed cleavage sites.</description>
163892325845 Initial commit. galaxyp parents: diff changeset	12 <command interpreter="perl">ExtractPeptideSequenceContext.pl --db $db --dbf FASTA --f $fragments --icol $icol --pcol $pcol $strip --miso $miso --ca $ca --ct $ct --n $n --c $c --pc '$pc' --ll WARN</command>
163892325845 Initial commit. galaxyp parents: diff changeset	13 <inputs>
163892325845 Initial commit. galaxyp parents: diff changeset	14 <param name="fragments" type="data" format="tabular" label="Peptide sequences and their protein's identifiers"
163892325845 Initial commit. galaxyp parents: diff changeset	15 help="(in tab delimited format)"/>
163892325845 Initial commit. galaxyp parents: diff changeset	16 <param name="icol" type="data_column" value="1" data_ref="fragments" label="Protein identifier column"/>
163892325845 Initial commit. galaxyp parents: diff changeset	17 <param name="pcol" type="data_column" value="2" data_ref="fragments" label="Peptide sequence column"/>
163892325845 Initial commit. galaxyp parents: diff changeset	18 <!--
163892325845 Initial commit. galaxyp parents: diff changeset	19 <param name="icol" type="integer" value="1" label="Protein identifier column"/>
163892325845 Initial commit. galaxyp parents: diff changeset	20 <param name="pcol" type="integer" value="2" label="Peptide sequence column"/>
163892325845 Initial commit. galaxyp parents: diff changeset	21 -->
163892325845 Initial commit. galaxyp parents: diff changeset	22 <param name="strip" type="select">
163892325845 Initial commit. galaxyp parents: diff changeset	23 <label>Lowercase characters in the peptide sequences represent</label>
163892325845 Initial commit. galaxyp parents: diff changeset	24 <option value="--s">Modifications</option>
163892325845 Initial commit. galaxyp parents: diff changeset	25 <option value="">Amino acids</option>
163892325845 Initial commit. galaxyp parents: diff changeset	26 </param>
163892325845 Initial commit. galaxyp parents: diff changeset	27 <param name="db" type="data" format="fasta" label="Protein sequences"
163892325845 Initial commit. galaxyp parents: diff changeset	28 help="(in FASTA format)"/>
163892325845 Initial commit. galaxyp parents: diff changeset	29 <param name="n" type="integer" value="5" label="N-terminal sequence context length"/>
163892325845 Initial commit. galaxyp parents: diff changeset	30 <param name="c" type="integer" value="5" label="C-terminal sequence context length"/>
163892325845 Initial commit. galaxyp parents: diff changeset	31 <param name="pc" type="select" help="to fill positions in the sequence context when the protein was too short for a full length context.">
163892325845 Initial commit. galaxyp parents: diff changeset	32 <label>Padding character</label>
163892325845 Initial commit. galaxyp parents: diff changeset	33 <option value="-">dash</option>
163892325845 Initial commit. galaxyp parents: diff changeset	34 <option value=" ">space</option>
163892325845 Initial commit. galaxyp parents: diff changeset	35 <option value="">none</option>
163892325845 Initial commit. galaxyp parents: diff changeset	36 </param>
163892325845 Initial commit. galaxyp parents: diff changeset	37 <param name="ca" type="select">
163892325845 Initial commit. galaxyp parents: diff changeset	38 <label>Protease should recognize amino acid</label>
163892325845 Initial commit. galaxyp parents: diff changeset	39 <option value="A">A</option>
163892325845 Initial commit. galaxyp parents: diff changeset	40 <!--<option value="B">B</option>-->
163892325845 Initial commit. galaxyp parents: diff changeset	41 <option value="C">C</option>
163892325845 Initial commit. galaxyp parents: diff changeset	42 <option value="D">D</option>
163892325845 Initial commit. galaxyp parents: diff changeset	43 <option value="E">E</option>
163892325845 Initial commit. galaxyp parents: diff changeset	44 <option value="F">F</option>
163892325845 Initial commit. galaxyp parents: diff changeset	45 <option value="G">G</option>
163892325845 Initial commit. galaxyp parents: diff changeset	46 <option value="H">H</option>
163892325845 Initial commit. galaxyp parents: diff changeset	47 <option value="I">I</option>
163892325845 Initial commit. galaxyp parents: diff changeset	48 <!--<option value="J">J</option>-->
163892325845 Initial commit. galaxyp parents: diff changeset	49 <option value="K">K</option>
163892325845 Initial commit. galaxyp parents: diff changeset	50 <option value="L">L</option>
163892325845 Initial commit. galaxyp parents: diff changeset	51 <option value="M">M</option>
163892325845 Initial commit. galaxyp parents: diff changeset	52 <option value="N">N</option>
163892325845 Initial commit. galaxyp parents: diff changeset	53 <!--<option value="O">O</option>-->
163892325845 Initial commit. galaxyp parents: diff changeset	54 <option value="P">P</option>
163892325845 Initial commit. galaxyp parents: diff changeset	55 <option value="Q">Q</option>
163892325845 Initial commit. galaxyp parents: diff changeset	56 <option value="R">R</option>
163892325845 Initial commit. galaxyp parents: diff changeset	57 <option value="S">S</option>
163892325845 Initial commit. galaxyp parents: diff changeset	58 <option value="T">T</option>
163892325845 Initial commit. galaxyp parents: diff changeset	59 <!--<option value="U">U</option>-->
163892325845 Initial commit. galaxyp parents: diff changeset	60 <option value="V">V</option>
163892325845 Initial commit. galaxyp parents: diff changeset	61 <option value="W">W</option>
163892325845 Initial commit. galaxyp parents: diff changeset	62 <!--<option value="*">X</option>-->
163892325845 Initial commit. galaxyp parents: diff changeset	63 <option value="Y">Y</option>
163892325845 Initial commit. galaxyp parents: diff changeset	64 <!--<option value="Z">Z</option>-->
163892325845 Initial commit. galaxyp parents: diff changeset	65 </param>
163892325845 Initial commit. galaxyp parents: diff changeset	66 <param name="ct" type="select">
163892325845 Initial commit. galaxyp parents: diff changeset	67 <label>Protease should have cleaved</label>
163892325845 Initial commit. galaxyp parents: diff changeset	68 <option value="C">C-terminal of the recognized amino acid</option>
163892325845 Initial commit. galaxyp parents: diff changeset	69 <option value="N">N-terminal of the recognized amino acid</option>
163892325845 Initial commit. galaxyp parents: diff changeset	70 </param>
163892325845 Initial commit. galaxyp parents: diff changeset	71 </inputs>
163892325845 Initial commit. galaxyp parents: diff changeset	72 <outputs>
163892325845 Initial commit. galaxyp parents: diff changeset	73 <data name="miso" format="tabular" label="Miscleavage site sequence contexts for ${fragments.name}"/>
163892325845 Initial commit. galaxyp parents: diff changeset	74 </outputs>
163892325845 Initial commit. galaxyp parents: diff changeset	75 <!--
163892325845 Initial commit. galaxyp parents: diff changeset	76 <tests>
163892325845 Initial commit. galaxyp parents: diff changeset	77 <test>
163892325845 Initial commit. galaxyp parents: diff changeset	78 <param name="input" value="*.fasta"/>
163892325845 Initial commit. galaxyp parents: diff changeset	79 <param name="identifiers" value="*.txt"/>
163892325845 Initial commit. galaxyp parents: diff changeset	80 <output name="output" file="*.fasta"/>
163892325845 Initial commit. galaxyp parents: diff changeset	81 </test>
163892325845 Initial commit. galaxyp parents: diff changeset	82 </tests>
163892325845 Initial commit. galaxyp parents: diff changeset	83 -->
163892325845 Initial commit. galaxyp parents: diff changeset	84 <help>
163892325845 Initial commit. galaxyp parents: diff changeset	85
163892325845 Initial commit. galaxyp parents: diff changeset	86 .. role:: raw-html(raw)
163892325845 Initial commit. galaxyp parents: diff changeset	87 :format: html
163892325845 Initial commit. galaxyp parents: diff changeset	88
163892325845 Initial commit. galaxyp parents: diff changeset	89 .. class:: infomark
163892325845 Initial commit. galaxyp parents: diff changeset	90
163892325845 Initial commit. galaxyp parents: diff changeset	91 What it does
163892325845 Initial commit. galaxyp parents: diff changeset	92
163892325845 Initial commit. galaxyp parents: diff changeset	93 Map peptide sequences back to proteins and extract sequence contexts for miscleavage sites.
163892325845 Initial commit. galaxyp parents: diff changeset	94
163892325845 Initial commit. galaxyp parents: diff changeset	95 :raw-html:`<object data="static/images/nbic_gmr/ExtractMiscleavageSiteSequenceContext.svg" type="image/svg+xml" width="100%"/>`
163892325845 Initial commit. galaxyp parents: diff changeset	96
163892325845 Initial commit. galaxyp parents: diff changeset	97 ===================================================
163892325845 Initial commit. galaxyp parents: diff changeset	98 Peptide sequences and their protein's identifiers
163892325845 Initial commit. galaxyp parents: diff changeset	99 ===================================================
163892325845 Initial commit. galaxyp parents: diff changeset	100
163892325845 Initial commit. galaxyp parents: diff changeset	101 This file must contain at least peptides and accession numbers or IDs of the proteins the peptides were derived from. \
163892325845 Initial commit. galaxyp parents: diff changeset	102 The data must be in TAB delimited format and may contain other columns, which will be preserved in the output. \
163892325845 Initial commit. galaxyp parents: diff changeset	103 If a sequence context was found, it will be appended in a new column to the right of the existing columns. \
163892325845 Initial commit. galaxyp parents: diff changeset	104 When another sequence context was found for the same peptide, it will appended as an extra row in the output.
163892325845 Initial commit. galaxyp parents: diff changeset	105 Protein accession numbers / IDs must be in the same format as was used in the FASTA file with protein sequences (database). \
163892325845 Initial commit. galaxyp parents: diff changeset	106 The only exception to this rule is that accession numbers / IDs may be optionally suffixed with the peptide\'s position in its protein between brackets. \
163892325845 Initial commit. galaxyp parents: diff changeset	107 For example: CLH1_HUMAN[1612-1620] will be matched to CLH1_HUMAN in a FASTA file with protein sequences. \
163892325845 Initial commit. galaxyp parents: diff changeset	108 Amino acids in the petide sequences must be in uppercase.
163892325845 Initial commit. galaxyp parents: diff changeset	109
163892325845 Initial commit. galaxyp parents: diff changeset	110 ===============================================
163892325845 Initial commit. galaxyp parents: diff changeset	111 Protein sequences
163892325845 Initial commit. galaxyp parents: diff changeset	112 ===============================================
163892325845 Initial commit. galaxyp parents: diff changeset	113
163892325845 Initial commit. galaxyp parents: diff changeset	114 Input file containing all protein sequences in FASTA format. \
163892325845 Initial commit. galaxyp parents: diff changeset	115 This tool will look for any type of protein ID in the first part of FASTA sequence headers up until the first white space. \
163892325845 Initial commit. galaxyp parents: diff changeset	116 Optionally multiple IDs may be present separated with pipe symbols (\|) or semicolons (;). \
163892325845 Initial commit. galaxyp parents: diff changeset	117 Optionally IDs may be prefixed with a database namespace and a colon (:). \
163892325845 Initial commit. galaxyp parents: diff changeset	118 For example the accession number P32234 as well as the ID 128UP_DROME would be recognized in both this sequence header:
163892325845 Initial commit. galaxyp parents: diff changeset	119
163892325845 Initial commit. galaxyp parents: diff changeset	120 >UniProtAcc:P32234\|UniProtID:128UP_DROME GTP-binding protein 128up - Drosophila melanogaster (Fruit fly)
163892325845 Initial commit. galaxyp parents: diff changeset	121
163892325845 Initial commit. galaxyp parents: diff changeset	122 and in this one:
163892325845 Initial commit. galaxyp parents: diff changeset	123
163892325845 Initial commit. galaxyp parents: diff changeset	124 >P32234\|128UP_DROME GTP-binding protein 128up - Drosophila melanogaster (Fruit fly)
163892325845 Initial commit. galaxyp parents: diff changeset	125
163892325845 Initial commit. galaxyp parents: diff changeset	126 ===================================================
163892325845 Initial commit. galaxyp parents: diff changeset	127 N-terminal and C-terminal sequence context length
163892325845 Initial commit. galaxyp parents: diff changeset	128 ===================================================
163892325845 Initial commit. galaxyp parents: diff changeset	129
163892325845 Initial commit. galaxyp parents: diff changeset	130 Integers specifying the length of the N-terminal and C-terminal sequence context to retrieve starting from the modification site. \
163892325845 Initial commit. galaxyp parents: diff changeset	131 Note that the width of a miscleavage site is 0 amino acids. \
163892325845 Initial commit. galaxyp parents: diff changeset	132 When defaults are used for both the N-terminal and C-terminal sequence context lengths, \
163892325845 Initial commit. galaxyp parents: diff changeset	133 the total sequence context length for a miscleavage site will be:
163892325845 Initial commit. galaxyp parents: diff changeset	134 (N-terminal sequence context) + (C-terminal sequence context) = 5 + 5 = 10.
163892325845 Initial commit. galaxyp parents: diff changeset	135
163892325845 Initial commit. galaxyp parents: diff changeset	136 ===============================================
163892325845 Initial commit. galaxyp parents: diff changeset	137 Cleavage amino acid and terminus
163892325845 Initial commit. galaxyp parents: diff changeset	138 ===============================================
163892325845 Initial commit. galaxyp parents: diff changeset	139
163892325845 Initial commit. galaxyp parents: diff changeset	140 This tool assumes the peptides were derived from cutting with a proteolytic enzyme, \
163892325845 Initial commit. galaxyp parents: diff changeset	141 that should have cut on the cleavage terminal side of all cleavage amino acids. \
163892325845 Initial commit. galaxyp parents: diff changeset	142
163892325845 Initial commit. galaxyp parents: diff changeset	143 ===============================================
163892325845 Initial commit. galaxyp parents: diff changeset	144 Padding character
163892325845 Initial commit. galaxyp parents: diff changeset	145 ===============================================
163892325845 Initial commit. galaxyp parents: diff changeset	146
163892325845 Initial commit. galaxyp parents: diff changeset	147 Optional padding character to fill N-terminal or C-terminal positions in the sequence context, \
163892325845 Initial commit. galaxyp parents: diff changeset	148 when the protein was too short to get a complete sequence context. \
163892325845 Initial commit. galaxyp parents: diff changeset	149 Defaults to - a.k.a. dash or alignment gap character. \
163892325845 Initial commit. galaxyp parents: diff changeset	150
163892325845 Initial commit. galaxyp parents: diff changeset	151 -----
163892325845 Initial commit. galaxyp parents: diff changeset	152
163892325845 Initial commit. galaxyp parents: diff changeset	153 Getting input data
163892325845 Initial commit. galaxyp parents: diff changeset	154
163892325845 Initial commit. galaxyp parents: diff changeset	155 .. _my folder utility: http://mascotinternal.chem.uu.nl/mascot/cgi/uu_myfolder.pl
163892325845 Initial commit. galaxyp parents: diff changeset	156
163892325845 Initial commit. galaxyp parents: diff changeset	157 This tool requires \
163892325845 Initial commit. galaxyp parents: diff changeset	158 peptide sequences in TAB delimited format and \
163892325845 Initial commit. galaxyp parents: diff changeset	159 protein sequences from which the peptides were derived in FASTA format. \
163892325845 Initial commit. galaxyp parents: diff changeset	160 If your peptide sequences are not in TAB delimited format, you can convert from:
163892325845 Initial commit. galaxyp parents: diff changeset	161
163892325845 Initial commit. galaxyp parents: diff changeset	162 - FASTA format using FASTA manipulation -> FASTA-to-Tabular
163892325845 Initial commit. galaxyp parents: diff changeset	163 - A format using a different delimiter using Text Manipulation -> Convert
163892325845 Initial commit. galaxyp parents: diff changeset	164
163892325845 Initial commit. galaxyp parents: diff changeset	165 When your peptides were derived from a mass spectrometry experiment and identified with a search engine like Mascot, Sequest, etc.,\
163892325845 Initial commit. galaxyp parents: diff changeset	166 please make sure you provide the same FASTA database for this tool as the one used for your search.
163892325845 Initial commit. galaxyp parents: diff changeset	167 If you used Mascot hosted by the Biomolecular Mass Spectrometry and Proteomics Group @ Utrecht University, \
163892325845 Initial commit. galaxyp parents: diff changeset	168 you can use the `my folder utility`_ to download the FASTA databases from the Mascot server.
163892325845 Initial commit. galaxyp parents: diff changeset	169
163892325845 Initial commit. galaxyp parents: diff changeset	170 -----
163892325845 Initial commit. galaxyp parents: diff changeset	171
163892325845 Initial commit. galaxyp parents: diff changeset	172 Examples
163892325845 Initial commit. galaxyp parents: diff changeset	173
163892325845 Initial commit. galaxyp parents: diff changeset	174 Example input for peptides identified with a Mascot search, \
163892325845 Initial commit. galaxyp parents: diff changeset	175 some with phosphorylated residues indicated by pS, pT or pY \
163892325845 Initial commit. galaxyp parents: diff changeset	176 and in TAB delimited format::
163892325845 Initial commit. galaxyp parents: diff changeset	177
163892325845 Initial commit. galaxyp parents: diff changeset	178 sequence score peptide mr mass delta (abs) mass delta (ppm) all protein matches
163892325845 Initial commit. galaxyp parents: diff changeset	179 AGNAARDN 54.24 787.357254 -4.223E-5 -0.05334300253998803 H2A1B_HUMAN[67-74]; H2A1C_HUMAN[67-74]; H2A1D_HUMAN[67-74]
163892325845 Initial commit. galaxyp parents: diff changeset	180 KLpSAAVVLI 11.48 912.600784 0.001608 1.7619971713721432 OSGI2_HUMAN[405-413]
163892325845 Initial commit. galaxyp parents: diff changeset	181 RAGIKVpTVA 23.01 913.570892 6.283E-5 0.06786555979719196 PARK7_HUMAN[28-36]
163892325845 Initial commit. galaxyp parents: diff changeset	182 KGGVVGIKVD 44.61 970.581146 -0.001214 -1.2507970147608864 ALDOA_HUMAN[101-110]
163892325845 Initial commit. galaxyp parents: diff changeset	183 KIKELQAF 11.87 975.575287 0.003907 4.004816493470687 MMP20_HUMAN[71-78]
163892325845 Initial commit. galaxyp parents: diff changeset	184 KIpSGpTVNIR 57.17 986.587265 -0.002761 -2.798536022051734 SYTC_HUMAN[681-689]
163892325845 Initial commit. galaxyp parents: diff changeset	185 KLpYEALKF 17.54 1010.580032 0.004782 4.731935966057164 F105A_HUMAN[238-245]
163892325845 Initial commit. galaxyp parents: diff changeset	186 KLDApSEpSLR 31.31 1017.545441 -0.002377 -2.3360136110127785 CLH1_HUMAN[1612-1620]
163892325845 Initial commit. galaxyp parents: diff changeset	187
163892325845 Initial commit. galaxyp parents: diff changeset	188 ===============================================
163892325845 Initial commit. galaxyp parents: diff changeset	189 Appending miscleavage site sequence contexts
163892325845 Initial commit. galaxyp parents: diff changeset	190 ===============================================
163892325845 Initial commit. galaxyp parents: diff changeset	191
163892325845 Initial commit. galaxyp parents: diff changeset	192 With these options:
163892325845 Initial commit. galaxyp parents: diff changeset	193
163892325845 Initial commit. galaxyp parents: diff changeset	194 - K as the amino acid the protease should have recognized
163892325845 Initial commit. galaxyp parents: diff changeset	195 - N-terminal as the side of the recognized amino where the protease should have cleaved.
163892325845 Initial commit. galaxyp parents: diff changeset	196 - c6 as Protein identifier column
163892325845 Initial commit. galaxyp parents: diff changeset	197 - c1 as Peptide sequence column
163892325845 Initial commit. galaxyp parents: diff changeset	198 - a suitable FASTA database with Protein sequences
163892325845 Initial commit. galaxyp parents: diff changeset	199 - and everything else set to defaults
163892325845 Initial commit. galaxyp parents: diff changeset	200
163892325845 Initial commit. galaxyp parents: diff changeset	201 the example above will generate a result like this::
163892325845 Initial commit. galaxyp parents: diff changeset	202
163892325845 Initial commit. galaxyp parents: diff changeset	203 RAGIKVpTVA 23.01 913.570892 6.283E-5 0.06786555979719196 PARK7_HUMAN[28-36] RRAGIKVTVA
163892325845 Initial commit. galaxyp parents: diff changeset	204 KGGVVGIKVD 44.61 970.581146 -0.001214 -1.2507970147608864 ALDOA_HUMAN[101-110] GVVGIKVDKG
163892325845 Initial commit. galaxyp parents: diff changeset	205 KIKELQAF 11.87 975.575287 0.003907 4.004816493470687 MMP20_HUMAN[71-78] MIRKIKELQA
163892325845 Initial commit. galaxyp parents: diff changeset	206 KLpYEALKF 17.54 1010.580032 0.004782 4.731935966057164 F105A_HUMAN[238-245] LYEALKFIML
163892325845 Initial commit. galaxyp parents: diff changeset	207
163892325845 Initial commit. galaxyp parents: diff changeset	208 Note the header line was ignored and if peptides have more than one miscleavage site they will occur more than once in the output.
163892325845 Initial commit. galaxyp parents: diff changeset	209
163892325845 Initial commit. galaxyp parents: diff changeset	210 </help>
163892325845 Initial commit. galaxyp parents: diff changeset	211 </tool>

Mercurial > repos > galaxyp > nbic_fasta

annotate ExtractMiscleavageSiteSequenceContext.xml @ 0:163892325845 draft default tip