nbic_fasta: ExtractPeptideSequenceContext.xml annotate

annotate ExtractPeptideSequenceContext.xml @ 0:163892325845 draft default tip

Initial commit.

author	galaxyp
date	Fri, 10 May 2013 17:15:08 -0400
parents
children

rev	line source
0 163892325845 Initial commit. galaxyp parents: diff changeset	1 <!--
163892325845 Initial commit. galaxyp parents: diff changeset	2 # =====================================================
163892325845 Initial commit. galaxyp parents: diff changeset	3 # $Id: ExtractPeptideSequenceContext.xml 90 2011-01-19 13:20:31Z pieter.neerincx@gmail.com $
163892325845 Initial commit. galaxyp parents: diff changeset	4 # $URL: https://trac.nbic.nl/svn/galaxytools/trunk/tools/general/FastaTools/ExtractPeptideSequenceContext.xml $
163892325845 Initial commit. galaxyp parents: diff changeset	5 # $LastChangedDate: 2011-01-19 07:20:31 -0600 (Wed, 19 Jan 2011) $
163892325845 Initial commit. galaxyp parents: diff changeset	6 # $LastChangedRevision: 90 $
163892325845 Initial commit. galaxyp parents: diff changeset	7 # $LastChangedBy: pieter.neerincx@gmail.com $
163892325845 Initial commit. galaxyp parents: diff changeset	8 # =====================================================
163892325845 Initial commit. galaxyp parents: diff changeset	9 -->
163892325845 Initial commit. galaxyp parents: diff changeset	10 <tool id="ExtractPeptideSequenceContext1" version="0.1" name="Extract Peptide Context">
163892325845 Initial commit. galaxyp parents: diff changeset	11 <description>by mapping peptides back to proteins and extending them on both termini to include their sequence context.</description>
163892325845 Initial commit. galaxyp parents: diff changeset	12 <command interpreter="perl">ExtractPeptideSequenceContext.pl --db $db --dbf FASTA --f $fragments --icol $icol --pcol $pcol $strip --pepo $pepo --n $n --c $c --pc '$pc' --ll WARN</command>
163892325845 Initial commit. galaxyp parents: diff changeset	13 <inputs>
163892325845 Initial commit. galaxyp parents: diff changeset	14 <param name="fragments" type="data" format="tabular" label="Peptide sequences and their protein's identifiers"
163892325845 Initial commit. galaxyp parents: diff changeset	15 help="(in tab delimited format)"/>
163892325845 Initial commit. galaxyp parents: diff changeset	16 <param name="icol" type="data_column" value="1" data_ref="fragments" label="Protein identifier column"/>
163892325845 Initial commit. galaxyp parents: diff changeset	17 <param name="pcol" type="data_column" value="2" data_ref="fragments" label="Peptide sequence column"/>
163892325845 Initial commit. galaxyp parents: diff changeset	18 <!--
163892325845 Initial commit. galaxyp parents: diff changeset	19 <param name="icol" type="integer" value="1" label="Protein identifier column"/>
163892325845 Initial commit. galaxyp parents: diff changeset	20 <param name="pcol" type="integer" value="2" label="Peptide sequence column"/>
163892325845 Initial commit. galaxyp parents: diff changeset	21 -->
163892325845 Initial commit. galaxyp parents: diff changeset	22 <param name="strip" type="select">
163892325845 Initial commit. galaxyp parents: diff changeset	23 <label>Lowercase characters in the peptide sequences represent</label>
163892325845 Initial commit. galaxyp parents: diff changeset	24 <option value="--s">Modifications</option>
163892325845 Initial commit. galaxyp parents: diff changeset	25 <option value="">Amino acids</option>
163892325845 Initial commit. galaxyp parents: diff changeset	26 </param>
163892325845 Initial commit. galaxyp parents: diff changeset	27 <param name="db" type="data" format="fasta" label="Protein sequences"
163892325845 Initial commit. galaxyp parents: diff changeset	28 help="(in FASTA format)"/>
163892325845 Initial commit. galaxyp parents: diff changeset	29 <param name="n" type="integer" value="5" label="N-terminal sequence context length"/>
163892325845 Initial commit. galaxyp parents: diff changeset	30 <param name="c" type="integer" value="5" label="C-terminal sequence context length"/>
163892325845 Initial commit. galaxyp parents: diff changeset	31 <param name="pc" type="select" help="to fill positions in the sequence context when the protein was too short for a full length context.">
163892325845 Initial commit. galaxyp parents: diff changeset	32 <label>Padding character</label>
163892325845 Initial commit. galaxyp parents: diff changeset	33 <option value="-">dash</option>
163892325845 Initial commit. galaxyp parents: diff changeset	34 <option value=" ">space</option>
163892325845 Initial commit. galaxyp parents: diff changeset	35 <option value="">none</option>
163892325845 Initial commit. galaxyp parents: diff changeset	36 </param>
163892325845 Initial commit. galaxyp parents: diff changeset	37 </inputs>
163892325845 Initial commit. galaxyp parents: diff changeset	38 <outputs>
163892325845 Initial commit. galaxyp parents: diff changeset	39 <data name="pepo" format="tabular" label="Peptide sequence contexts for ${fragments.name}"/>
163892325845 Initial commit. galaxyp parents: diff changeset	40 </outputs>
163892325845 Initial commit. galaxyp parents: diff changeset	41 <!--
163892325845 Initial commit. galaxyp parents: diff changeset	42 <tests>
163892325845 Initial commit. galaxyp parents: diff changeset	43 <test>
163892325845 Initial commit. galaxyp parents: diff changeset	44 <param name="input" value="*.fasta"/>
163892325845 Initial commit. galaxyp parents: diff changeset	45 <param name="identifiers" value="*.txt"/>
163892325845 Initial commit. galaxyp parents: diff changeset	46 <output name="output" file="*.fasta"/>
163892325845 Initial commit. galaxyp parents: diff changeset	47 </test>
163892325845 Initial commit. galaxyp parents: diff changeset	48 </tests>
163892325845 Initial commit. galaxyp parents: diff changeset	49 -->
163892325845 Initial commit. galaxyp parents: diff changeset	50 <help>
163892325845 Initial commit. galaxyp parents: diff changeset	51
163892325845 Initial commit. galaxyp parents: diff changeset	52 .. role:: raw-html(raw)
163892325845 Initial commit. galaxyp parents: diff changeset	53 :format: html
163892325845 Initial commit. galaxyp parents: diff changeset	54
163892325845 Initial commit. galaxyp parents: diff changeset	55 .. class:: infomark
163892325845 Initial commit. galaxyp parents: diff changeset	56
163892325845 Initial commit. galaxyp parents: diff changeset	57 What it does
163892325845 Initial commit. galaxyp parents: diff changeset	58
163892325845 Initial commit. galaxyp parents: diff changeset	59 Map peptide sequences back to proteins and extend the peptides on both termini to include their sequence context.
163892325845 Initial commit. galaxyp parents: diff changeset	60
163892325845 Initial commit. galaxyp parents: diff changeset	61 :raw-html:`<object data="static/images/nbic_gmr/ExtractPeptideSequenceContext.svg" type="image/svg+xml" width="100%"/>`
163892325845 Initial commit. galaxyp parents: diff changeset	62
163892325845 Initial commit. galaxyp parents: diff changeset	63 ===================================================
163892325845 Initial commit. galaxyp parents: diff changeset	64 Peptide sequences and their protein's identifiers
163892325845 Initial commit. galaxyp parents: diff changeset	65 ===================================================
163892325845 Initial commit. galaxyp parents: diff changeset	66
163892325845 Initial commit. galaxyp parents: diff changeset	67 This file must contain at least peptides and accession numbers or IDs of the proteins the peptides were derived from. \
163892325845 Initial commit. galaxyp parents: diff changeset	68 The data must be in TAB delimited format and may contain other columns, which will be preserved in the output. \
163892325845 Initial commit. galaxyp parents: diff changeset	69 If a sequence context was found, it will be appended in a new column to the right of the existing columns. \
163892325845 Initial commit. galaxyp parents: diff changeset	70 When another sequence context was found for the same peptide, it will appended as an extra row in the output.
163892325845 Initial commit. galaxyp parents: diff changeset	71 Protein accession numbers / IDs must be in the same format as was used in the FASTA file with protein sequences (database). \
163892325845 Initial commit. galaxyp parents: diff changeset	72 The only exception to this rule is that accession numbers / IDs may be optionally suffixed with the peptide\'s position in its protein between brackets. \
163892325845 Initial commit. galaxyp parents: diff changeset	73 For example: CLH1_HUMAN[1612-1620] will be matched to CLH1_HUMAN in a FASTA file with protein sequences. \
163892325845 Initial commit. galaxyp parents: diff changeset	74 Amino acids in the petide sequences must be in uppercase.
163892325845 Initial commit. galaxyp parents: diff changeset	75
163892325845 Initial commit. galaxyp parents: diff changeset	76 ===============================================
163892325845 Initial commit. galaxyp parents: diff changeset	77 Protein sequences
163892325845 Initial commit. galaxyp parents: diff changeset	78 ===============================================
163892325845 Initial commit. galaxyp parents: diff changeset	79
163892325845 Initial commit. galaxyp parents: diff changeset	80 Input file containing all protein sequences in FASTA format. \
163892325845 Initial commit. galaxyp parents: diff changeset	81 This tool will look for any type of protein ID in the first part of FASTA sequence headers up until the first white space. \
163892325845 Initial commit. galaxyp parents: diff changeset	82 Optionally multiple IDs may be present separated with pipe symbols (\|) or semicolons (;). \
163892325845 Initial commit. galaxyp parents: diff changeset	83 Optionally IDs may be prefixed with a database namespace and a colon (:). \
163892325845 Initial commit. galaxyp parents: diff changeset	84 For example the accession number P32234 as well as the ID 128UP_DROME would be recognized in both this sequence header:
163892325845 Initial commit. galaxyp parents: diff changeset	85
163892325845 Initial commit. galaxyp parents: diff changeset	86 >UniProtAcc:P32234\|UniProtID:128UP_DROME GTP-binding protein 128up - Drosophila melanogaster (Fruit fly)
163892325845 Initial commit. galaxyp parents: diff changeset	87
163892325845 Initial commit. galaxyp parents: diff changeset	88 and in this one:
163892325845 Initial commit. galaxyp parents: diff changeset	89
163892325845 Initial commit. galaxyp parents: diff changeset	90 >P32234\|128UP_DROME GTP-binding protein 128up - Drosophila melanogaster (Fruit fly)
163892325845 Initial commit. galaxyp parents: diff changeset	91
163892325845 Initial commit. galaxyp parents: diff changeset	92 ===================================================
163892325845 Initial commit. galaxyp parents: diff changeset	93 N-terminal and C-terminal sequence context length
163892325845 Initial commit. galaxyp parents: diff changeset	94 ===================================================
163892325845 Initial commit. galaxyp parents: diff changeset	95
163892325845 Initial commit. galaxyp parents: diff changeset	96 Integers specifying the length of the N-terminal and C-terminal sequence context to retrieve starting from the peptide termini. \
163892325845 Initial commit. galaxyp parents: diff changeset	97 So the total sequence context length for a peptide will be:
163892325845 Initial commit. galaxyp parents: diff changeset	98 (N-terminal sequence context) + (length of the peptide) + (C-terminal sequence context).
163892325845 Initial commit. galaxyp parents: diff changeset	99
163892325845 Initial commit. galaxyp parents: diff changeset	100 ===============================================
163892325845 Initial commit. galaxyp parents: diff changeset	101 Padding character
163892325845 Initial commit. galaxyp parents: diff changeset	102 ===============================================
163892325845 Initial commit. galaxyp parents: diff changeset	103
163892325845 Initial commit. galaxyp parents: diff changeset	104 Optional padding character to fill N-terminal or C-terminal positions in the sequence context, \
163892325845 Initial commit. galaxyp parents: diff changeset	105 when the protein was too short to get a complete sequence context. \
163892325845 Initial commit. galaxyp parents: diff changeset	106 Defaults to - a.k.a. dash or alignment gap character. \
163892325845 Initial commit. galaxyp parents: diff changeset	107
163892325845 Initial commit. galaxyp parents: diff changeset	108 -----
163892325845 Initial commit. galaxyp parents: diff changeset	109
163892325845 Initial commit. galaxyp parents: diff changeset	110 Getting input data
163892325845 Initial commit. galaxyp parents: diff changeset	111
163892325845 Initial commit. galaxyp parents: diff changeset	112 .. _my folder utility: http://mascotinternal.chem.uu.nl/mascot/cgi/uu_myfolder.pl
163892325845 Initial commit. galaxyp parents: diff changeset	113
163892325845 Initial commit. galaxyp parents: diff changeset	114 This tool requires \
163892325845 Initial commit. galaxyp parents: diff changeset	115 peptide sequences in TAB delimited format and \
163892325845 Initial commit. galaxyp parents: diff changeset	116 protein sequences from which the peptides were derived in FASTA format. \
163892325845 Initial commit. galaxyp parents: diff changeset	117 If your peptide sequences are not in TAB delimited format, you can convert from:
163892325845 Initial commit. galaxyp parents: diff changeset	118
163892325845 Initial commit. galaxyp parents: diff changeset	119 - FASTA format using FASTA manipulation -> FASTA-to-Tabular
163892325845 Initial commit. galaxyp parents: diff changeset	120 - A format using a different delimiter using Text Manipulation -> Convert
163892325845 Initial commit. galaxyp parents: diff changeset	121
163892325845 Initial commit. galaxyp parents: diff changeset	122 When your peptides were derived from a mass spectrometry experiment and identified with a search engine like Mascot, Sequest, etc.,\
163892325845 Initial commit. galaxyp parents: diff changeset	123 please make sure you provide the same FASTA database for this tool as the one used for your search.
163892325845 Initial commit. galaxyp parents: diff changeset	124 If you used Mascot hosted by the Biomolecular Mass Spectrometry and Proteomics Group @ Utrecht University, \
163892325845 Initial commit. galaxyp parents: diff changeset	125 you can use the `my folder utility`_ to download the FASTA databases from the Mascot server.
163892325845 Initial commit. galaxyp parents: diff changeset	126
163892325845 Initial commit. galaxyp parents: diff changeset	127 -----
163892325845 Initial commit. galaxyp parents: diff changeset	128
163892325845 Initial commit. galaxyp parents: diff changeset	129 Examples
163892325845 Initial commit. galaxyp parents: diff changeset	130
163892325845 Initial commit. galaxyp parents: diff changeset	131 Example input for peptides identified with a Mascot search, \
163892325845 Initial commit. galaxyp parents: diff changeset	132 some with phosphorylated residues indicated by pS, pT or pY \
163892325845 Initial commit. galaxyp parents: diff changeset	133 and in TAB delimited format::
163892325845 Initial commit. galaxyp parents: diff changeset	134
163892325845 Initial commit. galaxyp parents: diff changeset	135 sequence score peptide mr mass delta (abs) mass delta (ppm) all protein matches
163892325845 Initial commit. galaxyp parents: diff changeset	136 AGNAARDN 54.24 787.357254 -4.223E-5 -0.05334300253990 H2A1B_HUMAN[67-74]
163892325845 Initial commit. galaxyp parents: diff changeset	137 KLpSAAVVLI 11.48 912.600784 0.001608 1.7619971713721432 OSGI2_HUMAN[405-413]
163892325845 Initial commit. galaxyp parents: diff changeset	138 RAGIKVpTVA 23.01 913.570892 6.283E-5 0.06786555979719196 PARK7_HUMAN[28-36]
163892325845 Initial commit. galaxyp parents: diff changeset	139 KGGVVGIKVD 44.61 970.581146 -0.001214 -1.2507970147608864 P04075[101-110]
163892325845 Initial commit. galaxyp parents: diff changeset	140 KIKELQAF 11.87 975.575287 0.003907 4.00481649347068 O60882[71-78]
163892325845 Initial commit. galaxyp parents: diff changeset	141 KIpSGpTVNIR 57.17 986.587265 -0.002761 -2.798536022051734 SYTC_HUMAN[681-689]
163892325845 Initial commit. galaxyp parents: diff changeset	142 KLpYEALKF 17.54 1010.580032 0.004782 4.731935966057164 F105A_HUMAN[238-245]
163892325845 Initial commit. galaxyp parents: diff changeset	143 KLDApSEpSLR 31.31 1017.545441 -0.002377 -2.3360136110127785 CLH1_HUMAN[1612-1620]
163892325845 Initial commit. galaxyp parents: diff changeset	144
163892325845 Initial commit. galaxyp parents: diff changeset	145 ===============================================
163892325845 Initial commit. galaxyp parents: diff changeset	146 Appending peptide sequence contexts
163892325845 Initial commit. galaxyp parents: diff changeset	147 ===============================================
163892325845 Initial commit. galaxyp parents: diff changeset	148
163892325845 Initial commit. galaxyp parents: diff changeset	149 With these options:
163892325845 Initial commit. galaxyp parents: diff changeset	150
163892325845 Initial commit. galaxyp parents: diff changeset	151 - c6 as Protein identifier column
163892325845 Initial commit. galaxyp parents: diff changeset	152 - c1 as Peptide sequence column
163892325845 Initial commit. galaxyp parents: diff changeset	153 - 5 as N-terminal sequence context length
163892325845 Initial commit. galaxyp parents: diff changeset	154 - 5 as C-terminal sequence context length
163892325845 Initial commit. galaxyp parents: diff changeset	155 - a suitable FASTA database with Protein sequences
163892325845 Initial commit. galaxyp parents: diff changeset	156 - and everything else set to defaults
163892325845 Initial commit. galaxyp parents: diff changeset	157
163892325845 Initial commit. galaxyp parents: diff changeset	158 the example above will generate a result like this::
163892325845 Initial commit. galaxyp parents: diff changeset	159
163892325845 Initial commit. galaxyp parents: diff changeset	160 AGNAARDN 54.24 787.357254 -4.223E-5 -0.05334300253990 H2A1B_HUMAN[67-74] EILELAGNAARDNKKTRI
163892325845 Initial commit. galaxyp parents: diff changeset	161 KLpSAAVVLI 11.48 912.600784 0.001608 1.7619971713721432 OSGI2_HUMAN[405-413] LKKIFKLSAAVVLIGSHPN
163892325845 Initial commit. galaxyp parents: diff changeset	162 RAGIKVpTVA 23.01 913.570892 6.283E-5 0.06786555979719196 PARK7_HUMAN[28-36] VDVMRRAGIKVTVAGLAGK
163892325845 Initial commit. galaxyp parents: diff changeset	163 KGGVVGIKVD 44.61 970.581146 -0.001214 -1.2507970147608864 P04075[101-110] QVIKSKGGVVGIKVDKGVVP
163892325845 Initial commit. galaxyp parents: diff changeset	164 KIKELQAF 11.87 975.575287 0.003907 4.00481649347068 O60882[71-78] NSMIRKIKELQAFFGLQV
163892325845 Initial commit. galaxyp parents: diff changeset	165 KIpSGpTVNIR 57.17 986.587265 -0.002761 -2.798536022051734 SYTC_HUMAN[681-689] VGEKEKISGTVNIRTRDNK
163892325845 Initial commit. galaxyp parents: diff changeset	166 KLpYEALKF 17.54 1010.580032 0.004782 4.731935966057164 F105A_HUMAN[238-245] AILEYKLYEALKFIMLYQ
163892325845 Initial commit. galaxyp parents: diff changeset	167 KLDApSEpSLR 31.31 1017.545441 -0.002377 -2.3360136110127785 CLH1_HUMAN[1612-1620] LTKVDKLDASESLRKEEEQ
163892325845 Initial commit. galaxyp parents: diff changeset	168
163892325845 Initial commit. galaxyp parents: diff changeset	169 Note the header line was ignored.
163892325845 Initial commit. galaxyp parents: diff changeset	170
163892325845 Initial commit. galaxyp parents: diff changeset	171 </help>
163892325845 Initial commit. galaxyp parents: diff changeset	172 </tool>

Mercurial > repos > galaxyp > nbic_fasta

annotate ExtractPeptideSequenceContext.xml @ 0:163892325845 draft default tip