picard: picard_MarkDuplicatesWithMateCigar.xml annotate

author	avowinkel
date	Mon, 06 Jul 2015 14:46:32 -0400
parents
children

rev	line source
0 5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	1 <tool name="MarkDuplicatesWithMateCigar" id="picard_MarkDuplicatesWithMateCigar" version="1.135">
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	2 <description>examine aligned records in BAM datasets to locate duplicate molecules</description>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	3 <macros>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	4 <import>picard_macros.xml</import>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	5 </macros>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	6 <expand macro="requirements" />
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	7 <command>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	8 @java_options@
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	9
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	10 java -jar \$JAVA_JAR_PATH/picard.jar
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	11 MarkDuplicatesWithMateCigar
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	12
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	13 INPUT="${inputFile}"
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	14 OUTPUT="${outFile}"
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	15
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	16 METRICS_FILE="${metrics_file}"
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	17 COMMENT="${comment}"
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	18
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	19 MINIMUM_DISTANCE="${minimum_distance}"
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	20 SKIP_PAIRS_WITH_NO_MATE_CIGAR="${skip_pairs_with_no_mate_cigar}"
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	21
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	22
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	23 REMOVE_DUPLICATES="${remove_duplicates}"
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	24 ASSUME_SORTED="${assume_sorted}"
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	25
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	26 DUPLICATE_SCORING_STRATEGY="${duplicate_scoring_strategy}"
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	27
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	28 #import pipes
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	29 READ_NAME_REGEX=${ pipes.quote( str( $read_name_regex ) ) or "''" }
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	30 OPTICAL_DUPLICATE_PIXEL_DISTANCE="${optical_duplicate_pixel_distance}"
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	31
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	32
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	33 BLOCK_SIZE=100000
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	34 VALIDATION_STRINGENCY="${validation_stringency}"
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	35 QUIET=true
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	36 VERBOSITY=ERROR
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	37
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	38 </command>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	39 <inputs>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	40 <param format="bam" name="inputFile" type="data" label="Select SAM/BAM dataset or dataset collection" help="If empty, upload or import a SAM/BAM dataset"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	41 <param name="comment" type="text" size="50" label="Add this comment to BAM dataset"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	42
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	43 <param name="minimum_distance" type="integer" value="-1" label="The minimum distance to buffer records to account for clipping on the 5' end of the records" help="MINIMUM_DISTANCE; Set this number to -1 to use twice the first read's read length (or 100, whichever is smaller); default=-1"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	44 <param name="skip_pairs_with_no_mate_cigar" type="boolean" checked="true" truevalue="true" falsevalue="false" label="Skip record pairs with no mate cigar and include them in the output" help="SKIP_PAIRS_WITH_NO_MATE_CIGAR; default=True"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	45 <param name="remove_duplicates" type="boolean" label="If true do not write duplicates to the output file instead of writing them with appropriate flags set" help="REMOVE_DUPLICATES; default=False"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	46 <param name="assume_sorted" type="boolean" label="Assume the input file is already sorted" checked="true" truevalue="true" falsevalue="false" help="ASSUME_SORTED; default=True"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	47
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	48 <param name="duplicate_scoring_strategy" type="select" label="The scoring strategy for choosing the non-duplicate among candidates" help="DUPLICATE_SCORING_STRATEGY; default=TOTAL_MAPPED_REFERENCE_LENGTH">
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	49 <option value="TOTAL_MAPPED_REFERENCE_LENGTH" select="True">TOTAL_MAPPED_REFERENCE_LENGTH</option>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	50 <option value="SUM_OF_BASE_QUALITIES">SUM_OF_BASE_QUALITIES</option>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	51 </param>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	52
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	53
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	54 <param name="read_name_regex" type="text" size="40" value="[a-zA-Z0-9]+:[0-9]:([0-9]+):([0-9]+):([0-9]+).." label="Regular expression that can be used to parse read names in the incoming SAM/BAM dataset" help="READ_NAME_REGEX; Read names are parsed to extract three variables: tile/region, x coordinate and y coordinate. These values are used to estimate the rate of optical duplication in order to give a more accurate estimated library size. See help below for more info; default=[a-zA-Z0-9]+:[0-9]:([0-9]+):([0-9]+):([0-9]+)..">
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	55 <sanitizer>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	56 <valid initial="string.printable">
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	57 </valid>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	58 </sanitizer>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	59 </param>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	60 <param name="optical_duplicate_pixel_distance" type="integer" value="100" min="0" max="500" label="The maximum offset between two duplicte clusters in order to consider them optical duplicates" help="OPTICAL_DUPLICATE_PIXEL_DISTANCE; default=100"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	61
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	62 <expand macro="VS" />
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	63
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	64 </inputs>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	65
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	66 <outputs>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	67 <data format="txt" name="metrics_file" label="${tool.name} on ${on_string}: MarkDuplicate metrics"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	68 <data format="bam" name="outFile" label="${tool.name} on ${on_string}: MarkDuplicates BAM output"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	69 </outputs>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	70
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	71 <tests>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	72 <test>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	73 <param name="inputFile" value="picard_MarkDuplicatesWithMateCigar.bam" ftype="bam"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	74 <param name="minimum_distance" value="-1"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	75 <param name="skip_pairs_with_no_mate_cigar" value="True"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	76 <param name="comment" value="test-run"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	77 <param name="assume_sorted" value="True"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	78 <param name="remove_duplicates" value="False"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	79 <param name="read_name_regex" value="[a-zA-Z0-9]+:[0-9]:([0-9]+):([0-9]+):([0-9]+).*."/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	80 <param name="optical_duplicate_pixel_distance" value="100"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	81 <param name="duplicate_scoring_strategy" value="TOTAL_MAPPED_REFERENCE_LENGTH"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	82 <param name="validation_stringency" value="LENIENT"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	83 <output name="outFile" file="picard_MarkDuplicatesWithMateCigar_test1.bam" ftype="bam" lines_diff="4"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	84 </test>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	85 </tests>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	86
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	87 <stdio>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	88 <exit_code range="1:" level="fatal"/>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	89 </stdio>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	90
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	91 <help>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	92
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	93 Purpose
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	94
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	95 Examines aligned records in the supplied SAM or BAM dataset to locate duplicate molecules. All records are then written to the output file with the duplicate records flagged.
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	96
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	97 ------
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	98
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	99 .. class:: warningmark
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	100
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	101 On the difference between MarkDuplicates and picard_MarkDuplicatesWithMateCigar
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	102
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	103 From Samtools Announce MailingList_:
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	104
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	105 This tool can replace MarkDuplicates if the input SAM/BAM has Mate CIGAR (MC) optional tags pre-computed
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	106 (see the tools RevertOriginalBaseQualitiesAndAddMateCigar and FixMateInformation). This allows the new tool
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	107 to perform a streaming duplicate marking routine (i.e. a single-pass). This tool cannot be used with
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	108 alignments that have large gaps or reference skips, which happens frequently in RNA-seq data.
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	109
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	110 .. _MailingList: http://sourceforge.net/p/samtools/mailman/message/32910359/
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	111
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	112 @dataset_collections@
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	113
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	114 @description@
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	115
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	116 MINIMUM_DISTANCE=Integer The minimum distance to buffer records to account for clipping on the 5' end of the
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	117 records.Set this number to -1 to use twice the first read's read length (or 100,
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	118 whichever is smaller). Default value: -1. This option can be set to 'null' to clear the
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	119 default value.
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	120
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	121 SKIP_PAIRS_WITH_NO_MATE_CIGAR=Boolean
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	122 Skip record pairs with no mate cigar and include them in the output. Default value:
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	123 true. This option can be set to 'null' to clear the default value. Possible values:
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	124 {true, false}
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	125
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	126 COMMENT=String
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	127 CO=String Comment(s) to include in the output file's header. This option may be specified 0 or
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	128 more times.
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	129
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	130 REMOVE_DUPLICATES=Boolean If true do not write duplicates to the output file instead of writing them with
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	131 appropriate flags set. Default value: false.
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	132
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	133 READ_NAME_REGEX=String Regular expression that can be used to parse read names in the incoming SAM file. Read
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	134 names are parsed to extract three variables: tile/region, x coordinate and y coordinate.
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	135 These values are used to estimate the rate of optical duplication in order to give a more
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	136 accurate estimated library size. Set this option to null to disable optical duplicate
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	137 detection. The regular expression should contain three capture groups for the three
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	138 variables, in order. It must match the entire read name. Note that if the default regex
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	139 is specified, a regex match is not actually done, but instead the read name is split on
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	140 colon character. For 5 element names, the 3rd, 4th and 5th elements are assumed to be
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	141 tile, x and y values. For 7 element names (CASAVA 1.8), the 5th, 6th, and 7th elements
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	142 are assumed to be tile, x and y values. Default value:
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	143 [a-zA-Z0-9]+:[0-9]:([0-9]+):([0-9]+):([0-9]+).*.
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	144
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	145 DUPLICATE_SCORING_STRATEGY=ScoringStrategy
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	146 DS=ScoringStrategy The scoring strategy for choosing the non-duplicate among candidates. Default value:
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	147 TOTAL_MAPPED_REFERENCE_LENGTH. Possible values: {SUM_OF_BASE_QUALITIES, TOTAL_MAPPED_REFERENCE_LENGTH}
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	148
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	149 OPTICAL_DUPLICATE_PIXEL_DISTANCE=Integer
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	150 The maximum offset between two duplicte clusters in order to consider them optical
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	151 duplicates. This should usually be set to some fairly small number (e.g. 5-10 pixels)
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	152 unless using later versions of the Illumina pipeline that multiply pixel values by 10, in
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	153 which case 50-100 is more normal. Default value: 100.
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	154
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	155 @more_info@
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	156
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	157 </help>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	158 </tool>
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	159
5166ed57b1c4 Uploaded version 1.135 avowinkel parents: diff changeset	160

0

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

1 <tool name="MarkDuplicatesWithMateCigar" id="picard_MarkDuplicatesWithMateCigar" version="1.135">

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

2 <description>examine aligned records in BAM datasets to locate duplicate molecules</description>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

3 <macros>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

4 <import>picard_macros.xml</import>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

5 </macros>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

6 <expand macro="requirements" />

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

7 <command>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

8 @java_options@

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

9

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

10 java -jar \$JAVA_JAR_PATH/picard.jar

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

11 MarkDuplicatesWithMateCigar

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

12

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

13 INPUT="${inputFile}"

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

14 OUTPUT="${outFile}"

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

15

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

16 METRICS_FILE="${metrics_file}"

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

17 COMMENT="${comment}"

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

18

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

19 MINIMUM_DISTANCE="${minimum_distance}"

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

20 SKIP_PAIRS_WITH_NO_MATE_CIGAR="${skip_pairs_with_no_mate_cigar}"

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

21

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

22

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

23 REMOVE_DUPLICATES="${remove_duplicates}"

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

24 ASSUME_SORTED="${assume_sorted}"

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

25

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

26 DUPLICATE_SCORING_STRATEGY="${duplicate_scoring_strategy}"

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

27

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

28 #import pipes

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

29 READ_NAME_REGEX=${ pipes.quote( str( $read_name_regex ) ) or "''" }

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

30 OPTICAL_DUPLICATE_PIXEL_DISTANCE="${optical_duplicate_pixel_distance}"

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

31

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

32

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

33 BLOCK_SIZE=100000

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

34 VALIDATION_STRINGENCY="${validation_stringency}"

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

35 QUIET=true

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

36 VERBOSITY=ERROR

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

37

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

38 </command>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

39 <inputs>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

40 <param format="bam" name="inputFile" type="data" label="Select SAM/BAM dataset or dataset collection" help="If empty, upload or import a SAM/BAM dataset"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

41 <param name="comment" type="text" size="50" label="Add this comment to BAM dataset"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

42

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

43 <param name="minimum_distance" type="integer" value="-1" label="The minimum distance to buffer records to account for clipping on the 5' end of the records" help="MINIMUM_DISTANCE; Set this number to -1 to use twice the first read's read length (or 100, whichever is smaller); default=-1"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

44 <param name="skip_pairs_with_no_mate_cigar" type="boolean" checked="true" truevalue="true" falsevalue="false" label="Skip record pairs with no mate cigar and include them in the output" help="SKIP_PAIRS_WITH_NO_MATE_CIGAR; default=True"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

45 <param name="remove_duplicates" type="boolean" label="If true do not write duplicates to the output file instead of writing them with appropriate flags set" help="REMOVE_DUPLICATES; default=False"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

46 <param name="assume_sorted" type="boolean" label="Assume the input file is already sorted" checked="true" truevalue="true" falsevalue="false" help="ASSUME_SORTED; default=True"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

47

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

48 <param name="duplicate_scoring_strategy" type="select" label="The scoring strategy for choosing the non-duplicate among candidates" help="DUPLICATE_SCORING_STRATEGY; default=TOTAL_MAPPED_REFERENCE_LENGTH">

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

49 <option value="TOTAL_MAPPED_REFERENCE_LENGTH" select="True">TOTAL_MAPPED_REFERENCE_LENGTH</option>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

50 <option value="SUM_OF_BASE_QUALITIES">SUM_OF_BASE_QUALITIES</option>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

51 </param>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

52

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

53

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

54 <param name="read_name_regex" type="text" size="40" value="[a-zA-Z0-9]+:[0-9]:([0-9]+):([0-9]+):([0-9]+).*." label="Regular expression that can be used to parse read names in the incoming SAM/BAM dataset" help="READ_NAME_REGEX; Read names are parsed to extract three variables: tile/region, x coordinate and y coordinate. These values are used to estimate the rate of optical duplication in order to give a more accurate estimated library size. See help below for more info; default=[a-zA-Z0-9]+:[0-9]:([0-9]+):([0-9]+):([0-9]+).*.">

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

55 <sanitizer>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

56 <valid initial="string.printable">

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

57 </valid>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

58 </sanitizer>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

59 </param>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

60 <param name="optical_duplicate_pixel_distance" type="integer" value="100" min="0" max="500" label="The maximum offset between two duplicte clusters in order to consider them optical duplicates" help="OPTICAL_DUPLICATE_PIXEL_DISTANCE; default=100"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

61

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

62 <expand macro="VS" />

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

63

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

64 </inputs>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

65

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

66 <outputs>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

67 <data format="txt" name="metrics_file" label="${tool.name} on ${on_string}: MarkDuplicate metrics"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

68 <data format="bam" name="outFile" label="${tool.name} on ${on_string}: MarkDuplicates BAM output"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

69 </outputs>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

70

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

71 <tests>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

72 <test>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

73 <param name="inputFile" value="picard_MarkDuplicatesWithMateCigar.bam" ftype="bam"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

74 <param name="minimum_distance" value="-1"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

75 <param name="skip_pairs_with_no_mate_cigar" value="True"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

76 <param name="comment" value="test-run"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

77 <param name="assume_sorted" value="True"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

78 <param name="remove_duplicates" value="False"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

79 <param name="read_name_regex" value="[a-zA-Z0-9]+:[0-9]:([0-9]+):([0-9]+):([0-9]+).*."/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

80 <param name="optical_duplicate_pixel_distance" value="100"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

81 <param name="duplicate_scoring_strategy" value="TOTAL_MAPPED_REFERENCE_LENGTH"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

82 <param name="validation_stringency" value="LENIENT"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

83 <output name="outFile" file="picard_MarkDuplicatesWithMateCigar_test1.bam" ftype="bam" lines_diff="4"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

84 </test>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

85 </tests>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

86

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

87 <stdio>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

88 <exit_code range="1:" level="fatal"/>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

89 </stdio>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

90

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

91 <help>

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

92

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

93 **Purpose**

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

94

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

95 Examines aligned records in the supplied SAM or BAM dataset to locate duplicate molecules. All records are then written to the output file with the duplicate records flagged.

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

96

5166ed57b1c4 Uploaded version 1.135

avowinkel

parents:

diff changeset

97 ------

5166ed57b1c4 Uploaded version 1.135

avowinkel