split_file_on_column: split_file_on

comparison split_file_on_column.xml @ 6:ff2a81aa3f08 draft default tip

planemo upload for repository https://github.com/bgruening/galaxytools/tree/master/tools/text_processing/split_file_on_column commit 6a2deb2f38472a2845123bd54e73b6bd115b3a0b

author	bgruening
date	Tue, 19 Jul 2022 13:25:20 +0000
parents	d4b5b70e82cb
children

comparison

equal deleted inserted replaced

-:d4b5b70e82cb
+:ff2a81aa3f08
-<tool id="tp_split_on_column" name="Split by group" version="0.5">
+<tool id="tp_split_on_column" name="Split by group" version="0.6">
 <requirements>
-<requirement type="package" version="5.0.1">gawk</requirement>
+<requirement type="package" version="5.1.0">gawk</requirement>
 </requirements>
 <command>
 <![CDATA[
 mkdir tmp_out &&
 #if $include_header
-awk -F '\t' 'NR==1{hdr=$0;next}f!="tmp_out/"\$$column".$infile.ext"{if(f) close(f); f="tmp_out/"\$$column".$infile.ext";print hdr>f} {print >> f}' $infile
+awk -F '\t' 'NR==1{hdr=$0;next}f!="tmp_out/"\$$column".$infile.ext"{if(f) close(f); f="tmp_out/"\$$column".$infile.ext"}; {if (!seen[f]++) print hdr>f; print >> f}' $infile
 #else
-awk -F'\t' '{print > "tmp_out/"\$$column".$infile.ext" }' '$infile'
+awk -F'\t' '{print >> "tmp_out/"\$$column".$infile.ext" }' '$infile'
 #end if
 ]]>
 </command>
 <inputs>
 <param format="tabular" name="infile" type="data" label="File to split" />
 <has_text_matching expression="chr7\t56761\t56781\tcluster\t2" />
 </assert_contents>
 </element>
 </output_collection>
 </test>
+<test><!-- test with unsorted column, no header -->
+<param name="infile" value="5cols-unsorted.tabular" ftype="tabular" />
+<param name="column" value="5" />
+<param name="include_header" value="false"/>
+<output_collection name="split_output" type="list">
+<element name="1">
+<assert_contents>
+<has_n_lines n="3" />
+</assert_contents>
+</element>
+<element name="2">
+<assert_contents>
+<has_n_lines n="2" />
+</assert_contents>
+</element>
+</output_collection>
+</test>
+<test><!-- test with unsorted column, with header -->
+<param name="infile" value="5cols-unsorted-with-header.tabular" ftype="tabular" />
+<param name="column" value="5" />
+<param name="include_header" value="true"/>
+<output_collection name="split_output" type="list">
+<element name="1">
+<assert_contents>
+<has_n_lines n="4" />
+<has_line_matching expression="Column1\tColumn2\tColumn3\tColumn4\tColumn5" />
+</assert_contents>
+</element>
+<element name="2">
+<assert_contents>
+<has_n_lines n="3" />
+<has_line_matching expression="Column1\tColumn2\tColumn3\tColumn4\tColumn5" />
+</assert_contents>
+</element>
+</output_collection>
+</test>
 </tests>
 <help>
 <![CDATA[
 ========
 chr1 30 40
 chr2 40 70
 chr4 60 80
-will produce a collectiion with 4 elements::
+will produce a collection with 3 elements::
 chr1 10 20
 chr1 30 40
 chr2 40 70

Mercurial > repos > bgruening > split_file_on_column

comparison split_file_on_column.xml @ 6:ff2a81aa3f08 draft default tip