Mercurial > repos > iuc > join_files_by_id

<tool id="join_files_by_id" name="Join datasets by identifier column" version="1.0">
    <requirements>
        <requirement type="package" version="1.10.4">r-data.table</requirement>
    </requirements>
    <command detect_errors="exit_code"><![CDATA[
Rscript '$__tool_directory__/join_files.R'
--out='$out_file1'
--he='$header'
--jc='$field'
--sep='$delimiter'
--nc='$null_str'
--in='$input1'
#for $q in $queries
    --in='${q.input}'
#end for
    ]]></command>
    <inputs>
        <param name="header" type="boolean" checked="true" truevalue="1" falsevalue="0" label="Header" help="If header is true, the column name used for joining need to be the same in all datasets"/>
        <param name="delimiter" type="select" label="Delimited by">
            <option value="ta">Tab</option>
            <option value="do">Dot</option>
            <option value="co">Comma</option>
            <option value="un">Underscore</option>
            <option value="da">Dash</option>
            <option value="sp">Space</option>
        </param>
        <param name="null_str" type="select" label="Select mismatch character">
            <option value="0">0</option>
            <option value="-">-</option>
            <option value="">"empty"</option>
            <option value="NA">NA</option>
        </param>
        <param name="input1" type="data" format="tabular" label="Select table" help="Single dataset selection only to preserve the order"/>
        <repeat name="queries" min="1" title="Select table">
            <param name="input" type="data" format="tabular" label="Select table" help="Single dataset selection only to preserve the order"/>
        </repeat>
        <param name="field" type="data_column" data_ref="input1" label="Column used for joining" />
    </inputs>
    <outputs>
        <data name="out_file1" format="tabular" />
    </outputs>
    <tests>
        <test>
            <param name="header" value="1"/>
            <param name="null_str" value="0"/>
            <param name="delimiter" value="ta"/>
            <param name="input1" value="df1.txt"/>
            <repeat name="queries">
                <param name="input" value="df2.txt"/>
            </repeat>
            <repeat name="queries">
                <param name="input" value="df3.txt"/>
            </repeat>
            <param name="field" value="1"/>
            <output name="out_file1" file="df.txt"/>
        </test>
    </tests>
    <help><![CDATA[
**What it does**

Joins datasets by identifier column

-----

'''Example'''

Dataset 1:

+--------+--------+---------+
| name   | counts | percent |
+========+========+=========+
| gene 1 |   10   |   0.3   |
+--------+--------+---------+
| gene 2 |   20   |   0.2   |
+--------+--------+---------+
| gene 3 |   20   |   0.2   |
+--------+--------+---------+


and Dataset 2:

+--------+--------+---------+
| name   | counts | percent |
+========+========+=========+
| gene 1 |   13   |   0.5   |
+--------+--------+---------+
| gene 4 |    4   |   0.4   |
+--------+--------+---------+


and Dataset 3:

+--------+--------+---------+
| name   | counts | percent |
+========+========+=========+
| gene 1 |   10   |   0.3   |
+--------+--------+---------+
| gene 3 |   12   |   0.2   |
+--------+--------+---------+
| gene 4 |    4   |   0.4   |
+--------+--------+---------+
| gene 5 |   19   |   0.6   |
+--------+--------+---------+


will result in the following:

+--------+--------+---------+--------+---------+--------+---------+
| name   | counts | percent | counts | percent | counts | percent |
+========+========+=========+========+=========+========+=========+
| gene 1 |   10   |   0.3   |   13   |   0.5   |   10   |   0.3   |
+--------+--------+---------+--------+---------+--------+---------+
| gene 2 |   20   |   0.2   |    0   |    0    |    0   |    0    |
+--------+--------+---------+--------+---------+--------+---------+
| gene 3 |   12   |   0.2   |    0   |    0    |   12   |   0.2   |
+--------+--------+---------+--------+---------+--------+---------+
| gene 4 |    0   |    0    |    4   |   0.4   |    4   |   0.4   |
+--------+--------+---------+--------+---------+--------+---------+
| gene 5 |    0   |    0    |    0   |    0    |   19   |   0.6   |
+--------+--------+---------+--------+---------+--------+---------+

For help contact: jochen.bick@usys.ethz.ch
    ]]></help>
</tool>