sklearn_ensemble: ensemble.xml comparison

comparison ensemble.xml @ 41:6546d7c9f08b draft

planemo upload for repository https://github.com/bgruening/galaxytools/tree/master/tools/sklearn commit 9981e25b00de29ed881b2229a173a8c812ded9bb

author	bgruening
date	Wed, 09 Aug 2023 12:52:25 +0000
parents	19d6c2745d34
children

comparison

equal deleted inserted replaced

-:a07ab242b0b5
+:6546d7c9f08b
-<tool id="sklearn_ensemble" name="Ensemble methods" version="@VERSION@" profile="20.05">
+<tool id="sklearn_ensemble" name="Ensemble methods" version="@VERSION@" profile="@PROFILE@">
 <description>for classification and regression</description>
 <macros>
 <import>main_macros.xml</import>
 </macros>
 <expand macro="python_requirements" />
 <configfile name="ensemble_script">
 <![CDATA[
 import json
 import numpy as np
 import pandas
-import pickle
 import sys
 from scipy.io import mmread
 import sklearn.ensemble
-from galaxy_ml.utils import load_model, get_X_y
+from galaxy_ml.model_persist import dump_model_to_h5, load_model_from_h5
+from galaxy_ml.utils import clean_params, get_X_y
 N_JOBS = int(__import__('os').environ.get('GALAXY_SLOTS', 1))
 # Get inputs, outputs.
 if options["select_max_features"]["max_features"] == "number_input":
 options["select_max_features"]["max_features"] = options["select_max_features"]["num_max_features"]
 options["select_max_features"].pop("num_max_features")
 options["max_features"] = options["select_max_features"]["max_features"]
 options.pop("select_max_features")
-if "presort" in options:
-if options["presort"] == "true":
-options["presort"] = True
-if options["presort"] == "false":
-options["presort"] = False
 if "min_samples_leaf" in options and options["min_samples_leaf"] == 1.0:
 options["min_samples_leaf"] = 1
 if "min_samples_split" in options and options["min_samples_split"] > 1.0:
 options["min_samples_split"] = int(options["min_samples_split"])
 X, y = get_X_y(params, infile1, infile2)
 my_class = getattr(sklearn.ensemble, algorithm)
 estimator = my_class(**options)
 estimator.fit(X,y)
-with open(outfile_fit, 'wb') as out_handler:
+dump_model_to_h5(estimator, outfile_fit)
-pickle.dump(estimator, out_handler, pickle.HIGHEST_PROTOCOL)
 else:
-with open(infile_model, 'rb') as model_handler:
+classifier_object = load_model_from_h5(infile_model)
-classifier_object = load_model(model_handler)
+classifier_object = clean_params(classifier_object)
 header = 'infer' if params["selected_tasks"]["header"] else None
 data = pandas.read_csv(infile_data, sep='\t', header=header, index_col=None, parse_dates=True, encoding=None)
 prediction = classifier_object.predict(data)
 prediction_df = pandas.DataFrame(prediction, columns=["predicted"])
 res = pandas.concat([data, prediction_df], axis=1)
 ]]>
 </configfile>
 </configfiles>
 <inputs>
-<expand macro="sl_Conditional" model="zip">
+<expand macro="sl_Conditional" model="h5mlm">
 <param name="selected_algorithm" type="select" label="Select an ensemble method:">
 <option value="RandomForestClassifier" selected="true">Random forest classifier</option>
 <option value="AdaBoostClassifier">Ada boost classifier</option>
 <option value="GradientBoostingClassifier">Gradient Boosting Classifier</option>
 <option value="RandomForestRegressor">Random forest regressor</option>
 <expand macro="max_leaf_nodes" />
 <expand macro="min_impurity_decrease" />
 <expand macro="verbose" />
 <expand macro="warm_start" checked="false" />
 <expand macro="random_state" />
-<expand macro="presort" />
 </section>
 </when>
 <when value="RandomForestRegressor">
 <expand macro="sl_mixed_input" />
 <section name="options" title="Advanced Options" expanded="False">
 <param argument="alpha" type="float" value="0.9" label="alpha" help="The alpha-quantile of the huber loss function and the quantile loss function" />
 <!--base_estimator=None-->
 <expand macro="verbose" />
 <expand macro="warm_start" checked="false" />
 <expand macro="random_state" />
-<expand macro="presort" />
 </section>
 </when>
 </expand>
 </inputs>
 <param name="selected_algorithm" value="RandomForestClassifier" />
 <param name="random_state" value="10" />
 <output name="outfile_fit" file="rfc_model01" compare="sim_size" delta="5" />
 </test>
 <test>
-<param name="infile_model" value="rfc_model01" ftype="zip" />
+<param name="infile_model" value="rfc_model01" ftype="h5mlm" />
 <param name="infile_data" value="test.tabular" ftype="tabular" />
 <param name="selected_task" value="load" />
 <output name="outfile_predict" file="rfc_result01" />
 </test>
 <test>
 <param name="selected_algorithm" value="RandomForestRegressor" />
 <param name="random_state" value="10" />
 <output name="outfile_fit" file="rfr_model01" compare="sim_size" delta="5" />
 </test>
 <test>
-<param name="infile_model" value="rfr_model01" ftype="zip" />
+<param name="infile_model" value="rfr_model01" ftype="h5mlm" />
 <param name="infile_data" value="regression_test.tabular" ftype="tabular" />
 <param name="selected_task" value="load" />
 <output name="outfile_predict" file="rfr_result01" />
 </test>
 <test>
 <param name="num_max_features" value="0.5" />
 <param name="random_state" value="42" />
 <output name="outfile_fit" file="gbr_model01" compare="sim_size" delta="5" />
 </test>
 <test>
-<param name="infile_model" value="gbr_model01" ftype="zip" />
+<param name="infile_model" value="gbr_model01" ftype="h5mlm" />
 <param name="infile_data" value="regression_test_X.tabular" ftype="tabular" />
 <param name="selected_task" value="load" />
 <param name="header" value="True" />
 <output name="outfile_predict" file="gbr_prediction_result01.tabular" />
 </test>
 <param name="selected_task" value="train" />
 <param name="selected_algorithm" value="GradientBoostingClassifier" />
 <output name="outfile_fit" file="gbc_model01" compare="sim_size" delta="5" />
 </test>
 <test>
-<param name="infile_model" value="gbc_model01" ftype="zip" />
+<param name="infile_model" value="gbc_model01" ftype="h5mlm" />
 <param name="infile_data" value="test.tabular" ftype="tabular" />
 <param name="selected_task" value="load" />
 <output name="outfile_predict" file="gbc_result01" />
 </test>
 <test>
 <param name="selected_algorithm" value="AdaBoostClassifier" />
 <param name="random_state" value="10" />
 <output name="outfile_fit" file="abc_model01" compare="sim_size" delta="5" />
 </test>
 <test>
-<param name="infile_model" value="abc_model01" ftype="zip" />
+<param name="infile_model" value="abc_model01" ftype="h5mlm" />
 <param name="infile_data" value="test.tabular" ftype="tabular" />
 <param name="selected_task" value="load" />
 <output name="outfile_predict" file="abc_result01" />
 </test>
 <test>
 <param name="selected_algorithm" value="AdaBoostRegressor" />
 <param name="random_state" value="10" />
 <output name="outfile_fit" file="abr_model01" compare="sim_size" delta="5" />
 </test>
 <test>
-<param name="infile_model" value="abr_model01" ftype="zip" />
+<param name="infile_model" value="abr_model01" ftype="h5mlm" />
 <param name="infile_data" value="regression_test.tabular" ftype="tabular" />
 <param name="selected_task" value="load" />
 <output name="outfile_predict" file="abr_result01" />
 </test>
 </tests>

Mercurial > repos > bgruening > sklearn_ensemble

comparison ensemble.xml @ 41:6546d7c9f08b draft