sklearn_model_validation: model_validation.xml comparison

comparison model_validation.xml @ 16:86e1e2874460 draft

planemo upload for repository https://github.com/bgruening/galaxytools/tree/master/tools/sklearn commit 57f4407e278a615f47a377a3328782b1d8e0b54d

author	bgruening
date	Sun, 30 Dec 2018 02:02:32 -0500
parents	e244d6f2df1a
children	cf9aa11b91c8

comparison

equal deleted inserted replaced

-:33d2606fdb3f
+:86e1e2874460
 import pandas
 import numpy as np
 from sklearn import preprocessing, model_selection, svm, linear_model, ensemble, naive_bayes, tree, neighbors
 from sklearn.pipeline import Pipeline
-exec(open("$__tool_directory__/utils.py").read(), globals())
+exec(open('$__tool_directory__/utils.py').read(), globals())
+warnings.filterwarnings('ignore')
 safe_eval = SafeEval()
 input_json_path = sys.argv[1]
-with open(input_json_path, "r") as param_handler:
+with open(input_json_path, 'r') as param_handler:
 params = json.load(param_handler)
-input_type = params["input_options"]["selected_input"]
+input_type = params['input_options']['selected_input']
-if input_type=="tabular":
+if input_type == 'tabular':
-header = 'infer' if params["input_options"]["header1"] else None
+header = 'infer' if params['input_options']['header1'] else None
-column_option = params["input_options"]["column_selector_options_1"]["selected_column_selector_option"]
+column_option = params['input_options']['column_selector_options_1']['selected_column_selector_option']
-if column_option in ["by_index_number", "all_but_by_index_number", "by_header_name", "all_but_by_header_name"]:
+if column_option in ['by_index_number', 'all_but_by_index_number', 'by_header_name', 'all_but_by_header_name']:
-c = params["input_options"]["column_selector_options_1"]["col1"]
+c = params['input_options']['column_selector_options_1']['col1']
 else:
 c = None
 X = read_columns(
-"$input_options.infile1",
+'$input_options.infile1',
 c = c,
 c_option = column_option,
 sep='\t',
 header=header,
 parse_dates=True
 )
 else:
-X = mmread("$input_options.infile1")
+X = mmread('$input_options.infile1')
-header = 'infer' if params["input_options"]["header2"] else None
+header = 'infer' if params['input_options']['header2'] else None
-column_option = params["input_options"]["column_selector_options_2"]["selected_column_selector_option2"]
+column_option = params['input_options']['column_selector_options_2']['selected_column_selector_option2']
-if column_option in ["by_index_number", "all_but_by_index_number", "by_header_name", "all_but_by_header_name"]:
+if column_option in ['by_index_number', 'all_but_by_index_number', 'by_header_name', 'all_but_by_header_name']:
-c = params["input_options"]["column_selector_options_2"]["col2"]
+c = params['input_options']['column_selector_options_2']['col2']
 else:
 c = None
 y = read_columns(
-"$input_options.infile2",
+'$input_options.infile2',
 c = c,
 c_option = column_option,
 sep='\t',
 header=header,
 parse_dates=True
 )
 y=y.ravel()
-options = params["model_validation_functions"]["options"]
+options = params['model_validation_functions']['options']
-options['cv'] = get_cv( options['cv'] )
+splitter, groups = get_cv( options.pop('cv_selector') )
+if groups is None:
+options['cv'] = splitter
+elif groups == '':
+options['cv'] = list( splitter.split(X, y, groups=None) )
+else:
+options['cv'] = list( splitter.split(X, y, groups=groups) )
 options['n_jobs'] = N_JOBS
 if 'scoring' in options:
 options['scoring'] = get_scoring(options['scoring'])
 if 'pre_dispatch' in options and options['pre_dispatch'] == '':
 options['pre_dispatch'] = None
 pipeline_steps = []
 ## Set up pre_processor and add to pipeline steps.
 if params['pre_processing']['do_pre_processing'] == 'Yes':
-preprocessor = params["pre_processing"]["pre_processors"]["selected_pre_processor"]
+preprocessor = params['pre_processing']['pre_processors']['selected_pre_processor']
-pre_processor_options = params["pre_processing"]["pre_processors"]["options"]
+pre_processor_options = params['pre_processing']['pre_processors']['options']
 my_class = getattr(preprocessing, preprocessor)
 pipeline_steps.append( ('pre_processor', my_class(**pre_processor_options)) )
 ## Set up feature selector and add to pipeline steps.
 if params['feature_selection']['do_feature_selection'] == 'Yes':
 feature_selector = feature_selector(params['feature_selection']['fs_algorithm_selector'])
 pipeline_steps.append( ('feature_selector', feature_selector) )
 ## Set up estimator and add to pipeline.
-estimator_json = params["model_validation_functions"]['estimator_selector']
+estimator_json = params['model_validation_functions']['estimator_selector']
 estimator = get_estimator(estimator_json)
 pipeline_steps.append( ('estimator', estimator) )
 pipeline = Pipeline(pipeline_steps)
 ## Set up validator, run pipeline through validator and return results.
-validator = params["model_validation_functions"]["selected_function"]
+validator = params['model_validation_functions']['selected_function']
 validator = getattr(model_selection, validator)
-selected_function = params["model_validation_functions"]["selected_function"]
+selected_function = params['model_validation_functions']['selected_function']
-rval_type = params["model_validation_functions"].get("return_type", None)
+rval_type = params['model_validation_functions'].get('return_type', None)
 if selected_function == 'cross_validate':
 res = validator(pipeline, X, y, **options)
 rval = res[rval_type]
 elif selected_function == 'learning_curve':
 train_sizes_abs, train_scores, test_scores = validator(pipeline, X, y, **options)
 rval = eval(rval_type)
 elif selected_function == 'permutation_test_score':
 score, permutation_scores, pvalue = validator(pipeline, X, y, **options)
 rval = eval(rval_type)
-if rval_type in ["score", "pvalue"]:
+if rval_type in ['score', 'pvalue']:
 rval = [rval]
 elif selected_function == 'validation_curve':
 options['param_name'] = 'estimator__' + options['param_name']
 options['param_range'] = eval(options['param_range'])
 train_scores, test_scores = validator(pipeline, X, y, **options)
 rval = eval(rval_type)
 else:
 rval = validator(pipeline, X, y, **options)
 rval = pandas.DataFrame(rval)
-rval.to_csv(path_or_buf="$outfile", sep='\t', header=False, index=False)
+rval.to_csv(path_or_buf='$outfile', sep='\t', header=False, index=False)
 ]]>
 </configfile>
 </configfiles>
 <inputs>
 <option value="No" selected="true"/>
 <option value="Yes"/>
 </param>
 <when value="No"/>
 <when value="Yes">
-<expand macro="feature_selection_all">
+<expand macro="feature_selection_pipeline"/>
-<expand macro="fs_selectfrommodel_no_prefitted"/>
-</expand>
 </when>
 </conditional>
 <conditional name="model_validation_functions">
 <param name="selected_function" type="select" label="Select a model validation function">
 <option value="cross_validate">cross_validate - Evaluate metric(s) by cross-validation and also record fit/score times</option>

Mercurial > repos > bgruening > sklearn_model_validation

comparison model_validation.xml @ 16:86e1e2874460 draft