cobraxy: COBRAxy/ras_generator.py annotate

annotate COBRAxy/ras_generator.py @ 490:c6ea189ea7e9 draft

Uploaded

author	francesco_lapi
date	Mon, 29 Sep 2025 15:13:21 +0000
parents	97eea560a10f
children

rev	line source
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	1 """
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	2 Generate Reaction Activity Scores (RAS) from a gene expression dataset and GPR rules.
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	3
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	4 The script reads a tabular dataset (genes x samples) and a rules file (GPRs),
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	5 computes RAS per reaction for each sample/cell line, and writes a tabular output.
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	6 """
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	7 from __future__ import division
7e703e546998 Uploaded luca_milaz parents: diff changeset	8 import sys
7e703e546998 Uploaded luca_milaz parents: diff changeset	9 import argparse
7e703e546998 Uploaded luca_milaz parents: diff changeset	10 import collections
7e703e546998 Uploaded luca_milaz parents: diff changeset	11 import pandas as pd
7e703e546998 Uploaded luca_milaz parents: diff changeset	12 import pickle as pk
7e703e546998 Uploaded luca_milaz parents: diff changeset	13 import utils.general_utils as utils
7e703e546998 Uploaded luca_milaz parents: diff changeset	14 import utils.rule_parsing as ruleUtils
7e703e546998 Uploaded luca_milaz parents: diff changeset	15 from typing import Union, Optional, List, Dict, Tuple, TypeVar
7e703e546998 Uploaded luca_milaz parents: diff changeset	16
7e703e546998 Uploaded luca_milaz parents: diff changeset	17 ERRORS = []
7e703e546998 Uploaded luca_milaz parents: diff changeset	18 ########################## argparse ##########################################
7e703e546998 Uploaded luca_milaz parents: diff changeset	19 ARGS :argparse.Namespace
147 3fca9b568faf Uploaded bimib parents: 93 diff changeset	20 def process_args(args:List[str] = None) -> argparse.Namespace:
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	21 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	22 Processes command-line arguments.
7e703e546998 Uploaded luca_milaz parents: diff changeset	23
7e703e546998 Uploaded luca_milaz parents: diff changeset	24 Args:
7e703e546998 Uploaded luca_milaz parents: diff changeset	25 args (list): List of command-line arguments.
7e703e546998 Uploaded luca_milaz parents: diff changeset	26
7e703e546998 Uploaded luca_milaz parents: diff changeset	27 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	28 Namespace: An object containing parsed arguments.
7e703e546998 Uploaded luca_milaz parents: diff changeset	29 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	30 parser = argparse.ArgumentParser(
7e703e546998 Uploaded luca_milaz parents: diff changeset	31 usage = '%(prog)s [options]',
7e703e546998 Uploaded luca_milaz parents: diff changeset	32 description = "process some value's genes to create a comparison's map.")
7e703e546998 Uploaded luca_milaz parents: diff changeset	33
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	34 parser.add_argument("-rl", "--model_upload", type = str,
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	35 help = "path to input file containing the rules")
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	36
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	37 parser.add_argument("-rn", "--model_upload_name", type = str, help = "custom rules name")
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	38 # Galaxy converts files into .dat, this helps infer the original extension when needed.
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	39
7e703e546998 Uploaded luca_milaz parents: diff changeset	40 parser.add_argument(
7e703e546998 Uploaded luca_milaz parents: diff changeset	41 '-n', '--none',
7e703e546998 Uploaded luca_milaz parents: diff changeset	42 type = utils.Bool("none"), default = True,
7e703e546998 Uploaded luca_milaz parents: diff changeset	43 help = 'compute Nan values')
7e703e546998 Uploaded luca_milaz parents: diff changeset	44
7e703e546998 Uploaded luca_milaz parents: diff changeset	45 parser.add_argument(
7e703e546998 Uploaded luca_milaz parents: diff changeset	46 '-td', '--tool_dir',
7e703e546998 Uploaded luca_milaz parents: diff changeset	47 type = str,
7e703e546998 Uploaded luca_milaz parents: diff changeset	48 required = True, help = 'your tool directory')
7e703e546998 Uploaded luca_milaz parents: diff changeset	49
7e703e546998 Uploaded luca_milaz parents: diff changeset	50 parser.add_argument(
7e703e546998 Uploaded luca_milaz parents: diff changeset	51 '-ol', '--out_log',
7e703e546998 Uploaded luca_milaz parents: diff changeset	52 type = str,
7e703e546998 Uploaded luca_milaz parents: diff changeset	53 help = "Output log")
7e703e546998 Uploaded luca_milaz parents: diff changeset	54
7e703e546998 Uploaded luca_milaz parents: diff changeset	55 parser.add_argument(
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	56 '-in', '--input',
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	57 type = str,
7e703e546998 Uploaded luca_milaz parents: diff changeset	58 help = 'input dataset')
7e703e546998 Uploaded luca_milaz parents: diff changeset	59
7e703e546998 Uploaded luca_milaz parents: diff changeset	60 parser.add_argument(
7e703e546998 Uploaded luca_milaz parents: diff changeset	61 '-ra', '--ras_output',
7e703e546998 Uploaded luca_milaz parents: diff changeset	62 type = str,
7e703e546998 Uploaded luca_milaz parents: diff changeset	63 required = True, help = 'ras output')
147 3fca9b568faf Uploaded bimib parents: 93 diff changeset	64
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	65
147 3fca9b568faf Uploaded bimib parents: 93 diff changeset	66 return parser.parse_args(args)
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	67
7e703e546998 Uploaded luca_milaz parents: diff changeset	68 ############################ dataset input ####################################
7e703e546998 Uploaded luca_milaz parents: diff changeset	69 def read_dataset(data :str, name :str) -> pd.DataFrame:
7e703e546998 Uploaded luca_milaz parents: diff changeset	70 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	71 Read a dataset from a CSV file and return it as a pandas DataFrame.
7e703e546998 Uploaded luca_milaz parents: diff changeset	72
7e703e546998 Uploaded luca_milaz parents: diff changeset	73 Args:
7e703e546998 Uploaded luca_milaz parents: diff changeset	74 data (str): Path to the CSV file containing the dataset.
7e703e546998 Uploaded luca_milaz parents: diff changeset	75 name (str): Name of the dataset, used in error messages.
7e703e546998 Uploaded luca_milaz parents: diff changeset	76
7e703e546998 Uploaded luca_milaz parents: diff changeset	77 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	78 pandas.DataFrame: DataFrame containing the dataset.
7e703e546998 Uploaded luca_milaz parents: diff changeset	79
7e703e546998 Uploaded luca_milaz parents: diff changeset	80 Raises:
7e703e546998 Uploaded luca_milaz parents: diff changeset	81 pd.errors.EmptyDataError: If the CSV file is empty.
7e703e546998 Uploaded luca_milaz parents: diff changeset	82 sys.exit: If the CSV file has the wrong format, the execution is aborted.
7e703e546998 Uploaded luca_milaz parents: diff changeset	83 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	84 try:
7e703e546998 Uploaded luca_milaz parents: diff changeset	85 dataset = pd.read_csv(data, sep = '\t', header = 0, engine='python')
7e703e546998 Uploaded luca_milaz parents: diff changeset	86 except pd.errors.EmptyDataError:
7e703e546998 Uploaded luca_milaz parents: diff changeset	87 sys.exit('Execution aborted: wrong format of ' + name + '\n')
7e703e546998 Uploaded luca_milaz parents: diff changeset	88 if len(dataset.columns) < 2:
7e703e546998 Uploaded luca_milaz parents: diff changeset	89 sys.exit('Execution aborted: wrong format of ' + name + '\n')
7e703e546998 Uploaded luca_milaz parents: diff changeset	90 return dataset
7e703e546998 Uploaded luca_milaz parents: diff changeset	91
7e703e546998 Uploaded luca_milaz parents: diff changeset	92 ############################ load id e rules ##################################
7e703e546998 Uploaded luca_milaz parents: diff changeset	93 def load_id_rules(reactions :Dict[str, Dict[str, List[str]]]) -> Tuple[List[str], List[Dict[str, List[str]]]]:
7e703e546998 Uploaded luca_milaz parents: diff changeset	94 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	95 Load IDs and rules from a dictionary of reactions.
7e703e546998 Uploaded luca_milaz parents: diff changeset	96
7e703e546998 Uploaded luca_milaz parents: diff changeset	97 Args:
7e703e546998 Uploaded luca_milaz parents: diff changeset	98 reactions (dict): A dictionary where keys are IDs and values are rules.
7e703e546998 Uploaded luca_milaz parents: diff changeset	99
7e703e546998 Uploaded luca_milaz parents: diff changeset	100 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	101 tuple: A tuple containing two lists, the first list containing IDs and the second list containing rules.
7e703e546998 Uploaded luca_milaz parents: diff changeset	102 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	103 ids, rules = [], []
7e703e546998 Uploaded luca_milaz parents: diff changeset	104 for key, value in reactions.items():
7e703e546998 Uploaded luca_milaz parents: diff changeset	105 ids.append(key)
7e703e546998 Uploaded luca_milaz parents: diff changeset	106 rules.append(value)
7e703e546998 Uploaded luca_milaz parents: diff changeset	107 return (ids, rules)
7e703e546998 Uploaded luca_milaz parents: diff changeset	108
7e703e546998 Uploaded luca_milaz parents: diff changeset	109
7e703e546998 Uploaded luca_milaz parents: diff changeset	110 ############################ gene #############################################
7e703e546998 Uploaded luca_milaz parents: diff changeset	111 def data_gene(gene: pd.DataFrame, type_gene: str, name: str, gene_custom: Optional[Dict[str, str]]) -> Dict[str, str]:
7e703e546998 Uploaded luca_milaz parents: diff changeset	112 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	113 Process gene data to ensure correct formatting and handle duplicates.
7e703e546998 Uploaded luca_milaz parents: diff changeset	114
7e703e546998 Uploaded luca_milaz parents: diff changeset	115 Args:
7e703e546998 Uploaded luca_milaz parents: diff changeset	116 gene (DataFrame): DataFrame containing gene data.
7e703e546998 Uploaded luca_milaz parents: diff changeset	117 type_gene (str): Type of gene data (e.g., 'hugo_id', 'ensembl_gene_id', 'symbol', 'entrez_id').
7e703e546998 Uploaded luca_milaz parents: diff changeset	118 name (str): Name of the dataset.
7e703e546998 Uploaded luca_milaz parents: diff changeset	119 gene_custom (dict or None): Custom gene data dictionary if provided.
7e703e546998 Uploaded luca_milaz parents: diff changeset	120
7e703e546998 Uploaded luca_milaz parents: diff changeset	121 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	122 dict: A dictionary containing gene data with gene IDs as keys and corresponding values.
7e703e546998 Uploaded luca_milaz parents: diff changeset	123 """
309 38c9a958ea78 Uploaded francesco_lapi parents: 266 diff changeset	124
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	125 for i in range(len(gene)):
7e703e546998 Uploaded luca_milaz parents: diff changeset	126 tmp = gene.iloc[i, 0]
7e703e546998 Uploaded luca_milaz parents: diff changeset	127 gene.iloc[i, 0] = tmp.strip().split('.')[0]
7e703e546998 Uploaded luca_milaz parents: diff changeset	128
7e703e546998 Uploaded luca_milaz parents: diff changeset	129 gene_dup = [item for item, count in
7e703e546998 Uploaded luca_milaz parents: diff changeset	130 collections.Counter(gene[gene.columns[0]]).items() if count > 1]
7e703e546998 Uploaded luca_milaz parents: diff changeset	131 pat_dup = [item for item, count in
7e703e546998 Uploaded luca_milaz parents: diff changeset	132 collections.Counter(list(gene.columns)).items() if count > 1]
260 70b2bff188dd Uploaded francesco_lapi parents: 259 diff changeset	133
70b2bff188dd Uploaded francesco_lapi parents: 259 diff changeset	134 gene_in_rule = None
259 91ad9bf5a734 Uploaded francesco_lapi parents: 258 diff changeset	135
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	136 if gene_dup:
7e703e546998 Uploaded luca_milaz parents: diff changeset	137 if gene_custom == None:
264 a4f02ba0f64c Uploaded francesco_lapi parents: 263 diff changeset	138
309 38c9a958ea78 Uploaded francesco_lapi parents: 266 diff changeset	139 if str(ARGS.rules_selector) == 'HMRcore':
38c9a958ea78 Uploaded francesco_lapi parents: 266 diff changeset	140 gene_in_rule = pk.load(open(ARGS.tool_dir + '/local/pickle files/HMRcore_genes.p', 'rb'))
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	141
309 38c9a958ea78 Uploaded francesco_lapi parents: 266 diff changeset	142 elif str(ARGS.rules_selector) == 'Recon':
38c9a958ea78 Uploaded francesco_lapi parents: 266 diff changeset	143 gene_in_rule = pk.load(open(ARGS.tool_dir + '/local/pickle files/Recon_genes.p', 'rb'))
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	144
309 38c9a958ea78 Uploaded francesco_lapi parents: 266 diff changeset	145 elif str(ARGS.rules_selector) == 'ENGRO2':
38c9a958ea78 Uploaded francesco_lapi parents: 266 diff changeset	146 gene_in_rule = pk.load(open(ARGS.tool_dir + '/local/pickle files/ENGRO2_genes.p', 'rb'))
263 f7716d7d7e35 Uploaded francesco_lapi parents: 261 diff changeset	147
309 38c9a958ea78 Uploaded francesco_lapi parents: 266 diff changeset	148 utils.logWarning(f"{ARGS.tool_dir}'/local/pickle files/ENGRO2_genes.p'", ARGS.out_log)
259 91ad9bf5a734 Uploaded francesco_lapi parents: 258 diff changeset	149
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	150 gene_in_rule = gene_in_rule.get(type_gene)
7e703e546998 Uploaded luca_milaz parents: diff changeset	151
7e703e546998 Uploaded luca_milaz parents: diff changeset	152 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	153 gene_in_rule = gene_custom
260 70b2bff188dd Uploaded francesco_lapi parents: 259 diff changeset	154
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	155 tmp = []
7e703e546998 Uploaded luca_milaz parents: diff changeset	156 for i in gene_dup:
7e703e546998 Uploaded luca_milaz parents: diff changeset	157 if gene_in_rule.get(i) == 'ok':
7e703e546998 Uploaded luca_milaz parents: diff changeset	158 tmp.append(i)
7e703e546998 Uploaded luca_milaz parents: diff changeset	159 if tmp:
7e703e546998 Uploaded luca_milaz parents: diff changeset	160 sys.exit('Execution aborted because gene ID '
7e703e546998 Uploaded luca_milaz parents: diff changeset	161 +str(tmp)+' in '+name+' is duplicated\n')
7e703e546998 Uploaded luca_milaz parents: diff changeset	162
7e703e546998 Uploaded luca_milaz parents: diff changeset	163 if pat_dup: utils.logWarning(f"Warning: duplicated label\n{pat_dup} in {name}", ARGS.out_log)
7e703e546998 Uploaded luca_milaz parents: diff changeset	164 return (gene.set_index(gene.columns[0])).to_dict()
7e703e546998 Uploaded luca_milaz parents: diff changeset	165
7e703e546998 Uploaded luca_milaz parents: diff changeset	166 ############################ resolve ##########################################
7e703e546998 Uploaded luca_milaz parents: diff changeset	167 def replace_gene_value(l :str, d :str) -> Tuple[Union[int, float], list]:
7e703e546998 Uploaded luca_milaz parents: diff changeset	168 """
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	169 Replace gene identifiers in a parsed rule expression with values from a dict.
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	170
7e703e546998 Uploaded luca_milaz parents: diff changeset	171 Args:
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	172 l: Parsed rule as a nested list structure (strings, lists, and operators).
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	173 d: Dict mapping gene IDs to numeric values.
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	174
7e703e546998 Uploaded luca_milaz parents: diff changeset	175 Returns:
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	176 tuple: (new_expression, not_found_genes)
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	177 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	178 tmp = []
7e703e546998 Uploaded luca_milaz parents: diff changeset	179 err = []
7e703e546998 Uploaded luca_milaz parents: diff changeset	180 while l:
7e703e546998 Uploaded luca_milaz parents: diff changeset	181 if isinstance(l[0], list):
7e703e546998 Uploaded luca_milaz parents: diff changeset	182 tmp_rules, tmp_err = replace_gene_value(l[0], d)
7e703e546998 Uploaded luca_milaz parents: diff changeset	183 tmp.append(tmp_rules)
7e703e546998 Uploaded luca_milaz parents: diff changeset	184 err.extend(tmp_err)
7e703e546998 Uploaded luca_milaz parents: diff changeset	185 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	186 value = replace_gene(l[0], d)
7e703e546998 Uploaded luca_milaz parents: diff changeset	187 tmp.append(value)
7e703e546998 Uploaded luca_milaz parents: diff changeset	188 if value == None:
7e703e546998 Uploaded luca_milaz parents: diff changeset	189 err.append(l[0])
7e703e546998 Uploaded luca_milaz parents: diff changeset	190 l = l[1:]
7e703e546998 Uploaded luca_milaz parents: diff changeset	191 return (tmp, err)
7e703e546998 Uploaded luca_milaz parents: diff changeset	192
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	193 def replace_gene(l: str, d: Dict[str, Union[int, float]]) -> Union[int, float, None]:
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	194 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	195 Replace a single gene identifier with its corresponding value from a dictionary.
7e703e546998 Uploaded luca_milaz parents: diff changeset	196
7e703e546998 Uploaded luca_milaz parents: diff changeset	197 Args:
7e703e546998 Uploaded luca_milaz parents: diff changeset	198 l (str): Gene identifier to replace.
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	199 d (dict): Dict mapping gene IDs to numeric values.
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	200
7e703e546998 Uploaded luca_milaz parents: diff changeset	201 Returns:
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	202 float/int/None: Corresponding value from the dictionary if found, None otherwise.
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	203
7e703e546998 Uploaded luca_milaz parents: diff changeset	204 Raises:
7e703e546998 Uploaded luca_milaz parents: diff changeset	205 sys.exit: If the value associated with the gene identifier is not valid.
7e703e546998 Uploaded luca_milaz parents: diff changeset	206 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	207 if l =='and' or l == 'or':
7e703e546998 Uploaded luca_milaz parents: diff changeset	208 return l
7e703e546998 Uploaded luca_milaz parents: diff changeset	209 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	210 value = d.get(l, None)
7e703e546998 Uploaded luca_milaz parents: diff changeset	211 if not(value == None or isinstance(value, (int, float))):
7e703e546998 Uploaded luca_milaz parents: diff changeset	212 sys.exit('Execution aborted: ' + value + ' value not valid\n')
7e703e546998 Uploaded luca_milaz parents: diff changeset	213 return value
7e703e546998 Uploaded luca_milaz parents: diff changeset	214
7e703e546998 Uploaded luca_milaz parents: diff changeset	215 T = TypeVar("T", bound = Optional[Union[int, float]])
7e703e546998 Uploaded luca_milaz parents: diff changeset	216 def computes(val1 :T, op :str, val2 :T, cn :bool) -> T:
7e703e546998 Uploaded luca_milaz parents: diff changeset	217 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	218 Compute the RAS value between two value and an operator ('and' or 'or').
7e703e546998 Uploaded luca_milaz parents: diff changeset	219
7e703e546998 Uploaded luca_milaz parents: diff changeset	220 Args:
7e703e546998 Uploaded luca_milaz parents: diff changeset	221 val1(Optional(Union[float, int])): First value.
7e703e546998 Uploaded luca_milaz parents: diff changeset	222 op (str): Operator ('and' or 'or').
7e703e546998 Uploaded luca_milaz parents: diff changeset	223 val2(Optional(Union[float, int])): Second value.
7e703e546998 Uploaded luca_milaz parents: diff changeset	224 cn (bool): Control boolean value.
7e703e546998 Uploaded luca_milaz parents: diff changeset	225
7e703e546998 Uploaded luca_milaz parents: diff changeset	226 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	227 Optional(Union[float, int]): Result of the computation.
7e703e546998 Uploaded luca_milaz parents: diff changeset	228 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	229 if val1 != None and val2 != None:
7e703e546998 Uploaded luca_milaz parents: diff changeset	230 if op == 'and':
7e703e546998 Uploaded luca_milaz parents: diff changeset	231 return min(val1, val2)
7e703e546998 Uploaded luca_milaz parents: diff changeset	232 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	233 return val1 + val2
7e703e546998 Uploaded luca_milaz parents: diff changeset	234 elif op == 'and':
7e703e546998 Uploaded luca_milaz parents: diff changeset	235 if cn is True:
7e703e546998 Uploaded luca_milaz parents: diff changeset	236 if val1 != None:
7e703e546998 Uploaded luca_milaz parents: diff changeset	237 return val1
7e703e546998 Uploaded luca_milaz parents: diff changeset	238 elif val2 != None:
7e703e546998 Uploaded luca_milaz parents: diff changeset	239 return val2
7e703e546998 Uploaded luca_milaz parents: diff changeset	240 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	241 return None
7e703e546998 Uploaded luca_milaz parents: diff changeset	242 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	243 return None
7e703e546998 Uploaded luca_milaz parents: diff changeset	244 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	245 if val1 != None:
7e703e546998 Uploaded luca_milaz parents: diff changeset	246 return val1
7e703e546998 Uploaded luca_milaz parents: diff changeset	247 elif val2 != None:
7e703e546998 Uploaded luca_milaz parents: diff changeset	248 return val2
7e703e546998 Uploaded luca_milaz parents: diff changeset	249 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	250 return None
7e703e546998 Uploaded luca_milaz parents: diff changeset	251
7e703e546998 Uploaded luca_milaz parents: diff changeset	252 # ris should be Literal[None] but Literal is not supported in Python 3.7
7e703e546998 Uploaded luca_milaz parents: diff changeset	253 def control(ris, l :List[Union[int, float, list]], cn :bool) -> Union[bool, int, float]: #Union[Literal[False], int, float]:
7e703e546998 Uploaded luca_milaz parents: diff changeset	254 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	255 Control the format of the expression.
7e703e546998 Uploaded luca_milaz parents: diff changeset	256
7e703e546998 Uploaded luca_milaz parents: diff changeset	257 Args:
7e703e546998 Uploaded luca_milaz parents: diff changeset	258 ris: Intermediate result.
7e703e546998 Uploaded luca_milaz parents: diff changeset	259 l (list): Expression to control.
7e703e546998 Uploaded luca_milaz parents: diff changeset	260 cn (bool): Control boolean value.
7e703e546998 Uploaded luca_milaz parents: diff changeset	261
7e703e546998 Uploaded luca_milaz parents: diff changeset	262 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	263 Union[Literal[False], int, float]: Result of the control.
7e703e546998 Uploaded luca_milaz parents: diff changeset	264 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	265 if len(l) == 1:
7e703e546998 Uploaded luca_milaz parents: diff changeset	266 if isinstance(l[0], (float, int)) or l[0] == None:
7e703e546998 Uploaded luca_milaz parents: diff changeset	267 return l[0]
7e703e546998 Uploaded luca_milaz parents: diff changeset	268 elif isinstance(l[0], list):
7e703e546998 Uploaded luca_milaz parents: diff changeset	269 return control(None, l[0], cn)
7e703e546998 Uploaded luca_milaz parents: diff changeset	270 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	271 return False
7e703e546998 Uploaded luca_milaz parents: diff changeset	272 elif len(l) > 2:
7e703e546998 Uploaded luca_milaz parents: diff changeset	273 return control_list(ris, l, cn)
7e703e546998 Uploaded luca_milaz parents: diff changeset	274 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	275 return False
7e703e546998 Uploaded luca_milaz parents: diff changeset	276
7e703e546998 Uploaded luca_milaz parents: diff changeset	277 def control_list(ris, l :List[Optional[Union[float, int, list]]], cn :bool) -> Optional[bool]: #Optional[Literal[False]]:
7e703e546998 Uploaded luca_milaz parents: diff changeset	278 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	279 Control the format of a list of expressions.
7e703e546998 Uploaded luca_milaz parents: diff changeset	280
7e703e546998 Uploaded luca_milaz parents: diff changeset	281 Args:
7e703e546998 Uploaded luca_milaz parents: diff changeset	282 ris: Intermediate result.
7e703e546998 Uploaded luca_milaz parents: diff changeset	283 l (list): List of expressions to control.
7e703e546998 Uploaded luca_milaz parents: diff changeset	284 cn (bool): Control boolean value.
7e703e546998 Uploaded luca_milaz parents: diff changeset	285
7e703e546998 Uploaded luca_milaz parents: diff changeset	286 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	287 Optional[Literal[False]]: Result of the control.
7e703e546998 Uploaded luca_milaz parents: diff changeset	288 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	289 while l:
7e703e546998 Uploaded luca_milaz parents: diff changeset	290 if len(l) == 1:
7e703e546998 Uploaded luca_milaz parents: diff changeset	291 return False
7e703e546998 Uploaded luca_milaz parents: diff changeset	292 elif (isinstance(l[0], (float, int)) or
7e703e546998 Uploaded luca_milaz parents: diff changeset	293 l[0] == None) and l[1] in ['and', 'or']:
7e703e546998 Uploaded luca_milaz parents: diff changeset	294 if isinstance(l[2], (float, int)) or l[2] == None:
7e703e546998 Uploaded luca_milaz parents: diff changeset	295 ris = computes(l[0], l[1], l[2], cn)
7e703e546998 Uploaded luca_milaz parents: diff changeset	296 elif isinstance(l[2], list):
7e703e546998 Uploaded luca_milaz parents: diff changeset	297 tmp = control(None, l[2], cn)
7e703e546998 Uploaded luca_milaz parents: diff changeset	298 if tmp is False:
7e703e546998 Uploaded luca_milaz parents: diff changeset	299 return False
7e703e546998 Uploaded luca_milaz parents: diff changeset	300 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	301 ris = computes(l[0], l[1], tmp, cn)
7e703e546998 Uploaded luca_milaz parents: diff changeset	302 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	303 return False
7e703e546998 Uploaded luca_milaz parents: diff changeset	304 l = l[3:]
7e703e546998 Uploaded luca_milaz parents: diff changeset	305 elif l[0] in ['and', 'or']:
7e703e546998 Uploaded luca_milaz parents: diff changeset	306 if isinstance(l[1], (float, int)) or l[1] == None:
7e703e546998 Uploaded luca_milaz parents: diff changeset	307 ris = computes(ris, l[0], l[1], cn)
7e703e546998 Uploaded luca_milaz parents: diff changeset	308 elif isinstance(l[1], list):
7e703e546998 Uploaded luca_milaz parents: diff changeset	309 tmp = control(None,l[1], cn)
7e703e546998 Uploaded luca_milaz parents: diff changeset	310 if tmp is False:
7e703e546998 Uploaded luca_milaz parents: diff changeset	311 return False
7e703e546998 Uploaded luca_milaz parents: diff changeset	312 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	313 ris = computes(ris, l[0], tmp, cn)
7e703e546998 Uploaded luca_milaz parents: diff changeset	314 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	315 return False
7e703e546998 Uploaded luca_milaz parents: diff changeset	316 l = l[2:]
7e703e546998 Uploaded luca_milaz parents: diff changeset	317 elif isinstance(l[0], list) and l[1] in ['and', 'or']:
7e703e546998 Uploaded luca_milaz parents: diff changeset	318 if isinstance(l[2], (float, int)) or l[2] == None:
7e703e546998 Uploaded luca_milaz parents: diff changeset	319 tmp = control(None, l[0], cn)
7e703e546998 Uploaded luca_milaz parents: diff changeset	320 if tmp is False:
7e703e546998 Uploaded luca_milaz parents: diff changeset	321 return False
7e703e546998 Uploaded luca_milaz parents: diff changeset	322 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	323 ris = computes(tmp, l[1], l[2], cn)
7e703e546998 Uploaded luca_milaz parents: diff changeset	324 elif isinstance(l[2], list):
7e703e546998 Uploaded luca_milaz parents: diff changeset	325 tmp = control(None, l[0], cn)
7e703e546998 Uploaded luca_milaz parents: diff changeset	326 tmp2 = control(None, l[2], cn)
7e703e546998 Uploaded luca_milaz parents: diff changeset	327 if tmp is False or tmp2 is False:
7e703e546998 Uploaded luca_milaz parents: diff changeset	328 return False
7e703e546998 Uploaded luca_milaz parents: diff changeset	329 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	330 ris = computes(tmp, l[1], tmp2, cn)
7e703e546998 Uploaded luca_milaz parents: diff changeset	331 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	332 return False
7e703e546998 Uploaded luca_milaz parents: diff changeset	333 l = l[3:]
7e703e546998 Uploaded luca_milaz parents: diff changeset	334 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	335 return False
7e703e546998 Uploaded luca_milaz parents: diff changeset	336 return ris
7e703e546998 Uploaded luca_milaz parents: diff changeset	337
7e703e546998 Uploaded luca_milaz parents: diff changeset	338 ResolvedRules = Dict[str, List[Optional[Union[float, int]]]]
7e703e546998 Uploaded luca_milaz parents: diff changeset	339 def resolve(genes: Dict[str, str], rules: List[str], ids: List[str], resolve_none: bool, name: str) -> Tuple[Optional[ResolvedRules], Optional[list]]:
7e703e546998 Uploaded luca_milaz parents: diff changeset	340 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	341 Resolve rules using gene data to compute scores for each rule.
7e703e546998 Uploaded luca_milaz parents: diff changeset	342
7e703e546998 Uploaded luca_milaz parents: diff changeset	343 Args:
7e703e546998 Uploaded luca_milaz parents: diff changeset	344 genes (dict): Dictionary containing gene data with gene IDs as keys and corresponding values.
7e703e546998 Uploaded luca_milaz parents: diff changeset	345 rules (list): List of rules to resolve.
7e703e546998 Uploaded luca_milaz parents: diff changeset	346 ids (list): List of IDs corresponding to the rules.
7e703e546998 Uploaded luca_milaz parents: diff changeset	347 resolve_none (bool): Flag indicating whether to resolve None values in the rules.
7e703e546998 Uploaded luca_milaz parents: diff changeset	348 name (str): Name of the dataset.
7e703e546998 Uploaded luca_milaz parents: diff changeset	349
7e703e546998 Uploaded luca_milaz parents: diff changeset	350 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	351 tuple: A tuple containing resolved rules as a dictionary and a list of gene IDs not found in the data.
7e703e546998 Uploaded luca_milaz parents: diff changeset	352 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	353 resolve_rules = {}
7e703e546998 Uploaded luca_milaz parents: diff changeset	354 not_found = []
7e703e546998 Uploaded luca_milaz parents: diff changeset	355 flag = False
7e703e546998 Uploaded luca_milaz parents: diff changeset	356 for key, value in genes.items():
7e703e546998 Uploaded luca_milaz parents: diff changeset	357 tmp_resolve = []
7e703e546998 Uploaded luca_milaz parents: diff changeset	358 for i in range(len(rules)):
7e703e546998 Uploaded luca_milaz parents: diff changeset	359 tmp = rules[i]
7e703e546998 Uploaded luca_milaz parents: diff changeset	360 if tmp:
7e703e546998 Uploaded luca_milaz parents: diff changeset	361 tmp, err = replace_gene_value(tmp, value)
7e703e546998 Uploaded luca_milaz parents: diff changeset	362 if err:
7e703e546998 Uploaded luca_milaz parents: diff changeset	363 not_found.extend(err)
7e703e546998 Uploaded luca_milaz parents: diff changeset	364 ris = control(None, tmp, resolve_none)
7e703e546998 Uploaded luca_milaz parents: diff changeset	365 if ris is False or ris == None:
7e703e546998 Uploaded luca_milaz parents: diff changeset	366 tmp_resolve.append(None)
7e703e546998 Uploaded luca_milaz parents: diff changeset	367 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	368 tmp_resolve.append(ris)
7e703e546998 Uploaded luca_milaz parents: diff changeset	369 flag = True
7e703e546998 Uploaded luca_milaz parents: diff changeset	370 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	371 tmp_resolve.append(None)
7e703e546998 Uploaded luca_milaz parents: diff changeset	372 resolve_rules[key] = tmp_resolve
7e703e546998 Uploaded luca_milaz parents: diff changeset	373
7e703e546998 Uploaded luca_milaz parents: diff changeset	374 if flag is False:
7e703e546998 Uploaded luca_milaz parents: diff changeset	375 utils.logWarning(
7e703e546998 Uploaded luca_milaz parents: diff changeset	376 f"Warning: no computable score (due to missing gene values) for class {name}, the class has been disregarded",
7e703e546998 Uploaded luca_milaz parents: diff changeset	377 ARGS.out_log)
7e703e546998 Uploaded luca_milaz parents: diff changeset	378
7e703e546998 Uploaded luca_milaz parents: diff changeset	379 return (None, None)
7e703e546998 Uploaded luca_milaz parents: diff changeset	380
7e703e546998 Uploaded luca_milaz parents: diff changeset	381 return (resolve_rules, list(set(not_found)))
7e703e546998 Uploaded luca_milaz parents: diff changeset	382 ############################ create_ras #######################################
7e703e546998 Uploaded luca_milaz parents: diff changeset	383 def create_ras(resolve_rules: Optional[ResolvedRules], dataset_name: str, rules: List[str], ids: List[str], file: str) -> None:
7e703e546998 Uploaded luca_milaz parents: diff changeset	384 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	385 Create a RAS (Reaction Activity Score) file from resolved rules.
7e703e546998 Uploaded luca_milaz parents: diff changeset	386
7e703e546998 Uploaded luca_milaz parents: diff changeset	387 Args:
7e703e546998 Uploaded luca_milaz parents: diff changeset	388 resolve_rules (dict): Dictionary containing resolved rules.
7e703e546998 Uploaded luca_milaz parents: diff changeset	389 dataset_name (str): Name of the dataset.
7e703e546998 Uploaded luca_milaz parents: diff changeset	390 rules (list): List of rules.
7e703e546998 Uploaded luca_milaz parents: diff changeset	391 file (str): Path to the output RAS file.
7e703e546998 Uploaded luca_milaz parents: diff changeset	392
7e703e546998 Uploaded luca_milaz parents: diff changeset	393 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	394 None
7e703e546998 Uploaded luca_milaz parents: diff changeset	395 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	396 if resolve_rules is None:
7e703e546998 Uploaded luca_milaz parents: diff changeset	397 utils.logWarning(f"Couldn't generate RAS for current dataset: {dataset_name}", ARGS.out_log)
7e703e546998 Uploaded luca_milaz parents: diff changeset	398
7e703e546998 Uploaded luca_milaz parents: diff changeset	399 for geni in resolve_rules.values():
7e703e546998 Uploaded luca_milaz parents: diff changeset	400 for i, valori in enumerate(geni):
7e703e546998 Uploaded luca_milaz parents: diff changeset	401 if valori == None:
7e703e546998 Uploaded luca_milaz parents: diff changeset	402 geni[i] = 'None'
7e703e546998 Uploaded luca_milaz parents: diff changeset	403
7e703e546998 Uploaded luca_milaz parents: diff changeset	404 output_ras = pd.DataFrame.from_dict(resolve_rules)
7e703e546998 Uploaded luca_milaz parents: diff changeset	405
7e703e546998 Uploaded luca_milaz parents: diff changeset	406 output_ras.insert(0, 'Reactions', ids)
7e703e546998 Uploaded luca_milaz parents: diff changeset	407 output_to_csv = pd.DataFrame.to_csv(output_ras, sep = '\t', index = False)
7e703e546998 Uploaded luca_milaz parents: diff changeset	408
7e703e546998 Uploaded luca_milaz parents: diff changeset	409 text_file = open(file, "w")
7e703e546998 Uploaded luca_milaz parents: diff changeset	410
7e703e546998 Uploaded luca_milaz parents: diff changeset	411 text_file.write(output_to_csv)
7e703e546998 Uploaded luca_milaz parents: diff changeset	412 text_file.close()
7e703e546998 Uploaded luca_milaz parents: diff changeset	413
7e703e546998 Uploaded luca_milaz parents: diff changeset	414 ################################- NEW RAS COMPUTATION -################################
7e703e546998 Uploaded luca_milaz parents: diff changeset	415 Expr = Optional[Union[int, float]]
7e703e546998 Uploaded luca_milaz parents: diff changeset	416 Ras = Expr
7e703e546998 Uploaded luca_milaz parents: diff changeset	417 def ras_for_cell_lines(dataset: pd.DataFrame, rules: Dict[str, ruleUtils.OpList]) -> Dict[str, Dict[str, Ras]]:
7e703e546998 Uploaded luca_milaz parents: diff changeset	418 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	419 Generates the RAS scores for each cell line found in the dataset.
7e703e546998 Uploaded luca_milaz parents: diff changeset	420
7e703e546998 Uploaded luca_milaz parents: diff changeset	421 Args:
7e703e546998 Uploaded luca_milaz parents: diff changeset	422 dataset (pd.DataFrame): Dataset containing gene values.
7e703e546998 Uploaded luca_milaz parents: diff changeset	423 rules (dict): The dict containing reaction ids as keys and rules as values.
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	424
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	425 Note:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	426 Modifies dataset in place by setting the first column as index.
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	427
7e703e546998 Uploaded luca_milaz parents: diff changeset	428 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	429 dict: A dictionary where each key corresponds to a cell line name and each value is a dictionary
7e703e546998 Uploaded luca_milaz parents: diff changeset	430 where each key corresponds to a reaction ID and each value is its computed RAS score.
7e703e546998 Uploaded luca_milaz parents: diff changeset	431 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	432 ras_values_by_cell_line = {}
7e703e546998 Uploaded luca_milaz parents: diff changeset	433 dataset.set_index(dataset.columns[0], inplace=True)
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	434
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	435 for cell_line_name in dataset.columns: #[1:]:
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	436 cell_line = dataset[cell_line_name].to_dict()
7e703e546998 Uploaded luca_milaz parents: diff changeset	437 ras_values_by_cell_line[cell_line_name]= get_ras_values(rules, cell_line)
7e703e546998 Uploaded luca_milaz parents: diff changeset	438 return ras_values_by_cell_line
7e703e546998 Uploaded luca_milaz parents: diff changeset	439
7e703e546998 Uploaded luca_milaz parents: diff changeset	440 def get_ras_values(value_rules: Dict[str, ruleUtils.OpList], dataset: Dict[str, Expr]) -> Dict[str, Ras]:
7e703e546998 Uploaded luca_milaz parents: diff changeset	441 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	442 Computes the RAS (Reaction Activity Score) values for each rule in the given dict.
7e703e546998 Uploaded luca_milaz parents: diff changeset	443
7e703e546998 Uploaded luca_milaz parents: diff changeset	444 Args:
7e703e546998 Uploaded luca_milaz parents: diff changeset	445 value_rules (dict): A dictionary where keys are reaction ids and values are OpLists.
7e703e546998 Uploaded luca_milaz parents: diff changeset	446 dataset : gene expression data of one cell line.
7e703e546998 Uploaded luca_milaz parents: diff changeset	447
7e703e546998 Uploaded luca_milaz parents: diff changeset	448 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	449 dict: A dictionary where keys are reaction ids and values are the computed RAS values for each rule.
7e703e546998 Uploaded luca_milaz parents: diff changeset	450 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	451 return {key: ras_op_list(op_list, dataset) for key, op_list in value_rules.items()}
7e703e546998 Uploaded luca_milaz parents: diff changeset	452
7e703e546998 Uploaded luca_milaz parents: diff changeset	453 def get_gene_expr(dataset :Dict[str, Expr], name :str) -> Expr:
7e703e546998 Uploaded luca_milaz parents: diff changeset	454 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	455 Extracts the gene expression of the given gene from a cell line dataset.
7e703e546998 Uploaded luca_milaz parents: diff changeset	456
7e703e546998 Uploaded luca_milaz parents: diff changeset	457 Args:
7e703e546998 Uploaded luca_milaz parents: diff changeset	458 dataset : gene expression data of one cell line.
7e703e546998 Uploaded luca_milaz parents: diff changeset	459 name : gene name.
7e703e546998 Uploaded luca_milaz parents: diff changeset	460
7e703e546998 Uploaded luca_milaz parents: diff changeset	461 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	462 Expr : the gene's expression value.
7e703e546998 Uploaded luca_milaz parents: diff changeset	463 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	464 expr = dataset.get(name, None)
7e703e546998 Uploaded luca_milaz parents: diff changeset	465 if expr is None: ERRORS.append(name)
7e703e546998 Uploaded luca_milaz parents: diff changeset	466
7e703e546998 Uploaded luca_milaz parents: diff changeset	467 return expr
7e703e546998 Uploaded luca_milaz parents: diff changeset	468
7e703e546998 Uploaded luca_milaz parents: diff changeset	469 def ras_op_list(op_list: ruleUtils.OpList, dataset: Dict[str, Expr]) -> Ras:
7e703e546998 Uploaded luca_milaz parents: diff changeset	470 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	471 Computes recursively the RAS (Reaction Activity Score) value for the given OpList, considering the specified flag to control None behavior.
7e703e546998 Uploaded luca_milaz parents: diff changeset	472
7e703e546998 Uploaded luca_milaz parents: diff changeset	473 Args:
7e703e546998 Uploaded luca_milaz parents: diff changeset	474 op_list (OpList): The OpList representing a rule with gene values.
7e703e546998 Uploaded luca_milaz parents: diff changeset	475 dataset : gene expression data of one cell line.
7e703e546998 Uploaded luca_milaz parents: diff changeset	476
7e703e546998 Uploaded luca_milaz parents: diff changeset	477 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	478 Ras: The computed RAS value for the given OpList.
7e703e546998 Uploaded luca_milaz parents: diff changeset	479 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	480 op = op_list.op
7e703e546998 Uploaded luca_milaz parents: diff changeset	481 ras_value :Ras = None
7e703e546998 Uploaded luca_milaz parents: diff changeset	482 if not op: return get_gene_expr(dataset, op_list[0])
7e703e546998 Uploaded luca_milaz parents: diff changeset	483 if op is ruleUtils.RuleOp.AND and not ARGS.none and None in op_list: return None
7e703e546998 Uploaded luca_milaz parents: diff changeset	484
7e703e546998 Uploaded luca_milaz parents: diff changeset	485 for i in range(len(op_list)):
7e703e546998 Uploaded luca_milaz parents: diff changeset	486 item = op_list[i]
7e703e546998 Uploaded luca_milaz parents: diff changeset	487 if isinstance(item, ruleUtils.OpList):
7e703e546998 Uploaded luca_milaz parents: diff changeset	488 item = ras_op_list(item, dataset)
7e703e546998 Uploaded luca_milaz parents: diff changeset	489
7e703e546998 Uploaded luca_milaz parents: diff changeset	490 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	491 item = get_gene_expr(dataset, item)
7e703e546998 Uploaded luca_milaz parents: diff changeset	492
7e703e546998 Uploaded luca_milaz parents: diff changeset	493 if item is None:
7e703e546998 Uploaded luca_milaz parents: diff changeset	494 if op is ruleUtils.RuleOp.AND and not ARGS.none: return None
7e703e546998 Uploaded luca_milaz parents: diff changeset	495 continue
7e703e546998 Uploaded luca_milaz parents: diff changeset	496
7e703e546998 Uploaded luca_milaz parents: diff changeset	497 if ras_value is None:
7e703e546998 Uploaded luca_milaz parents: diff changeset	498 ras_value = item
7e703e546998 Uploaded luca_milaz parents: diff changeset	499 else:
7e703e546998 Uploaded luca_milaz parents: diff changeset	500 ras_value = ras_value + item if op is ruleUtils.RuleOp.OR else min(ras_value, item)
7e703e546998 Uploaded luca_milaz parents: diff changeset	501
7e703e546998 Uploaded luca_milaz parents: diff changeset	502 return ras_value
7e703e546998 Uploaded luca_milaz parents: diff changeset	503
7e703e546998 Uploaded luca_milaz parents: diff changeset	504 def save_as_tsv(rasScores: Dict[str, Dict[str, Ras]], reactions :List[str]) -> None:
7e703e546998 Uploaded luca_milaz parents: diff changeset	505 """
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	506 Save computed RAS scores to ARGS.ras_output as a TSV file.
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	507
7e703e546998 Uploaded luca_milaz parents: diff changeset	508 Args:
7e703e546998 Uploaded luca_milaz parents: diff changeset	509 rasScores : the computed ras scores.
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	510 reactions : the list of reaction IDs, used as the first column.
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	511
7e703e546998 Uploaded luca_milaz parents: diff changeset	512 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	513 None
7e703e546998 Uploaded luca_milaz parents: diff changeset	514 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	515 for scores in rasScores.values(): # this is actually a lot faster than using the ootb dataframe metod, sadly
7e703e546998 Uploaded luca_milaz parents: diff changeset	516 for reactId, score in scores.items():
7e703e546998 Uploaded luca_milaz parents: diff changeset	517 if score is None: scores[reactId] = "None"
7e703e546998 Uploaded luca_milaz parents: diff changeset	518
7e703e546998 Uploaded luca_milaz parents: diff changeset	519 output_ras = pd.DataFrame.from_dict(rasScores)
7e703e546998 Uploaded luca_milaz parents: diff changeset	520 output_ras.insert(0, 'Reactions', reactions)
7e703e546998 Uploaded luca_milaz parents: diff changeset	521 output_ras.to_csv(ARGS.ras_output, sep = '\t', index = False)
7e703e546998 Uploaded luca_milaz parents: diff changeset	522
7e703e546998 Uploaded luca_milaz parents: diff changeset	523 ############################ MAIN #############################################
7e703e546998 Uploaded luca_milaz parents: diff changeset	524 #TODO: not used but keep, it will be when the new translator dicts will be used.
7e703e546998 Uploaded luca_milaz parents: diff changeset	525 def translateGene(geneName :str, encoding :str, geneTranslator :Dict[str, Dict[str, str]]) -> str:
7e703e546998 Uploaded luca_milaz parents: diff changeset	526 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	527 Translate gene from any supported encoding to HugoID.
7e703e546998 Uploaded luca_milaz parents: diff changeset	528
7e703e546998 Uploaded luca_milaz parents: diff changeset	529 Args:
7e703e546998 Uploaded luca_milaz parents: diff changeset	530 geneName (str): the name of the gene in its current encoding.
7e703e546998 Uploaded luca_milaz parents: diff changeset	531 encoding (str): the encoding.
7e703e546998 Uploaded luca_milaz parents: diff changeset	532 geneTranslator (Dict[str, Dict[str, str]]): the dict containing all supported gene names
7e703e546998 Uploaded luca_milaz parents: diff changeset	533 and encodings in the current model, mapping each to the corresponding HugoID encoding.
7e703e546998 Uploaded luca_milaz parents: diff changeset	534
7e703e546998 Uploaded luca_milaz parents: diff changeset	535 Raises:
7e703e546998 Uploaded luca_milaz parents: diff changeset	536 ValueError: When the gene isn't supported in the model.
7e703e546998 Uploaded luca_milaz parents: diff changeset	537
7e703e546998 Uploaded luca_milaz parents: diff changeset	538 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	539 str: the gene in HugoID encoding.
7e703e546998 Uploaded luca_milaz parents: diff changeset	540 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	541 supportedGenesInEncoding = geneTranslator[encoding]
7e703e546998 Uploaded luca_milaz parents: diff changeset	542 if geneName in supportedGenesInEncoding: return supportedGenesInEncoding[geneName]
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	543 raise ValueError(f"Gene '{geneName}' not found. Please verify you are using the correct model.")
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	544
7e703e546998 Uploaded luca_milaz parents: diff changeset	545 def load_custom_rules() -> Dict[str, ruleUtils.OpList]:
7e703e546998 Uploaded luca_milaz parents: diff changeset	546 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	547 Opens custom rules file and extracts the rules. If the file is in .csv format an additional parsing step will be
7e703e546998 Uploaded luca_milaz parents: diff changeset	548 performed, significantly impacting the runtime.
7e703e546998 Uploaded luca_milaz parents: diff changeset	549
7e703e546998 Uploaded luca_milaz parents: diff changeset	550 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	551 Dict[str, ruleUtils.OpList] : dict mapping reaction IDs to rules.
7e703e546998 Uploaded luca_milaz parents: diff changeset	552 """
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	553 datFilePath = utils.FilePath.fromStrPath(ARGS.model_upload) # actual file, stored in Galaxy as a .dat
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	554
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	555 dict_rule = {}
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	556
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	557 try:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	558 rows = utils.readCsv(datFilePath, delimiter = "\t", skipHeader=False)
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	559 if len(rows) <= 1:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	560 raise ValueError("Model tabular with 1 column is not supported.")
381 0a3ca20848f3 Uploaded francesco_lapi parents: 309 diff changeset	561
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	562 if not rows:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	563 raise ValueError("Model tabular is file is empty.")
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	564
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	565 id_idx, idx_gpr = utils.findIdxByName(rows[0], "GPR")
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	566
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	567 # First, try using a tab delimiter
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	568 for line in rows[1:]:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	569 if len(line) <= idx_gpr:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	570 utils.logWarning(f"Skipping malformed line: {line}", ARGS.out_log)
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	571 continue
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	572
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	573 if line[idx_gpr] == "":
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	574 dict_rule[line[id_idx]] = ruleUtils.OpList([""])
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	575 else:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	576 dict_rule[line[id_idx]] = ruleUtils.parseRuleToNestedList(line[idx_gpr])
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	577
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	578 except Exception as e:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	579 # If parsing with tabs fails, try comma delimiter
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	580 try:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	581 rows = utils.readCsv(datFilePath, delimiter = ",", skipHeader=False)
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	582
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	583 if len(rows) <= 1:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	584 raise ValueError("Model tabular with 1 column is not supported.")
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	585
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	586 if not rows:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	587 raise ValueError("Model tabular is file is empty.")
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	588
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	589 id_idx, idx_gpr = utils.findIdxByName(rows[0], "GPR")
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	590
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	591 # Try again parsing row content with the GPR column using comma-separated values
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	592 for line in rows[1:]:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	593 if len(line) <= idx_gpr:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	594 utils.logWarning(f"Skipping malformed line: {line}", ARGS.out_log)
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	595 continue
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	596
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	597 if line[idx_gpr] == "":
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	598 dict_rule[line[id_idx]] = ruleUtils.OpList([""])
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	599 else:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	600 dict_rule[line[id_idx]] = ruleUtils.parseRuleToNestedList(line[idx_gpr])
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	601
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	602 except Exception as e2:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	603 raise ValueError(f"Unable to parse rules file. Tried both tab and comma delimiters. Original errors: Tab: {e}, Comma: {e2}")
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	604
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	605 if not dict_rule:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	606 raise ValueError("No valid rules found in the uploaded file. Please check the file format.")
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	607 # csv rules need to be parsed, those in a pickle format are taken to be pre-parsed.
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	608 return dict_rule
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	609
401 6c7ddf68381a Uploaded francesco_lapi parents: 400 diff changeset	610
147 3fca9b568faf Uploaded bimib parents: 93 diff changeset	611 def main(args:List[str] = None) -> None:
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	612 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	613 Initializes everything and sets the program in motion based on the fronted input arguments.
7e703e546998 Uploaded luca_milaz parents: diff changeset	614
7e703e546998 Uploaded luca_milaz parents: diff changeset	615 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	616 None
7e703e546998 Uploaded luca_milaz parents: diff changeset	617 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	618 # get args from frontend (related xml)
7e703e546998 Uploaded luca_milaz parents: diff changeset	619 global ARGS
147 3fca9b568faf Uploaded bimib parents: 93 diff changeset	620 ARGS = process_args(args)
309 38c9a958ea78 Uploaded francesco_lapi parents: 266 diff changeset	621
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	622 # read dataset
7e703e546998 Uploaded luca_milaz parents: diff changeset	623 dataset = read_dataset(ARGS.input, "dataset")
7e703e546998 Uploaded luca_milaz parents: diff changeset	624 dataset.iloc[:, 0] = (dataset.iloc[:, 0]).astype(str)
7e703e546998 Uploaded luca_milaz parents: diff changeset	625
7e703e546998 Uploaded luca_milaz parents: diff changeset	626 # remove versioning from gene names
7e703e546998 Uploaded luca_milaz parents: diff changeset	627 dataset.iloc[:, 0] = dataset.iloc[:, 0].str.split('.').str[0]
7e703e546998 Uploaded luca_milaz parents: diff changeset	628
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	629 rules = load_custom_rules()
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	630 reactions = list(rules.keys())
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	631
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	632 save_as_tsv(ras_for_cell_lines(dataset, rules), reactions)
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	633 if ERRORS: utils.logWarning(
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	634 f"The following genes are mentioned in the rules but don't appear in the dataset: {ERRORS}",
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	635 ARGS.out_log)
381 0a3ca20848f3 Uploaded francesco_lapi parents: 309 diff changeset	636
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	637
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	638 print("Execution succeeded")
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	639
7e703e546998 Uploaded luca_milaz parents: diff changeset	640 ###############################################################################
7e703e546998 Uploaded luca_milaz parents: diff changeset	641 if __name__ == "__main__":
309 38c9a958ea78 Uploaded francesco_lapi parents: 266 diff changeset	642 main()

Mercurial > repos > bimib > cobraxy

annotate COBRAxy/ras_generator.py @ 490:c6ea189ea7e9 draft