cobraxy: COBRAxy/ras_generator.py annotate

annotate COBRAxy/ras_generator.py @ 531:1fc5c1edb0ef draft

Uploaded

author	francesco_lapi
date	Wed, 22 Oct 2025 13:30:18 +0000
parents	352c51a39e23
children

rev	line source
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	1 """
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	2 Generate Reaction Activity Scores (RAS) from a gene expression dataset and GPR rules.
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	3
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	4 The script reads a tabular dataset (genes x samples) and a rules file (GPRs),
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	5 computes RAS per reaction for each sample/cell line, and writes a tabular output.
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	6 """
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	7 from __future__ import division
7e703e546998 Uploaded luca_milaz parents: diff changeset	8 import sys
7e703e546998 Uploaded luca_milaz parents: diff changeset	9 import argparse
7e703e546998 Uploaded luca_milaz parents: diff changeset	10 import pandas as pd
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	11 import numpy as np
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	12 import utils.general_utils as utils
529 6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	13 from typing import List, Dict
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	14 import ast
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	15
529 6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	16 # Optional imports for AnnData mode (not used in ras_generator.py)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	17 try:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	18 from progressbar import ProgressBar, Bar, Percentage
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	19 from scanpy import AnnData
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	20 from cobra.flux_analysis.variability import find_essential_reactions, find_essential_genes
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	21 except ImportError:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	22 # These are only needed for AnnData mode, not for ras_generator.py
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	23 pass
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	24
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	25 ERRORS = []
7e703e546998 Uploaded luca_milaz parents: diff changeset	26 ########################## argparse ##########################################
7e703e546998 Uploaded luca_milaz parents: diff changeset	27 ARGS :argparse.Namespace
147 3fca9b568faf Uploaded bimib parents: 93 diff changeset	28 def process_args(args:List[str] = None) -> argparse.Namespace:
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	29 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	30 Processes command-line arguments.
7e703e546998 Uploaded luca_milaz parents: diff changeset	31
7e703e546998 Uploaded luca_milaz parents: diff changeset	32 Args:
7e703e546998 Uploaded luca_milaz parents: diff changeset	33 args (list): List of command-line arguments.
7e703e546998 Uploaded luca_milaz parents: diff changeset	34
7e703e546998 Uploaded luca_milaz parents: diff changeset	35 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	36 Namespace: An object containing parsed arguments.
7e703e546998 Uploaded luca_milaz parents: diff changeset	37 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	38 parser = argparse.ArgumentParser(
7e703e546998 Uploaded luca_milaz parents: diff changeset	39 usage = '%(prog)s [options]',
7e703e546998 Uploaded luca_milaz parents: diff changeset	40 description = "process some value's genes to create a comparison's map.")
7e703e546998 Uploaded luca_milaz parents: diff changeset	41
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	42 parser.add_argument("-rl", "--model_upload", type = str,
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	43 help = "path to input file containing the rules")
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	44
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	45 parser.add_argument("-rn", "--model_upload_name", type = str, help = "custom rules name")
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	46 # Galaxy converts files into .dat, this helps infer the original extension when needed.
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	47
7e703e546998 Uploaded luca_milaz parents: diff changeset	48 parser.add_argument(
7e703e546998 Uploaded luca_milaz parents: diff changeset	49 '-n', '--none',
7e703e546998 Uploaded luca_milaz parents: diff changeset	50 type = utils.Bool("none"), default = True,
7e703e546998 Uploaded luca_milaz parents: diff changeset	51 help = 'compute Nan values')
7e703e546998 Uploaded luca_milaz parents: diff changeset	52
7e703e546998 Uploaded luca_milaz parents: diff changeset	53 parser.add_argument(
7e703e546998 Uploaded luca_milaz parents: diff changeset	54 '-td', '--tool_dir',
7e703e546998 Uploaded luca_milaz parents: diff changeset	55 type = str,
7e703e546998 Uploaded luca_milaz parents: diff changeset	56 required = True, help = 'your tool directory')
7e703e546998 Uploaded luca_milaz parents: diff changeset	57
7e703e546998 Uploaded luca_milaz parents: diff changeset	58 parser.add_argument(
7e703e546998 Uploaded luca_milaz parents: diff changeset	59 '-ol', '--out_log',
7e703e546998 Uploaded luca_milaz parents: diff changeset	60 type = str,
7e703e546998 Uploaded luca_milaz parents: diff changeset	61 help = "Output log")
7e703e546998 Uploaded luca_milaz parents: diff changeset	62
7e703e546998 Uploaded luca_milaz parents: diff changeset	63 parser.add_argument(
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	64 '-in', '--input',
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	65 type = str,
7e703e546998 Uploaded luca_milaz parents: diff changeset	66 help = 'input dataset')
7e703e546998 Uploaded luca_milaz parents: diff changeset	67
7e703e546998 Uploaded luca_milaz parents: diff changeset	68 parser.add_argument(
7e703e546998 Uploaded luca_milaz parents: diff changeset	69 '-ra', '--ras_output',
7e703e546998 Uploaded luca_milaz parents: diff changeset	70 type = str,
7e703e546998 Uploaded luca_milaz parents: diff changeset	71 required = True, help = 'ras output')
147 3fca9b568faf Uploaded bimib parents: 93 diff changeset	72
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	73
147 3fca9b568faf Uploaded bimib parents: 93 diff changeset	74 return parser.parse_args(args)
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	75
7e703e546998 Uploaded luca_milaz parents: diff changeset	76 ############################ dataset input ####################################
7e703e546998 Uploaded luca_milaz parents: diff changeset	77 def read_dataset(data :str, name :str) -> pd.DataFrame:
7e703e546998 Uploaded luca_milaz parents: diff changeset	78 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	79 Read a dataset from a CSV file and return it as a pandas DataFrame.
7e703e546998 Uploaded luca_milaz parents: diff changeset	80
7e703e546998 Uploaded luca_milaz parents: diff changeset	81 Args:
7e703e546998 Uploaded luca_milaz parents: diff changeset	82 data (str): Path to the CSV file containing the dataset.
7e703e546998 Uploaded luca_milaz parents: diff changeset	83 name (str): Name of the dataset, used in error messages.
7e703e546998 Uploaded luca_milaz parents: diff changeset	84
7e703e546998 Uploaded luca_milaz parents: diff changeset	85 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	86 pandas.DataFrame: DataFrame containing the dataset.
7e703e546998 Uploaded luca_milaz parents: diff changeset	87
7e703e546998 Uploaded luca_milaz parents: diff changeset	88 Raises:
7e703e546998 Uploaded luca_milaz parents: diff changeset	89 pd.errors.EmptyDataError: If the CSV file is empty.
7e703e546998 Uploaded luca_milaz parents: diff changeset	90 sys.exit: If the CSV file has the wrong format, the execution is aborted.
7e703e546998 Uploaded luca_milaz parents: diff changeset	91 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	92 try:
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	93 dataset = pd.read_csv(data, sep = '\t', header = 0, engine='python', index_col=0)
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	94 dataset = dataset.astype(float)
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	95 except pd.errors.EmptyDataError:
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	96 sys.exit('Execution aborted: wrong file format of ' + name + '\n')
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	97 if len(dataset.columns) < 2:
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	98 sys.exit('Execution aborted: wrong file format of ' + name + '\n')
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	99 return dataset
7e703e546998 Uploaded luca_milaz parents: diff changeset	100
7e703e546998 Uploaded luca_milaz parents: diff changeset	101
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	102 def load_custom_rules() -> Dict[str,str]:
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	103 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	104 Opens custom rules file and extracts the rules. If the file is in .csv format an additional parsing step will be
7e703e546998 Uploaded luca_milaz parents: diff changeset	105 performed, significantly impacting the runtime.
7e703e546998 Uploaded luca_milaz parents: diff changeset	106
7e703e546998 Uploaded luca_milaz parents: diff changeset	107 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	108 Dict[str, ruleUtils.OpList] : dict mapping reaction IDs to rules.
7e703e546998 Uploaded luca_milaz parents: diff changeset	109 """
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	110 datFilePath = utils.FilePath.fromStrPath(ARGS.model_upload) # actual file, stored in Galaxy as a .dat
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	111
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	112 dict_rule = {}
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	113
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	114 try:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	115 rows = utils.readCsv(datFilePath, delimiter = "\t", skipHeader=False)
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	116 if len(rows) <= 1:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	117 raise ValueError("Model tabular with 1 column is not supported.")
381 0a3ca20848f3 Uploaded francesco_lapi parents: 309 diff changeset	118
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	119 if not rows:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	120 raise ValueError("Model tabular is file is empty.")
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	121
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	122 id_idx, idx_gpr = utils.findIdxByName(rows[0], "GPR")
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	123
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	124 # First, try using a tab delimiter
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	125 for line in rows[1:]:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	126 if len(line) <= idx_gpr:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	127 utils.logWarning(f"Skipping malformed line: {line}", ARGS.out_log)
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	128 continue
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	129
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	130 dict_rule[line[id_idx]] = line[idx_gpr]
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	131
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	132 except Exception as e:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	133 # If parsing with tabs fails, try comma delimiter
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	134 try:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	135 rows = utils.readCsv(datFilePath, delimiter = ",", skipHeader=False)
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	136
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	137 if len(rows) <= 1:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	138 raise ValueError("Model tabular with 1 column is not supported.")
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	139
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	140 if not rows:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	141 raise ValueError("Model tabular is file is empty.")
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	142
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	143 id_idx, idx_gpr = utils.findIdxByName(rows[0], "GPR")
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	144
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	145 # Try again parsing row content with the GPR column using comma-separated values
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	146 for line in rows[1:]:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	147 if len(line) <= idx_gpr:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	148 utils.logWarning(f"Skipping malformed line: {line}", ARGS.out_log)
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	149 continue
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	150
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	151 dict_rule[line[id_idx]] =line[idx_gpr]
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	152
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	153 except Exception as e2:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	154 raise ValueError(f"Unable to parse rules file. Tried both tab and comma delimiters. Original errors: Tab: {e}, Comma: {e2}")
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	155
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	156 if not dict_rule:
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	157 raise ValueError("No valid rules found in the uploaded file. Please check the file format.")
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	158 # csv rules need to be parsed, those in a pickle format are taken to be pre-parsed.
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	159 return dict_rule
97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	160
401 6c7ddf68381a Uploaded francesco_lapi parents: 400 diff changeset	161
529 6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	162 """
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	163 Class to compute the RAS values
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	164
529 6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	165 """
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	166
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	167 class RAS_computation:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	168
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	169 def __init__(self, adata=None, model=None, dataset=None, gene_rules=None, rules_total_string=None):
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	170 """
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	171 Initialize RAS computation with two possible input modes:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	172
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	173 Mode 1 (Original - for sampling_main.py):
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	174 adata: AnnData object with gene expression (cells × genes)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	175 model: COBRApy model object with reactions and GPRs
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	176
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	177 Mode 2 (New - for ras_generator.py):
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	178 dataset: pandas DataFrame with gene expression (genes × samples)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	179 gene_rules: dict mapping reaction IDs to GPR strings
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	180 rules_total_string: list of all gene names in GPRs (for validation)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	181 """
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	182 self._logic_operators = ['and', 'or', '(', ')']
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	183 self.val_nan = np.nan
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	184
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	185 # Determine which mode we're in
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	186 if adata is not None and model is not None:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	187 # Mode 1: AnnData + COBRApy model (original)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	188 self._init_from_anndata(adata, model)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	189 elif dataset is not None and gene_rules is not None:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	190 # Mode 2: DataFrame + rules dict (ras_generator style)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	191 self._init_from_dataframe(dataset, gene_rules, rules_total_string)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	192 else:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	193 raise ValueError(
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	194 "Invalid initialization. Provide either:\n"
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	195 " - adata + model (for AnnData input), or\n"
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	196 " - dataset + gene_rules (for DataFrame input)"
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	197 )
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	198
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	199 def _normalize_gene_name(self, gene_name):
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	200 """Normalize gene names by replacing special characters."""
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	201 return gene_name.replace("-", "_").replace(":", "_")
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	202
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	203 def _normalize_rule(self, rule):
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	204 """Normalize GPR rule: lowercase operators, add spaces around parentheses, normalize gene names."""
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	205 rule = rule.replace("OR", "or").replace("AND", "and")
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	206 rule = rule.replace("(", "( ").replace(")", " )")
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	207 # Normalize gene names in the rule
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	208 tokens = rule.split()
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	209 normalized_tokens = [token if token in self._logic_operators else self._normalize_gene_name(token) for token in tokens]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	210 return " ".join(normalized_tokens)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	211
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	212 def _init_from_anndata(self, adata, model):
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	213 """Initialize from AnnData and COBRApy model (original mode)."""
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	214 # Build the dictionary for the GPRs
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	215 df_reactions = pd.DataFrame(index=[reaction.id for reaction in model.reactions])
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	216 gene_rules = [self._normalize_rule(reaction.gene_reaction_rule) for reaction in model.reactions]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	217 df_reactions['rule'] = gene_rules
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	218 df_reactions = df_reactions.reset_index()
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	219 df_reactions = df_reactions.groupby('rule').agg(lambda x: sorted(list(x)))
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	220
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	221 self.dict_rule_reactions = df_reactions.to_dict()['index']
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	222
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	223 # build useful structures for RAS computation
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	224 self.model = model
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	225 self.count_adata = adata.copy()
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	226
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	227 # Normalize gene names in both model and dataset
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	228 model_genes = [self._normalize_gene_name(gene.id) for gene in model.genes]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	229 dataset_genes = [self._normalize_gene_name(gene) for gene in self.count_adata.var.index]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	230 self.genes = pd.Index(dataset_genes).intersection(model_genes)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	231
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	232 if len(self.genes) == 0:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	233 raise ValueError("ERROR: No genes from the count matrix match the metabolic model. Check that gene annotations are consistent between model and dataset.")
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	234
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	235 self.cell_ids = list(self.count_adata.obs.index.values)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	236 # Get expression data with normalized gene names
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	237 self.count_df_filtered = self.count_adata.to_df().T
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	238 self.count_df_filtered.index = [self._normalize_gene_name(g) for g in self.count_df_filtered.index]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	239 self.count_df_filtered = self.count_df_filtered.loc[self.genes]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	240
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	241 def _init_from_dataframe(self, dataset, gene_rules, rules_total_string):
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	242 """Initialize from DataFrame and rules dict (ras_generator mode)."""
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	243 reactions = list(gene_rules.keys())
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	244
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	245 # Build the dictionary for the GPRs
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	246 df_reactions = pd.DataFrame(index=reactions)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	247 gene_rules_list = [self._normalize_rule(gene_rules[reaction_id]) for reaction_id in reactions]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	248 df_reactions['rule'] = gene_rules_list
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	249 df_reactions = df_reactions.reset_index()
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	250 df_reactions = df_reactions.groupby('rule').agg(lambda x: sorted(list(x)))
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	251
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	252 self.dict_rule_reactions = df_reactions.to_dict()['index']
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	253
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	254 # build useful structures for RAS computation
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	255 self.model = None
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	256 self.count_adata = None
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	257
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	258 # Normalize gene names in dataset
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	259 dataset_normalized = dataset.copy()
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	260 dataset_normalized.index = [self._normalize_gene_name(g) for g in dataset_normalized.index]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	261
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	262 # Determine which genes are in both dataset and GPRs
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	263 if rules_total_string is not None:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	264 rules_genes = [self._normalize_gene_name(g) for g in rules_total_string]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	265 self.genes = dataset_normalized.index.intersection(rules_genes)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	266 else:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	267 # Extract all genes from rules
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	268 all_genes_in_rules = set()
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	269 for rule in gene_rules_list:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	270 tokens = rule.split()
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	271 for token in tokens:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	272 if token not in self._logic_operators:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	273 all_genes_in_rules.add(token)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	274 self.genes = dataset_normalized.index.intersection(all_genes_in_rules)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	275
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	276 if len(self.genes) == 0:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	277 raise ValueError("ERROR: No genes from the count matrix match the metabolic model. Check that gene annotations are consistent between model and dataset.")
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	278
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	279 self.cell_ids = list(dataset_normalized.columns)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	280 self.count_df_filtered = dataset_normalized.loc[self.genes]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	281
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	282 def compute(self,
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	283 or_expression=np.sum, # type of operation to do in case of an or expression (sum, max, mean)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	284 and_expression=np.min, # type of operation to do in case of an and expression(min, sum)
531 1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	285 drop_na_rows=False, # if True remove the nan rows of the ras matrix
529 6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	286 drop_duplicates=False, # if true, remove duplicates rows
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	287 ignore_nan=True, # if True, ignore NaN values in GPR evaluation (e.g., A or NaN -> A)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	288 print_progressbar=True, # if True, print the progress bar
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	289 add_count_metadata=True, # if True add metadata of cells in the ras adata
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	290 add_met_metadata=True, # if True add metadata from the metabolic model (gpr and compartments of reactions)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	291 add_essential_reactions=False,
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	292 add_essential_genes=False
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	293 ):
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	294
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	295 self.or_function = or_expression
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	296 self.and_function = and_expression
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	297
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	298 ras_df = np.full((len(self.dict_rule_reactions), len(self.cell_ids)), np.nan)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	299 genes_not_mapped = set() # Track genes not in dataset
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	300
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	301 if print_progressbar:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	302 pbar = ProgressBar(widgets=[Percentage(), Bar()], maxval=len(self.dict_rule_reactions)).start()
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	303
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	304 # Process each unique GPR rule
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	305 for ind, (rule, reaction_ids) in enumerate(self.dict_rule_reactions.items()):
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	306 if len(rule) == 0:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	307 # Empty rule - keep as NaN
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	308 pass
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	309 else:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	310 # Extract genes from rule
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	311 rule_genes = [token for token in rule.split() if token not in self._logic_operators]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	312 rule_genes_unique = list(set(rule_genes))
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	313
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	314 # Which genes are in the dataset?
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	315 genes_present = [g for g in rule_genes_unique if g in self.genes]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	316 genes_missing = [g for g in rule_genes_unique if g not in self.genes]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	317
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	318 if genes_missing:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	319 genes_not_mapped.update(genes_missing)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	320
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	321 if len(genes_present) == 0:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	322 # No genes in dataset - keep as NaN
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	323 pass
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	324 elif len(genes_missing) > 0 and not ignore_nan:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	325 # Some genes missing and we don't ignore NaN - set to NaN
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	326 pass
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	327 else:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	328 # Evaluate the GPR expression using AST
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	329 # For single gene, AST handles it fine: ast.parse("GENE_A") works
531 1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	330 # more genes in the formula
1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	331 check_only_and=("and" in rule and "or" not in rule) #only and
1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	332 check_only_or=("or" in rule and "and" not in rule) #only or
1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	333 if check_only_and or check_only_or:
1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	334 #or/and sequence
1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	335 matrix = self.count_df_filtered.loc[genes_present].values
1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	336 #compute for all cells
1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	337 if check_only_and:
1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	338 ras_df[ind] = self.and_function(matrix, axis=0)
1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	339 else:
1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	340 ras_df[ind] = self.or_function(matrix, axis=0)
1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	341 else:
1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	342 # complex expression (e.g. A or (B and C))
1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	343 data = self.count_df_filtered.loc[genes_present] # dataframe of genes in the GPRs
529 6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	344 tree = ast.parse(rule, mode="eval").body
531 1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	345 values_by_cell = [dict(zip(data.index, data[col].values)) for col in data.columns]
1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	346 for j, values in enumerate(values_by_cell):
1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	347 ras_df[ind, j] =self._evaluate_ast(tree, values, self.or_function, self.and_function, ignore_nan)
1fc5c1edb0ef Uploaded francesco_lapi parents: 530 diff changeset	348
529 6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	349 if print_progressbar:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	350 pbar.update(ind + 1)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	351
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	352 if print_progressbar:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	353 pbar.finish()
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	354
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	355 # Store genes not mapped for later use
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	356 self.genes_not_mapped = sorted(genes_not_mapped)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	357
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	358 # create the dataframe of ras (rules x samples)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	359 ras_df = pd.DataFrame(data=ras_df, index=range(len(self.dict_rule_reactions)), columns=self.cell_ids)
530 352c51a39e23 Uploaded francesco_lapi parents: 529 diff changeset	360 ras_df['Reactions'] = [reaction_ids for rule, reaction_ids in self.dict_rule_reactions.items()]
529 6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	361
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	362 reactions_common = pd.DataFrame()
530 352c51a39e23 Uploaded francesco_lapi parents: 529 diff changeset	363 reactions_common["Reactions"] = ras_df['Reactions']
352c51a39e23 Uploaded francesco_lapi parents: 529 diff changeset	364 reactions_common["proof2"] = ras_df['Reactions']
352c51a39e23 Uploaded francesco_lapi parents: 529 diff changeset	365 reactions_common = reactions_common.explode('Reactions')
352c51a39e23 Uploaded francesco_lapi parents: 529 diff changeset	366 reactions_common = reactions_common.set_index("Reactions")
529 6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	367
530 352c51a39e23 Uploaded francesco_lapi parents: 529 diff changeset	368 ras_df = ras_df.explode("Reactions")
352c51a39e23 Uploaded francesco_lapi parents: 529 diff changeset	369 ras_df = ras_df.set_index("Reactions")
529 6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	370
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	371 if drop_na_rows:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	372 ras_df = ras_df.dropna(how="all")
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	373
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	374 if drop_duplicates:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	375 ras_df = ras_df.drop_duplicates()
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	376
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	377 # If initialized from DataFrame (ras_generator mode), return DataFrame instead of AnnData
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	378 if self.count_adata is None:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	379 return ras_df, self.genes_not_mapped
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	380
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	381 # Original AnnData mode: create AnnData structure for RAS
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	382 ras_adata = AnnData(ras_df.T)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	383
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	384 #add metadata
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	385 if add_count_metadata:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	386 ras_adata.var["common_gprs"] = reactions_common.loc[ras_df.index]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	387 ras_adata.var["common_gprs"] = ras_adata.var["common_gprs"].apply(lambda x: ",".join(x))
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	388 for el in self.count_adata.obs.columns:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	389 ras_adata.obs["countmatrix_"+el]=self.count_adata.obs[el]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	390
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	391 if add_met_metadata:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	392 if self.model is not None and len(self.model.compartments)>0:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	393 ras_adata.var['compartments']=[list(self.model.reactions.get_by_id(reaction).compartments) for reaction in ras_adata.var.index]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	394 ras_adata.var['compartments']=ras_adata.var["compartments"].apply(lambda x: ",".join(x))
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	395
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	396 if self.model is not None:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	397 ras_adata.var['GPR rule'] = [self.model.reactions.get_by_id(reaction).gene_reaction_rule for reaction in ras_adata.var.index]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	398
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	399 if add_essential_reactions:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	400 if self.model is not None:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	401 essential_reactions=find_essential_reactions(self.model)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	402 essential_reactions=[el.id for el in essential_reactions]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	403 ras_adata.var['essential reactions']=["yes" if el in essential_reactions else "no" for el in ras_adata.var.index]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	404
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	405 if add_essential_genes:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	406 if self.model is not None:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	407 essential_genes=find_essential_genes(self.model)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	408 essential_genes=[el.id for el in essential_genes]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	409 ras_adata.var['essential genes']=[" ".join([gene for gene in genes.split() if gene in essential_genes]) for genes in ras_adata.var["GPR rule"]]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	410
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	411 return ras_adata
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	412
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	413 def _evaluate_ast(self, node, values, or_function, and_function, ignore_nan):
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	414 """
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	415 Evaluate a boolean expression using AST (Abstract Syntax Tree).
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	416 Handles all GPR types: single gene, simple (A and B), nested (A or (B and C)).
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	417
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	418 Args:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	419 node: AST node to evaluate
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	420 values: Dictionary mapping gene names to their expression values
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	421 or_function: Function to apply for OR operations
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	422 and_function: Function to apply for AND operations
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	423 ignore_nan: If True, ignore None/NaN values (e.g., A or None -> A)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	424
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	425 Returns:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	426 Evaluated expression result (float or np.nan)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	427 """
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	428 if isinstance(node, ast.BoolOp):
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	429 # Boolean operation (and/or)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	430 vals = [self._evaluate_ast(v, values, or_function, and_function, ignore_nan) for v in node.values]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	431
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	432 if ignore_nan:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	433 # Filter out None/NaN values
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	434 vals = [v for v in vals if v is not None and not (isinstance(v, float) and np.isnan(v))]
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	435
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	436 if not vals:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	437 return np.nan
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	438
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	439 if isinstance(node.op, ast.Or):
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	440 return or_function(vals)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	441 elif isinstance(node.op, ast.And):
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	442 return and_function(vals)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	443
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	444 elif isinstance(node, ast.Name):
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	445 # Variable (gene name)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	446 return values.get(node.id, None)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	447 elif isinstance(node, ast.Constant):
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	448 # Constant (shouldn't happen in GPRs, but handle it)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	449 return values.get(str(node.value), None)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	450 else:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	451 raise ValueError(f"Unexpected node type in GPR: {ast.dump(node)}")
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	452
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	453
529 6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	454 # ============================================================================
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	455 # STANDALONE FUNCTION FOR RAS_GENERATOR COMPATIBILITY
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	456 # ============================================================================
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	457
529 6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	458 def computeRAS(
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	459 dataset,
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	460 gene_rules,
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	461 rules_total_string,
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	462 or_function=np.sum,
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	463 and_function=np.min,
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	464 ignore_nan=True
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	465 ):
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	466 """
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	467 Compute RAS from tabular data and GPR rules (ras_generator.py compatible).
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	468
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	469 This is a standalone function that wraps the RAS_computation class
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	470 to provide the same interface as ras_generator.py.
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	471
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	472 Args:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	473 dataset: pandas DataFrame with gene expression (genes × samples)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	474 gene_rules: dict mapping reaction IDs to GPR strings
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	475 rules_total_string: list of all gene names in GPRs
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	476 or_function: function for OR operations (default: np.sum)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	477 and_function: function for AND operations (default: np.min)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	478 ignore_nan: if True, ignore NaN in GPR evaluation (default: True)
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	479
529 6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	480 Returns:
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	481 tuple: (ras_df, genes_not_mapped)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	482 - ras_df: DataFrame with RAS values (reactions × samples)
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	483 - genes_not_mapped: list of genes in GPRs not found in dataset
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	484 """
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	485 # Create RAS computation object in DataFrame mode
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	486 ras_obj = RAS_computation(
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	487 dataset=dataset,
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	488 gene_rules=gene_rules,
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	489 rules_total_string=rules_total_string
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	490 )
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	491
529 6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	492 # Compute RAS
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	493 result = ras_obj.compute(
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	494 or_expression=or_function,
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	495 and_expression=and_function,
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	496 ignore_nan=ignore_nan,
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	497 print_progressbar=False, # No progress bar for ras_generator
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	498 add_count_metadata=False, # No metadata in DataFrame mode
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	499 add_met_metadata=False,
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	500 add_essential_reactions=False,
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	501 add_essential_genes=False
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	502 )
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	503
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	504 # Result is a tuple (ras_df, genes_not_mapped) in DataFrame mode
6acd64232dad Uploaded francesco_lapi parents: 513 diff changeset	505 return result
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	506
147 3fca9b568faf Uploaded bimib parents: 93 diff changeset	507 def main(args:List[str] = None) -> None:
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	508 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	509 Initializes everything and sets the program in motion based on the fronted input arguments.
7e703e546998 Uploaded luca_milaz parents: diff changeset	510
7e703e546998 Uploaded luca_milaz parents: diff changeset	511 Returns:
7e703e546998 Uploaded luca_milaz parents: diff changeset	512 None
7e703e546998 Uploaded luca_milaz parents: diff changeset	513 """
7e703e546998 Uploaded luca_milaz parents: diff changeset	514 # get args from frontend (related xml)
7e703e546998 Uploaded luca_milaz parents: diff changeset	515 global ARGS
147 3fca9b568faf Uploaded bimib parents: 93 diff changeset	516 ARGS = process_args(args)
309 38c9a958ea78 Uploaded francesco_lapi parents: 266 diff changeset	517
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	518 # read dataset and remove versioning from gene names
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	519 dataset = read_dataset(ARGS.input, "dataset")
510 c17c6c9d112c Uploaded francesco_lapi parents: 509 diff changeset	520 orig_gene_list=dataset.index.copy()
c17c6c9d112c Uploaded francesco_lapi parents: 509 diff changeset	521 dataset.index = [str(el.split(".")[0]) for el in dataset.index]
c17c6c9d112c Uploaded francesco_lapi parents: 509 diff changeset	522
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	523 #load GPR rules
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	524 rules = load_custom_rules()
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	525
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	526 #create a list of all the gpr
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	527 rules_total_string=""
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	528 for id,rule in rules.items():
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	529 rules_total_string+=rule.replace("(","").replace(")","") + " "
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	530 rules_total_string=list(set(rules_total_string.split(" ")))
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	531
512 f32d3c9089fc Uploaded francesco_lapi parents: 510 diff changeset	532 if any(dataset.index.duplicated(keep=False)):
f32d3c9089fc Uploaded francesco_lapi parents: 510 diff changeset	533 genes_duplicates=orig_gene_list[dataset.index.duplicated(keep=False)]
f32d3c9089fc Uploaded francesco_lapi parents: 510 diff changeset	534 genes_duplicates_in_model=[elem for elem in genes_duplicates if elem in rules_total_string]
513 b02cfa3b36dd Uploaded francesco_lapi parents: 512 diff changeset	535
512 f32d3c9089fc Uploaded francesco_lapi parents: 510 diff changeset	536 if len(genes_duplicates_in_model)>0:#metabolic genes have duplicated entries in the dataset
f32d3c9089fc Uploaded francesco_lapi parents: 510 diff changeset	537 list_str=", ".join(genes_duplicates_in_model)
513 b02cfa3b36dd Uploaded francesco_lapi parents: 512 diff changeset	538 list_genes=f"ERROR: Duplicate entries in the gene dataset present in one or more GPR. The following metabolic genes are duplicated: "+list_str
b02cfa3b36dd Uploaded francesco_lapi parents: 512 diff changeset	539 raise ValueError(list_genes)
b02cfa3b36dd Uploaded francesco_lapi parents: 512 diff changeset	540 else:
b02cfa3b36dd Uploaded francesco_lapi parents: 512 diff changeset	541 list_str=", ".join(genes_duplicates)
b02cfa3b36dd Uploaded francesco_lapi parents: 512 diff changeset	542 list_genes=f"INFO: Duplicate entries in the gene dataset. The following genes are duplicated in the dataset but not mentioned in the GPRs: "+list_str
b02cfa3b36dd Uploaded francesco_lapi parents: 512 diff changeset	543 utils.logWarning(list_genes,ARGS.out_log)
512 f32d3c9089fc Uploaded francesco_lapi parents: 510 diff changeset	544
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	545 #check if nan value must be ignored in the GPR
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	546 if ARGS.none:
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	547 # #e.g. (A or nan --> A)
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	548 ignore_nan = True
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	549 else:
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	550 #e.g. (A or nan --> nan)
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	551 ignore_nan = False
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	552
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	553 #compure ras
510 c17c6c9d112c Uploaded francesco_lapi parents: 509 diff changeset	554 ras_df,genes_not_mapped=computeRAS(dataset,rules,
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	555 rules_total_string,
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	556 or_function=np.sum, # type of operation to do in case of an or expression (max, sum, mean)
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	557 and_function=np.min,
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	558 ignore_nan=ignore_nan)
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	559
96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	560 #save to csv and replace nan with None
510 c17c6c9d112c Uploaded francesco_lapi parents: 509 diff changeset	561 ras_df.replace([np.nan,None],"None").to_csv(ARGS.ras_output, sep = '\t')
381 0a3ca20848f3 Uploaded francesco_lapi parents: 309 diff changeset	562
510 c17c6c9d112c Uploaded francesco_lapi parents: 509 diff changeset	563 #report genes not present in the data
c17c6c9d112c Uploaded francesco_lapi parents: 509 diff changeset	564 if len(genes_not_mapped)>0:
c17c6c9d112c Uploaded francesco_lapi parents: 509 diff changeset	565 genes_not_mapped_str=", ".join(genes_not_mapped)
c17c6c9d112c Uploaded francesco_lapi parents: 509 diff changeset	566 utils.logWarning(
513 b02cfa3b36dd Uploaded francesco_lapi parents: 512 diff changeset	567 f"INFO: The following genes are mentioned in the GPR rules but don't appear in the dataset: "+genes_not_mapped_str,
510 c17c6c9d112c Uploaded francesco_lapi parents: 509 diff changeset	568 ARGS.out_log)
c17c6c9d112c Uploaded francesco_lapi parents: 509 diff changeset	569
489 97eea560a10f Uploaded francesco_lapi parents: 406 diff changeset	570 print("Execution succeeded")
93 7e703e546998 Uploaded luca_milaz parents: diff changeset	571
7e703e546998 Uploaded luca_milaz parents: diff changeset	572 ###############################################################################
7e703e546998 Uploaded luca_milaz parents: diff changeset	573 if __name__ == "__main__":
505 96f512dff490 Uploaded francesco_lapi parents: 490 diff changeset	574 main()

Mercurial > repos > bimib > cobraxy

annotate COBRAxy/ras_generator.py @ 531:1fc5c1edb0ef draft