gstf_preparation: gstf_preparation.py comparison

comparison gstf_preparation.py @ 14:598e9172b8e7 draft

"planemo upload for repository https://github.com/TGAC/earlham-galaxytools/tree/master/tools/gstf_preparation commit ea67c766934266e690d05e3f9ebb4cca12b8e3e7"

author	earlhaminst
date	Fri, 18 Dec 2020 08:57:43 +0000
parents	51a7a2a82902
children	9c62ad7dd113

comparison

equal deleted inserted replaced

-:51a7a2a82902
+:598e9172b8e7
 found_cds = False
 derived_translation_start = None
 derived_translation_end = None
 if transcript_id in cds_parent_dict:
 cds_list = cds_parent_dict[transcript_id]
-cds_ids = {_['id'] for _ in cds_list}
+unique_cds_ids = {cds['id'] for cds in cds_list}
-if len(cds_ids) > 1:
+if len(unique_cds_ids) > 1:
-raise Exception("Transcript %s has multiple CDSs: this is not supported by Ensembl JSON format" % transcript_id)
+msg = """Found multiple CDS IDs (%s) for transcript '%s'.
-cds_id = cds_ids.pop()
+This is not supported by the Ensembl JSON format. If a CDS is split across
+multiple discontinuous genomic locations, the GFF3 standard requires that all
+corresponding lines use the same ID attribute."""
+raise Exception(msg % (unique_cds_ids, transcript_id))
+cds_id = unique_cds_ids.pop()
 translation['id'] = cds_id
 cds_list.sort(key=lambda _: _['start'])
 translation['CDS'] = cds_list
 translation['start'] = cds_list[0]['start']
 translation['end'] = cds_list[-1]['end']

Mercurial > repos > earlhaminst > gstf_preparation

comparison gstf_preparation.py @ 14:598e9172b8e7 draft