jbrowse2: jbrowse2.py comparison

comparison jbrowse2.py @ 19:bde6b1d09f7d draft

planemo upload for repository https://github.com/usegalaxy-eu/temporary-tools/tree/master/jbrowse2 commit 1290bf486bc55c02fecd0327de10a28655a18e81-dirty

author	fubar
date	Tue, 30 Jan 2024 06:05:03 +0000
parents	4c201a3d4755
children	39b717d934a8

comparison

equal deleted inserted replaced

-:2e6c48910819
+:bde6b1d09f7d
 #!/usr/bin/env python
 # change to accumulating all configuration for config.json based on the default from the clone
 import argparse
 import binascii
 import datetime
-import hashlib
 import json
 import logging
 import os
 import re
 import shutil
 JB2VER = "v2.10.1"
 # version pinned for cloning
 TODAY = datetime.datetime.now().strftime("%Y-%m-%d")
 GALAXY_INFRASTRUCTURE_URL = None
-JB2REL = "v2.10.0"
+JB2REL = "v2.10.1"
 # version pinned for cloning
 mapped_chars = {
 ">": "__gt__",
 "<": "__lt__",
 bc_pivot = float(bc_pivot)
 trackConfig["bicolor_pivot"] = bc_pivot
 elif "scaling" in track:
 if track["scaling"]["method"] == "ignore":
 if track["scaling"]["scheme"]["color"] != "__auto__":
-trackConfig["style"]["color"] = track["scaling"]["scheme"]["color"]
+trackConfig["style"]["color"] = track["scaling"]["scheme"][
+"color"
+]
 else:
 trackConfig["style"]["color"] = self.hex_from_rgb(
 *self._get_colours()
 )
 else:
 "red": red,
 "green": green,
 "blue": blue,
 }
 )
-trackConfig["style"]["color"] = color_function.replace("\n", "")
+trackConfig["style"]["color"] = color_function.replace(
+"\n", ""
+)
 elif trackFormat == "gene_calls":
 # Default values, based on GFF3 spec
 min_val = 0
 max_val = 1000
 # Get min/max and build a scoring function since JBrowse doesn't
-if scales["type"] == "automatic" or scales["type"] == "__auto__":
+if (
+scales["type"] == "automatic"
+or scales["type"] == "__auto__"
+):
 min_val, max_val = self.min_max_gff(gff3)
 else:
 min_val = scales.get("min", 0)
 max_val = scales.get("max", 1000)
 if scheme["color"] == "__auto__":
 user_color = "undefined"
-auto_color = "'%s'" % self.hex_from_rgb(*self._get_colours())
+auto_color = "'%s'" % self.hex_from_rgb(
+*self._get_colours()
+)
 elif scheme["color"].startswith("#"):
 user_color = "'%s'" % self.hex_from_rgb(
 *self.rgb_from_hex(scheme["color"][1:])
 )
 auto_color = "undefined"
 else:
 user_color = "undefined"
-auto_color = "'%s'" % self.hex_from_rgb(*self._get_colours())
+auto_color = "'%s'" % self.hex_from_rgb(
+*self._get_colours()
+)
 color_function = self.COLOR_FUNCTION_TEMPLATE_QUAL.format(
 **{
 "opacity": self.OPACITY_MATH[algo].format(
 **{"max": max_val, "min": min_val}
 "user_spec_color": user_color,
 "auto_gen_color": auto_color,
 }
 )
-trackConfig["style"]["color"] = color_function.replace("\n", "")
+trackConfig["style"]["color"] = color_function.replace(
+"\n", ""
+)
 return trackConfig
 def etree_to_dict(t):
 if t is None:
 return {}
 for (key, value) in node.findall("dataset")[0].attrib.items():
 metadata["dataset_%s" % key] = value
-for (key, value) in node.findall("history")[0].attrib.items():
+if node.findall("history"):
-metadata["history_%s" % key] = value
+for (key, value) in node.findall("history")[0].attrib.items():
+metadata["history_%s" % key] = value
-for (key, value) in node.findall("metadata")[0].attrib.items():
-metadata["metadata_%s" % key] = value
+if node.findall("metadata"):
+for (key, value) in node.findall("metadata")[0].attrib.items():
-for (key, value) in node.findall("tool")[0].attrib.items():
+metadata["metadata_%s" % key] = value
-metadata["tool_%s" % key] = value
+# Additional Mappings applied:
+metadata[
-# Additional Mappings applied:
+"dataset_edam_format"
-metadata[
+] = '<a target="_blank" href="http://edamontology.org/{0}">{1}</a>'.format(
-"dataset_edam_format"
+metadata["dataset_edam_format"], metadata["dataset_file_ext"]
-] = '<a target="_blank" href="http://edamontology.org/{0}">{1}</a>'.format(
+)
-metadata["dataset_edam_format"], metadata["dataset_file_ext"]
+metadata["history_user_email"] = '<a href="mailto:{0}">{0}</a>'.format(
-)
+metadata["history_user_email"]
-metadata["history_user_email"] = '<a href="mailto:{0}">{0}</a>'.format(
+)
-metadata["history_user_email"]
+metadata["hist_name"] = metadata["history_display_name"]
-)
+metadata[
-metadata["hist_name"] = metadata["history_display_name"]
+"history_display_name"
-metadata[
+] = '<a target="_blank" href="{galaxy}/history/view/{encoded_hist_id}">{hist_name}</a>'.format(
-"history_display_name"
+galaxy=GALAXY_INFRASTRUCTURE_URL,
-] = '<a target="_blank" href="{galaxy}/history/view/{encoded_hist_id}">{hist_name}</a>'.format(
+encoded_hist_id=metadata["history_id"],
-galaxy=GALAXY_INFRASTRUCTURE_URL,
+hist_name=metadata["history_display_name"],
-encoded_hist_id=metadata["history_id"],
+)
-hist_name=metadata["history_display_name"],
+if node.findall("tool"):
-)
+for (key, value) in node.findall("tool")[0].attrib.items():
-metadata[
+metadata["tool_%s" % key] = value
-"tool_tool"
+metadata[
-] = '<a target="_blank" href="{galaxy}/datasets/{encoded_id}/show_params">{tool_id}</a>'.format(
+"tool_tool"
-galaxy=GALAXY_INFRASTRUCTURE_URL,
+] = '<a target="_blank" href="{galaxy}/datasets/{encoded_id}/show_params">{tool_id}{tool_version}</a>'.format(
-encoded_id=metadata["dataset_id"],
+galaxy=GALAXY_INFRASTRUCTURE_URL,
-tool_id=metadata["tool_tool_id"],
+encoded_id=metadata.get("dataset_id", ""),
-# tool_version=metadata['tool_tool_version'],
+tool_id=metadata.get("tool_tool_id", ""),
-)
+tool_version=metadata.get("tool_tool_version",""),
+)
 return metadata
 class JbrowseConnector(object):
 def __init__(self, outdir, genomes):
 self.config_json_file = os.path.join(outdir, "config.json")
 self.clone_jbrowse()
 def subprocess_check_call(self, command, output=None):
 if output:
-log.debug("cd %s && %s >  %s", self.outdir, " ".join(command), output)
+log.debug(
+"cd %s && %s >  %s", self.outdir, " ".join(command), output
+)
 subprocess.check_call(command, cwd=self.outdir, stdout=output)
 else:
 log.debug("cd %s && %s", self.outdir, " ".join(command))
 subprocess.check_call(command, cwd=self.outdir)
 self.config_json["assemblies"] += assemblies
 else:
 self.config_json["assemblies"] = assemblies
 def make_assembly(self, fapath, gname):
-hashData = [
-fapath,
+faname = gname + ".fa.gz"
-gname,
-]
-hashData = "|".join(hashData).encode("utf-8")
-ghash = hashlib.md5(hashData).hexdigest()
-faname = ghash + ".fa.gz"
 fadest = os.path.join(self.outdir, faname)
 cmd = "bgzip -i -c %s -I %s.gzi > %s && samtools faidx %s" % (
 fapath,
 fadest,
 fadest,
 },
 "gziLocation": {
 "uri": faname + ".gzi",
 },
 }
+self.genome_sequence_adapter = adapter
 trackDict = {
 "name": gname,
 "sequence": {
 "type": "ReferenceSequenceTrack",
 "trackId": gname,
 """
 mafPlugin = {
 "plugins": [
 {
 "name": "MafViewer",
-"url": "https://unpkg.com/browse/jbrowse-plugin-mafviewer@1.0.6/dist/jbrowse-plugin-mafviewer.umd.production.min.js",
+"url": "https://unpkg.com/jbrowse-plugin-mafviewer/dist/jbrowse-plugin-mafviewer.umd.production.min.js"
 }
 ]
 }
 tId = trackData["label"]
 fname = "%s.bed" % tId
 dest,
 ]
 self.subprocess_check_call(cmd)
 # Construct samples list
 # We could get this from galaxy metadata, not sure how easily.
-ps = subprocess.Popen(["grep", "^s [^ ]*", "-o", data], stdout=subprocess.PIPE)
+ps = subprocess.Popen(
+["grep", "^s [^ ]*", "-o", data], stdout=subprocess.PIPE
+)
 output = subprocess.check_output(("sort", "-u"), stdin=ps.stdout)
 ps.wait()
 outp = output.decode("ascii")
 soutp = outp.split("\n")
 samp = [x.split("s ")[1] for x in soutp if x.startswith("s ")]
 fname = "%s.bam" % trackData["label"]
 dest = "%s/%s" % (self.outdir, fname)
 url = fname
 self.subprocess_check_call(["cp", data, dest])
 bloc = {"uri": url}
-if bam_index is not None and os.path.exists(os.path.realpath(bam_index)):
+if bam_index is not None and os.path.exists(
+os.path.realpath(bam_index)
+):
 # bai most probably made by galaxy and stored in galaxy dirs, need to copy it to dest
 self.subprocess_check_call(
 ["cp", os.path.realpath(bam_index), dest + ".bai"]
 )
 else:
 # Can happen in exotic condition
 # e.g. if bam imported as symlink with datatype=unsorted.bam, then datatype changed to bam
 #      => no index generated by galaxy, but there might be one next to the symlink target
 #      this trick allows to skip the bam sorting made by galaxy if already done outside
 if os.path.exists(os.path.realpath(data) + ".bai"):
-self.symlink_or_copy(os.path.realpath(data) + ".bai", dest + ".bai")
+self.symlink_or_copy(
+os.path.realpath(data) + ".bai", dest + ".bai"
+)
 else:
 log.warn("Could not find a bam index (.bai file) for %s", data)
 trackDict = {
 "type": "AlignmentsTrack",
 "trackId": tId,
 style_json = self._prepare_track_style(trackDict)
 trackDict["style"] = style_json
 self.tracksToAdd.append(trackDict)
 self.trackIdlist.append(tId)
+def add_cram(self, data, trackData, cramOpts, cram_index=None, **kwargs):
+tId = trackData["label"]
+fname = "%s.cram" % trackData["label"]
+dest = "%s/%s" % (self.outdir, fname)
+url = fname
+self.subprocess_check_call(["cp", data, dest])
+bloc = {"uri": url}
+if cram_index is not None and os.path.exists(
+os.path.realpath(cram_index)
+):
+# most probably made by galaxy and stored in galaxy dirs, need to copy it to dest
+self.subprocess_check_call(
+["cp", os.path.realpath(cram_index), dest + ".crai"]
+)
+else:
+# Can happen in exotic condition
+# e.g. if bam imported as symlink with datatype=unsorted.bam, then datatype changed to bam
+#      => no index generated by galaxy, but there might be one next to the symlink target
+#      this trick allows to skip the bam sorting made by galaxy if already done outside
+if os.path.exists(os.path.realpath(data) + ".crai"):
+self.symlink_or_copy(
+os.path.realpath(data) + ".crai", dest + ".crai"
+)
+else:
+log.warn(
+"Could not find a cram index (.crai file) for %s", data
+)
+trackDict = {
+"type": "AlignmentsTrack",
+"trackId": tId,
+"name": trackData["name"],
+"assemblyNames": [self.genome_name],
+"adapter": {
+"type": "CramAdapter",
+"cramLocation": bloc,
+"craiLocation": {"uri": fname + ".crai",},
+"sequenceAdapter": self.genome_sequence_adapter,
+},
+"displays": [
+{
+"type": "LinearAlignmentsDisplay",
+"displayId": "%s-LinearAlignmentsDisplay" % tId,
+},
+],
+}
+style_json = self._prepare_track_style(trackDict)
+trackDict["style"] = style_json
+self.tracksToAdd.append(trackDict)
+self.trackIdlist.append(tId)
 def add_vcf(self, data, trackData):
 tId = trackData["label"]
-url = "%s/api/datasets/%s/display" % (
+# url = "%s/api/datasets/%s/display" % (
-self.giURL,
+# self.giURL,
-trackData["metadata"]["dataset_id"],
+# trackData["metadata"]["dataset_id"],
-)
+# )
 url = "%s.vcf.gz" % tId
 dest = "%s/%s" % (self.outdir, url)
 cmd = "bgzip -c %s  > %s" % (data, dest)
 self.subprocess_popen(cmd)
 cmd = ["tabix", "-f", "-p", "vcf", dest]
 cmd = "jbrowse sort-gff %s | bgzip -c > %s.gz" % (
 data,
 dest,
 )  # "gff3sort.pl --precise '%s' | grep -v \"^$\" > '%s'"
 self.subprocess_popen(cmd)
-self.subprocess_check_call(["tabix", "-f", "-p", "gff", dest + ".gz"])
+self.subprocess_check_call(
+["tabix", "-f", "-p", "gff", dest + ".gz"]
+)
 def _sort_bed(self, data, dest):
 # Only index if not already done
 if not os.path.exists(dest):
 cmd = "sort -k1,1 -k2,2n %s | bgzip -c > %s" % (data, dest)
 "style": {},
 }
 outputTrackConfig["key"] = track_human_label
-# We add extra data to hash for the case of REST + SPARQL.
-if (
-"conf" in track
-and "options" in track["conf"]
-and "url" in track["conf"]["options"]
-):
-rest_url = track["conf"]["options"]["url"]
-else:
-rest_url = ""
 outputTrackConfig["trackset"] = track.get("trackset", {})
-# I chose to use track['category'] instead of 'category' here. This
+outputTrackConfig["label"] = "%s_%i_%s" % (
-# is intentional. This way re-running the tool on a different date
+dataset_ext,
-# will not generate different hashes and make comparison of outputs
+i,
-# much simpler.
-hashData = [
-str(dataset_path),
 track_human_label,
-track["category"],
+)
-rest_url,
-]
-hashData = "|".join(hashData).encode("utf-8")
-outputTrackConfig["label"] = hashlib.md5(hashData).hexdigest() + "_%s" % i
 outputTrackConfig["metadata"] = extra_metadata
 outputTrackConfig["name"] = track_human_label
 if dataset_ext in ("gff", "gff3"):
 self.add_gff(
 self.add_bigwig(
 dataset_path,
 outputTrackConfig,
 )
 elif dataset_ext == "bam":
-real_indexes = track["conf"]["options"]["pileup"]["bam_indices"][
+real_indexes = track["conf"]["options"]["pileup"][
-"bam_index"
+"bam_indices"
-]
+]["bam_index"]
 if not isinstance(real_indexes, list):
-# <bam_indices>
-#  <bam_index>/path/to/a.bam.bai</bam_index>
-# </bam_indices>
-#
-# The above will result in the 'bam_index' key containing a
-# string. If there are two or more indices, the container
-# becomes a list. Fun!
 real_indexes = [real_indexes]
 self.add_bam(
 dataset_path,
 outputTrackConfig,
 track["conf"]["options"]["pileup"],
 bam_index=real_indexes[i],
+)
+elif dataset_ext == "cram":
+real_indexes = track["conf"]["options"]["cram"][
+"cram_indices"
+]["cram_index"]
+if not isinstance(real_indexes, list):
+real_indexes = [real_indexes]
+self.add_cram(
+dataset_path,
+outputTrackConfig,
+track["conf"]["options"]["cram"],
+cram_index=real_indexes[i],
 )
 elif dataset_ext == "blastxml":
 self.add_blastxml(
 dataset_path,
 outputTrackConfig,
 config_json = {}
 if self.config_json:
 config_json.update(self.config_json)
 config_data = {}
-config_data["disableAnalytics"] = data.get("analytics", "false") == "true"
+config_data["disableAnalytics"] = (
+data.get("analytics", "false") == "true"
+)
 config_data["theme"] = {
 "palette": {
 "primary": {"main": data.get("primary_color", "#0D233F")},
 "secondary": {"main": data.get("secondary_color", "#721E63")},
 "tertiary": {"main": data.get("tertiary_color", "#135560")},
-"quaternary": {"main": data.get("quaternary_color", "#FFB11D")},
+"quaternary": {
+"main": data.get("quaternary_color", "#FFB11D")
+},
 },
 "typography": {"fontSize": int(data.get("font_size", 10))},
 }
 if not config_json.get("configuration", None):
 config_json["configuration"] = {}
 if __name__ == "__main__":
 parser = argparse.ArgumentParser(description="", epilog="")
 parser.add_argument("--xml", help="Track Configuration")
 parser.add_argument("--outdir", help="Output directory", default="out")
-parser.add_argument("--version", "-V", action="version", version="%(prog)s 2.0.1")
+parser.add_argument(
+"--version", "-V", action="version", version="%(prog)s 2.0.1"
+)
 args = parser.parse_args()
 tree = ET.parse(args.xml)
 root = tree.getroot()
 # This should be done ASAP
 GALAXY_INFRASTRUCTURE_URL = root.find("metadata/galaxyUrl").text
 )
 track_conf["category"] = track.attrib["cat"]
 track_conf["format"] = track.attrib["format"]
 if track.find("options/style"):
 track_conf["style"] = {
-item.tag: parse_style_conf(item) for item in track.find("options/style")
+item.tag: parse_style_conf(item)
+for item in track.find("options/style")
 }
 if track.find("options/style_labels"):
 track_conf["style_labels"] = {
 item.tag: parse_style_conf(item)
 for item in track.find("options/style_labels")
 track_conf["conf"] = etree_to_dict(track.find("options"))
 track_conf["category"] = track.attrib["cat"]
 track_conf["format"] = track.attrib["format"]
 try:
 # Only pertains to gff3 + blastxml. TODO?
-track_conf["style"] = {t.tag: t.text for t in track.find("options/style")}
+track_conf["style"] = {
+t.tag: t.text for t in track.find("options/style")
+}
 except TypeError:
 track_conf["style"] = {}
 pass
 track_conf["conf"] = etree_to_dict(track.find("options"))
 keys = jc.process_annotations(track_conf)
 general_data = {
 "analytics": root.find("metadata/general/analytics").text,
 "primary_color": root.find("metadata/general/primary_color").text,
 "secondary_color": root.find("metadata/general/secondary_color").text,
 "tertiary_color": root.find("metadata/general/tertiary_color").text,
-"quaternary_color": root.find("metadata/general/quaternary_color").text,
+"quaternary_color": root.find(
+"metadata/general/quaternary_color"
+).text,
 "font_size": root.find("metadata/general/font_size").text,
 }
 jc.add_general_configuration(general_data)
 trackconf = jc.config_json.get("tracks", None)
 if trackconf:

Mercurial > repos > fubar > jbrowse2

comparison jbrowse2.py @ 19:bde6b1d09f7d draft