project_rm: galaxy/codon_usage.py annotate

annotate galaxy/codon_usage.py @ 42:439b70949f8d draft

Uploaded

author	gianmarco_piccinno
date	Mon, 20 May 2019 16:44:00 -0400
parents
children

rev	line source
42 439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	1 #!/usr/bin/env python
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	2
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	3 import Bio as Bio
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	4 from Bio import SeqIO
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	5 from Bio.Data import CodonTable
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	6 import re
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	7 from pprint import pprint
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	8 import argparse as ap
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	9 import sys
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	10 import os
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	11 import pandas as pd
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	12
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	13
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	14 def read_input(data = "example.fna", type_ = "fasta"):
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	15
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	16 """
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	17 Accepted formats:
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	18 - fasta (multifasta)
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	19 - gff
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	20 - gbk
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	21
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	22 """
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	23
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	24 seqs = ""
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	25
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	26 if type_ == "fasta":
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	27 with open(data, "rU") as handle:
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	28 for record in SeqIO.parse(handle, type_):
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	29 seqs = seqs + str(record.seq)
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	30
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	31 elif type_ == "gbk":
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	32 with open(data, "rU") as input_handle:
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	33 types = []
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	34 for record in SeqIO.parse(input_handle, "genbank"):
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	35 for feature in record.features:
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	36 types.append(feature.type)
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	37 if feature.type == "CDS":
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	38 if feature.location.strand == +1:
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	39 seq = record.seq[feature.location.start:feature.location.end]
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	40 seqs = seqs + str(seq)
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	41 elif feature.location.strand == -1:
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	42 seq = record.seq[feature.location.start:feature.location.end].reverse_complement
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	43 seqs = seqs + str(seq)
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	44 return seqs
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	45
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	46 def codon_usage(seqs, codonTable):
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	47
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	48 codon_usage = {}
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	49 tmp = [x for x in re.split(r'(\w{3})', seqs) if x != ""]
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	50
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	51 b_cod_table = CodonTable.unambiguous_dna_by_name[codonTable].forward_table
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	52
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	53
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	54 for cod in CodonTable.unambiguous_dna_by_name[codonTable].stop_codons:
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	55 b_cod_table[cod] = "_Stop"
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	56
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	57 for cod in CodonTable.unambiguous_dna_by_name[codonTable].start_codons:
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	58 b_cod_table[cod + " Start"] = b_cod_table[cod]
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	59 b_cod_table.pop(cod)
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	60
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	61 aas = set(b_cod_table.values())
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	62
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	63
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	64 for aa in aas:
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	65 codon_usage[aa] = {}
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	66 for codon in b_cod_table.keys():
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	67 if b_cod_table[codon] == aa:
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	68 codon_usage[aa][codon] = tmp.count(codon.split(" ")[0])
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	69
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	70
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	71 tups = {(outerKey, innerKey): values for outerKey, innerDict in codon_usage.iteritems() for innerKey, values in innerDict.iteritems()}
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	72
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	73 codon_usage_ = pd.DataFrame(pd.Series(tups), columns = ["Count"])
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	74 codon_usage_.index = codon_usage_.index.set_names(["AA", "Codon"])
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	75 codon_usage_['Proportion'] = codon_usage_.groupby(level=0).transform(lambda x: (x / x.sum()).round(2))
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	76
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	77 return {"Dictionary": codon_usage, "Tuples": tups, "Table": codon_usage_}
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	78
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	79 if __name__ == '__main__':
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	80
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	81 parser = ap.ArgumentParser(description=
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	82 'This script takes as input gff, gbk and single or multifasta files and \n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	83 'compute the codon usage for a specified codon table.\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	84 'Usage:\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	85 'python codon_usage.py -i example.gbk -t genebank -o gbk_example -c Bacterial\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	86 'python codon_usage.py -i example.ffn -t fasta -o fasta_example -c Bacterial\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	87 'python codon_usage.py -i example.gff -t gff -o gff_example -c Bacterial\n',
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	88 formatter_class=ap.RawTextHelpFormatter)
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	89
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	90 parser.add_argument('-i','--input', help='The path to the input file',required=True)
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	91 parser.add_argument('-t','--type', help=
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	92 'The format of the file [genebank, fasta, gff ...]', required=True)
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	93 parser.add_argument('-c','--codonTable', help=
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	94 'The codon table to be used [Standard, Bacterial, Archaeal ...]\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	95 'Alternative Flatworm Mitochondrial,\\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	96 'Alternative Yeast Nuclear,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	97 'Archaeal,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	98 'Ascidian Mitochondrial,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	99 'Bacterial,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	100 'Blastocrithidia Nuclear,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	101 'Blepharisma Macronuclear,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	102 'Candidate Division SR1,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	103 'Chlorophycean Mitochondrial,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	104 'Ciliate Nuclear,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	105 'Coelenterate Mitochondrial,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	106 'Condylostoma Nuclear,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	107 'Dasycladacean Nuclear,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	108 'Echinoderm Mitochondrial,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	109 'Euplotid Nuclear,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	110 'Flatworm Mitochondrial,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	111 'Gracilibacteria,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	112 'Hexamita Nuclear,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	113 'Invertebrate Mitochondrial,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	114 'Karyorelict Nuclear,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	115 'Mesodinium Nuclear,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	116 'Mold Mitochondrial,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	117 'Mycoplasma,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	118 'Pachysolen tannophilus Nuclear,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	119 'Peritrich Nuclear,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	120 'Plant Plastid,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	121 'Protozoan Mitochondrial,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	122 'Pterobranchia Mitochondrial,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	123 'SGC0,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	124 'SGC1,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	125 'SGC2,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	126 'SGC3,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	127 'SGC4,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	128 'SGC5,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	129 'SGC8,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	130 'SGC9,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	131 'Scenedesmus obliquus Mitochondrial,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	132 'Spiroplasma,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	133 'Standard,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	134 'Thraustochytrium Mitochondrial,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	135 'Trematode Mitochondrial,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	136 'Vertebrate Mitochondrial,\n'
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	137 'Yeast Mitochondrial\n', required=True)
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	138
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	139 parser.add_argument('-o','--output', help='Description for bar argument', required=True)
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	140 args = vars(parser.parse_args())
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	141
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	142 seqs = read_input(data=args['input'], type_=args['type'])
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	143 out = codon_usage(seqs, args['codonTable'])
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	144
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	145 with open(args['output'], "w") as outf:
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	146 out["Table"].to_csv(outf, sep="\t", index_label=["AA", "Codon"])
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	147
439b70949f8d Uploaded gianmarco_piccinno parents: diff changeset	148

Mercurial > repos > gianmarco_piccinno > project_rm

annotate galaxy/codon_usage.py @ 42:439b70949f8d draft