make_nr: tools/make_nr/make

annotate tools/make_nr/make_nr.py @ 0:c84f12187af9 draft

v0.0.1

author	peterjc
date	Fri, 09 Nov 2018 11:00:03 -0500
parents
children	84e483325b04

rev	line source
0 c84f12187af9 v0.0.1 peterjc parents: diff changeset	1 #!/usr/bin/env python3
c84f12187af9 v0.0.1 peterjc parents: diff changeset	2 """Make FASTA files non-redundant by combining duplicated sequences.
c84f12187af9 v0.0.1 peterjc parents: diff changeset	3
c84f12187af9 v0.0.1 peterjc parents: diff changeset	4 This script takes one or more (optionally gzipped) FASTA filenames as input,
c84f12187af9 v0.0.1 peterjc parents: diff changeset	5 and will return a non-zero error if any duplicate identifiers are found.
c84f12187af9 v0.0.1 peterjc parents: diff changeset	6
c84f12187af9 v0.0.1 peterjc parents: diff changeset	7 Writes output to stdout by default.
c84f12187af9 v0.0.1 peterjc parents: diff changeset	8
c84f12187af9 v0.0.1 peterjc parents: diff changeset	9 Keeps all the sequences in memory, beware!
c84f12187af9 v0.0.1 peterjc parents: diff changeset	10 """
c84f12187af9 v0.0.1 peterjc parents: diff changeset	11 from __future__ import print_function
c84f12187af9 v0.0.1 peterjc parents: diff changeset	12
c84f12187af9 v0.0.1 peterjc parents: diff changeset	13 import gzip
c84f12187af9 v0.0.1 peterjc parents: diff changeset	14 import os
c84f12187af9 v0.0.1 peterjc parents: diff changeset	15 import sys
c84f12187af9 v0.0.1 peterjc parents: diff changeset	16
c84f12187af9 v0.0.1 peterjc parents: diff changeset	17 from optparse import OptionParser
c84f12187af9 v0.0.1 peterjc parents: diff changeset	18
c84f12187af9 v0.0.1 peterjc parents: diff changeset	19
c84f12187af9 v0.0.1 peterjc parents: diff changeset	20 if "-v" in sys.argv or "--version" in sys.argv:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	21 print("v0.0.1")
c84f12187af9 v0.0.1 peterjc parents: diff changeset	22 sys.exit(0)
c84f12187af9 v0.0.1 peterjc parents: diff changeset	23
c84f12187af9 v0.0.1 peterjc parents: diff changeset	24
c84f12187af9 v0.0.1 peterjc parents: diff changeset	25 # Parse Command Line
c84f12187af9 v0.0.1 peterjc parents: diff changeset	26 usage = """Use as follows:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	27
c84f12187af9 v0.0.1 peterjc parents: diff changeset	28 $ python make_nr.py [options] A.fasta [B.fasta ...]
c84f12187af9 v0.0.1 peterjc parents: diff changeset	29
c84f12187af9 v0.0.1 peterjc parents: diff changeset	30 For example,
c84f12187af9 v0.0.1 peterjc parents: diff changeset	31
c84f12187af9 v0.0.1 peterjc parents: diff changeset	32 $ python make_nr.py -o dedup.fasta -s ";" input1.fasta input2.fasta
c84f12187af9 v0.0.1 peterjc parents: diff changeset	33
c84f12187af9 v0.0.1 peterjc parents: diff changeset	34 The input files should be plain text FASTA format, optionally gzipped.
c84f12187af9 v0.0.1 peterjc parents: diff changeset	35
c84f12187af9 v0.0.1 peterjc parents: diff changeset	36 The -a option controls how the representative replacement record for
c84f12187af9 v0.0.1 peterjc parents: diff changeset	37 duplicated records are named. By default the identifiers are taken
c84f12187af9 v0.0.1 peterjc parents: diff changeset	38 in the input file order, combined with the separator. If the -a or
c84f12187af9 v0.0.1 peterjc parents: diff changeset	39 alphasort option is picked, the identifiers are alphabetically sorted
c84f12187af9 v0.0.1 peterjc parents: diff changeset	40 first. This ensures the same names are used even if the input file
c84f12187af9 v0.0.1 peterjc parents: diff changeset	41 order (or the record order within the input files) is randomised.
c84f12187af9 v0.0.1 peterjc parents: diff changeset	42
c84f12187af9 v0.0.1 peterjc parents: diff changeset	43 There is additional guidance in the help text in the make_nr.xml file,
c84f12187af9 v0.0.1 peterjc parents: diff changeset	44 which is shown to the user via the Galaxy interface to this tool.
c84f12187af9 v0.0.1 peterjc parents: diff changeset	45 """
c84f12187af9 v0.0.1 peterjc parents: diff changeset	46
c84f12187af9 v0.0.1 peterjc parents: diff changeset	47 parser = OptionParser(usage=usage)
c84f12187af9 v0.0.1 peterjc parents: diff changeset	48 parser.add_option("-s", "--sep", dest="sep",
c84f12187af9 v0.0.1 peterjc parents: diff changeset	49 default=";",
c84f12187af9 v0.0.1 peterjc parents: diff changeset	50 help="Separator character for combining identifiers "
c84f12187af9 v0.0.1 peterjc parents: diff changeset	51 "of duplicated records e.g. '\|' or ';' (required)")
c84f12187af9 v0.0.1 peterjc parents: diff changeset	52 parser.add_option("-a", "--alphasort", action="store_true",
c84f12187af9 v0.0.1 peterjc parents: diff changeset	53 help="When merging duplicated records sort their "
c84f12187af9 v0.0.1 peterjc parents: diff changeset	54 "identifiers alphabetically before combining them. "
c84f12187af9 v0.0.1 peterjc parents: diff changeset	55 "Default is input file order.")
c84f12187af9 v0.0.1 peterjc parents: diff changeset	56 parser.add_option("-o", "--output", dest="output",
c84f12187af9 v0.0.1 peterjc parents: diff changeset	57 default="/dev/stdout", metavar="FILE",
c84f12187af9 v0.0.1 peterjc parents: diff changeset	58 help="Output filename (defaults to stdout)")
c84f12187af9 v0.0.1 peterjc parents: diff changeset	59 options, args = parser.parse_args()
c84f12187af9 v0.0.1 peterjc parents: diff changeset	60
c84f12187af9 v0.0.1 peterjc parents: diff changeset	61 if not args:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	62 sys.exit("Expects at least one input FASTA filename")
c84f12187af9 v0.0.1 peterjc parents: diff changeset	63
c84f12187af9 v0.0.1 peterjc parents: diff changeset	64
c84f12187af9 v0.0.1 peterjc parents: diff changeset	65 def gzip_open(filename):
c84f12187af9 v0.0.1 peterjc parents: diff changeset	66 """Open a possibly gzipped text file."""
c84f12187af9 v0.0.1 peterjc parents: diff changeset	67 with open(filename, "rb") as h:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	68 magic = h.read(2)
c84f12187af9 v0.0.1 peterjc parents: diff changeset	69 if magic == b'\x1f\x8b':
c84f12187af9 v0.0.1 peterjc parents: diff changeset	70 return gzip.open(filename, "rt")
c84f12187af9 v0.0.1 peterjc parents: diff changeset	71 else:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	72 return open(filename)
c84f12187af9 v0.0.1 peterjc parents: diff changeset	73
c84f12187af9 v0.0.1 peterjc parents: diff changeset	74
c84f12187af9 v0.0.1 peterjc parents: diff changeset	75 def make_nr(input_fasta, output_fasta, sep=";", sort_ids=False):
c84f12187af9 v0.0.1 peterjc parents: diff changeset	76 """Make the sequences in FASTA files non-redundant.
c84f12187af9 v0.0.1 peterjc parents: diff changeset	77
c84f12187af9 v0.0.1 peterjc parents: diff changeset	78 Argument input_fasta is a list of filenames.
c84f12187af9 v0.0.1 peterjc parents: diff changeset	79 """
c84f12187af9 v0.0.1 peterjc parents: diff changeset	80 by_seq = dict()
c84f12187af9 v0.0.1 peterjc parents: diff changeset	81 try:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	82 from Bio.SeqIO.FastaIO import SimpleFastaParser
c84f12187af9 v0.0.1 peterjc parents: diff changeset	83 except ImportError:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	84 sys.exit("Missing Biopython")
c84f12187af9 v0.0.1 peterjc parents: diff changeset	85 for f in input_fasta:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	86 with gzip_open(f) as handle:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	87 for title, seq in SimpleFastaParser(handle):
c84f12187af9 v0.0.1 peterjc parents: diff changeset	88 idn = title.split(None, 1)[0] # first word only
c84f12187af9 v0.0.1 peterjc parents: diff changeset	89 seq = seq.upper()
c84f12187af9 v0.0.1 peterjc parents: diff changeset	90 try:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	91 by_seq[seq].append(idn)
c84f12187af9 v0.0.1 peterjc parents: diff changeset	92 except KeyError:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	93 by_seq[seq] = [idn]
c84f12187af9 v0.0.1 peterjc parents: diff changeset	94 unique = 0
c84f12187af9 v0.0.1 peterjc parents: diff changeset	95 representatives = dict()
c84f12187af9 v0.0.1 peterjc parents: diff changeset	96 duplicates = set()
c84f12187af9 v0.0.1 peterjc parents: diff changeset	97 for cluster in by_seq.values():
c84f12187af9 v0.0.1 peterjc parents: diff changeset	98 if len(cluster) > 1:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	99 # Is it useful to offer to sort here?
c84f12187af9 v0.0.1 peterjc parents: diff changeset	100 # if sort_ids:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	101 # cluster.sort()
c84f12187af9 v0.0.1 peterjc parents: diff changeset	102 representatives[cluster[0]] = cluster
c84f12187af9 v0.0.1 peterjc parents: diff changeset	103 duplicates.update(cluster[1:])
c84f12187af9 v0.0.1 peterjc parents: diff changeset	104 else:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	105 unique += 1
c84f12187af9 v0.0.1 peterjc parents: diff changeset	106 del by_seq
c84f12187af9 v0.0.1 peterjc parents: diff changeset	107 if duplicates:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	108 # TODO - refactor as a generator with single SeqIO.write(...) call
c84f12187af9 v0.0.1 peterjc parents: diff changeset	109 with open(output_fasta, "w") as handle:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	110 for f in input_fasta:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	111 with gzip_open(f) as in_handle:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	112 for title, seq in SimpleFastaParser(in_handle):
c84f12187af9 v0.0.1 peterjc parents: diff changeset	113 idn = title.split(None, 1)[0] # first word only
c84f12187af9 v0.0.1 peterjc parents: diff changeset	114 if idn in representatives:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	115 cluster = representatives[idn]
c84f12187af9 v0.0.1 peterjc parents: diff changeset	116 if sort_ids:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	117 cluster.sort()
c84f12187af9 v0.0.1 peterjc parents: diff changeset	118 idn = sep.join(cluster)
c84f12187af9 v0.0.1 peterjc parents: diff changeset	119 title = "%s representing %i records" % (idn, len(cluster))
c84f12187af9 v0.0.1 peterjc parents: diff changeset	120 elif idn in duplicates:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	121 continue
c84f12187af9 v0.0.1 peterjc parents: diff changeset	122 # TODO - line wrapping
c84f12187af9 v0.0.1 peterjc parents: diff changeset	123 handle.write(">%s\n%s\n" % (title, seq))
c84f12187af9 v0.0.1 peterjc parents: diff changeset	124 sys.stderr.write("%i unique entries; removed %i duplicates "
c84f12187af9 v0.0.1 peterjc parents: diff changeset	125 "leaving %i representative records\n"
c84f12187af9 v0.0.1 peterjc parents: diff changeset	126 % (unique, len(duplicates), len(representatives)))
c84f12187af9 v0.0.1 peterjc parents: diff changeset	127 else:
c84f12187af9 v0.0.1 peterjc parents: diff changeset	128 os.symlink(os.path.abspath(input_fasta), output_fasta)
c84f12187af9 v0.0.1 peterjc parents: diff changeset	129 sys.stderr.write("No perfect duplicates in file, %i unique entries\n"
c84f12187af9 v0.0.1 peterjc parents: diff changeset	130 % unique)
c84f12187af9 v0.0.1 peterjc parents: diff changeset	131
c84f12187af9 v0.0.1 peterjc parents: diff changeset	132
c84f12187af9 v0.0.1 peterjc parents: diff changeset	133 make_nr(args, options.output, options.sep, options.alphasort)

Mercurial > repos > peterjc > make_nr

annotate tools/make_nr/make_nr.py @ 0:c84f12187af9 draft