vcf_annotate: vcfClass.py annotate

author	devteam
date	Mon, 27 Jan 2014 09:28:06 -0500
parents
children

rev	line source
0 b001b50f2009 Imported from capsule None devteam parents: diff changeset	1 #!/usr/bin/python
b001b50f2009 Imported from capsule None devteam parents: diff changeset	2
b001b50f2009 Imported from capsule None devteam parents: diff changeset	3 import os.path
b001b50f2009 Imported from capsule None devteam parents: diff changeset	4 import sys
b001b50f2009 Imported from capsule None devteam parents: diff changeset	5 import re
b001b50f2009 Imported from capsule None devteam parents: diff changeset	6
b001b50f2009 Imported from capsule None devteam parents: diff changeset	7 class vcf:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	8 def __init__(self):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	9
b001b50f2009 Imported from capsule None devteam parents: diff changeset	10 # Header info.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	11 self.filename = ""
b001b50f2009 Imported from capsule None devteam parents: diff changeset	12 self.hasHeader = True
b001b50f2009 Imported from capsule None devteam parents: diff changeset	13 self.headerText = ""
b001b50f2009 Imported from capsule None devteam parents: diff changeset	14 self.headerTitles = ""
b001b50f2009 Imported from capsule None devteam parents: diff changeset	15 self.vcfFormat = ""
b001b50f2009 Imported from capsule None devteam parents: diff changeset	16 #self.headerInfoText = ""
b001b50f2009 Imported from capsule None devteam parents: diff changeset	17 #self.headerFormatText = ""
b001b50f2009 Imported from capsule None devteam parents: diff changeset	18
b001b50f2009 Imported from capsule None devteam parents: diff changeset	19 # Store the info and format tags as well as the lines that describe
b001b50f2009 Imported from capsule None devteam parents: diff changeset	20 # them in a dictionary.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	21 self.numberDataSets = 0
b001b50f2009 Imported from capsule None devteam parents: diff changeset	22 self.includedDataSets = {}
b001b50f2009 Imported from capsule None devteam parents: diff changeset	23 self.infoHeaderTags = {}
b001b50f2009 Imported from capsule None devteam parents: diff changeset	24 self.infoHeaderString = {}
b001b50f2009 Imported from capsule None devteam parents: diff changeset	25 self.formatHeaderTags = {}
b001b50f2009 Imported from capsule None devteam parents: diff changeset	26 self.formatHeaderString = {}
b001b50f2009 Imported from capsule None devteam parents: diff changeset	27
b001b50f2009 Imported from capsule None devteam parents: diff changeset	28 # Genotype information.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	29 self.genotypes = False
b001b50f2009 Imported from capsule None devteam parents: diff changeset	30 self.infoField = {}
b001b50f2009 Imported from capsule None devteam parents: diff changeset	31
b001b50f2009 Imported from capsule None devteam parents: diff changeset	32 # Reference sequence information.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	33 self.referenceSequences = {}
b001b50f2009 Imported from capsule None devteam parents: diff changeset	34 self.referenceSequenceList = []
b001b50f2009 Imported from capsule None devteam parents: diff changeset	35 self.referenceSequence = ""
b001b50f2009 Imported from capsule None devteam parents: diff changeset	36
b001b50f2009 Imported from capsule None devteam parents: diff changeset	37 # Record information.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	38 self.position = -1
b001b50f2009 Imported from capsule None devteam parents: diff changeset	39 self.samplesList = []
b001b50f2009 Imported from capsule None devteam parents: diff changeset	40
b001b50f2009 Imported from capsule None devteam parents: diff changeset	41 # Determine which fields to process.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	42 self.processInfo = False
b001b50f2009 Imported from capsule None devteam parents: diff changeset	43 self.processGenotypes = False
b001b50f2009 Imported from capsule None devteam parents: diff changeset	44 self.dbsnpVcf = False
b001b50f2009 Imported from capsule None devteam parents: diff changeset	45 self.hapmapVcf = False
b001b50f2009 Imported from capsule None devteam parents: diff changeset	46
b001b50f2009 Imported from capsule None devteam parents: diff changeset	47 # Open a vcf file.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	48 def openVcf(self, filename):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	49 if filename == "stdin":
b001b50f2009 Imported from capsule None devteam parents: diff changeset	50 self.filehandle = sys.stdin
b001b50f2009 Imported from capsule None devteam parents: diff changeset	51 self.filename = "stdin"
b001b50f2009 Imported from capsule None devteam parents: diff changeset	52 else:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	53 try: self.filehandle = open(filename,"r")
b001b50f2009 Imported from capsule None devteam parents: diff changeset	54 except IOError:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	55 print >> sys.stderr, "Failed to find file: ",filename
b001b50f2009 Imported from capsule None devteam parents: diff changeset	56 exit(1)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	57 self.filename = os.path.abspath(filename)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	58
b001b50f2009 Imported from capsule None devteam parents: diff changeset	59 # Parse the vcf header.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	60 def parseHeader(self, filename, writeOut):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	61 while self.getHeaderLine(filename, writeOut):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	62 continue
b001b50f2009 Imported from capsule None devteam parents: diff changeset	63
b001b50f2009 Imported from capsule None devteam parents: diff changeset	64 # Determine the type of information in the header line.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	65 def getHeaderLine(self, filename, writeOut):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	66 self.headerLine = self.filehandle.readline().rstrip("\n")
b001b50f2009 Imported from capsule None devteam parents: diff changeset	67 if self.headerLine.startswith("##fileformat"): success = self.getvcfFormat()
b001b50f2009 Imported from capsule None devteam parents: diff changeset	68 if self.headerLine.startswith("##INFO"): success = self.headerInfo(writeOut, "info")
b001b50f2009 Imported from capsule None devteam parents: diff changeset	69 elif self.headerLine.startswith("##FORMAT"): success = self.headerInfo(writeOut, "format")
b001b50f2009 Imported from capsule None devteam parents: diff changeset	70 elif self.headerLine.startswith("##FILE"): success = self.headerFiles(writeOut)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	71 elif self.headerLine.startswith("##"): success = self.headerAdditional()
b001b50f2009 Imported from capsule None devteam parents: diff changeset	72 elif self.headerLine.startswith("#"): success = self.headerTitleString(filename, writeOut)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	73 else: success = self.noHeader(filename, writeOut)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	74
b001b50f2009 Imported from capsule None devteam parents: diff changeset	75 return success
b001b50f2009 Imported from capsule None devteam parents: diff changeset	76
b001b50f2009 Imported from capsule None devteam parents: diff changeset	77 # Read VCF format
b001b50f2009 Imported from capsule None devteam parents: diff changeset	78 def getvcfFormat(self):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	79 try:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	80 self.vcfFormat = self.headerLine.split("=",1)[1]
b001b50f2009 Imported from capsule None devteam parents: diff changeset	81 self.vcfFormat = float( self.vcfFormat.split("VCFv",1)[1] )## Extract the version number rather than the whole string
b001b50f2009 Imported from capsule None devteam parents: diff changeset	82 except IndexError:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	83 print >> sys.stderr, "\nError parsing the fileformat"
b001b50f2009 Imported from capsule None devteam parents: diff changeset	84 print >> sys.stderr, "The following fileformat header is wrongly formatted: ", self.headerLine
b001b50f2009 Imported from capsule None devteam parents: diff changeset	85 exit(1)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	86 return True
b001b50f2009 Imported from capsule None devteam parents: diff changeset	87
b001b50f2009 Imported from capsule None devteam parents: diff changeset	88
b001b50f2009 Imported from capsule None devteam parents: diff changeset	89 # Read information on an info field from the header line.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	90 def headerInfo(self, writeOut, lineType):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	91 tag = self.headerLine.split("=",1)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	92 tagID = (tag[1].split("ID=",1))[1].split(",",1)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	93
b001b50f2009 Imported from capsule None devteam parents: diff changeset	94 # Check if this info field has already been defined.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	95 if (lineType == "info" and self.infoHeaderTags.has_key(tagID[0])) or (lineType == "format" and self.formatHeaderTags.has_key(tagID[0])):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	96 print >> sys.stderr, "Info tag \"", tagID[0], "\" is defined multiple times in the header."
b001b50f2009 Imported from capsule None devteam parents: diff changeset	97 exit(1)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	98
b001b50f2009 Imported from capsule None devteam parents: diff changeset	99 # Determine the number of entries, entry type and description.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	100 tagNumber = (tagID[1].split("Number=",1))[1].split(",",1)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	101 tagType = (tagNumber[1].split("Type=",1))[1].split(",",1)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	102 try: tagDescription = ( ( (tagType[1].split("Description=\"",1))[1] ).split("\">") )[0]
b001b50f2009 Imported from capsule None devteam parents: diff changeset	103 except IndexError: tagDescription = ""
b001b50f2009 Imported from capsule None devteam parents: diff changeset	104 tagID = tagID[0]; tagNumber = tagNumber[0]; tagType = tagType[0]
b001b50f2009 Imported from capsule None devteam parents: diff changeset	105
b001b50f2009 Imported from capsule None devteam parents: diff changeset	106 # Check that the number of fields associated with the tag is either
b001b50f2009 Imported from capsule None devteam parents: diff changeset	107 # an integer or a '.' to indicate variable number of entries.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	108 if tagNumber == ".": tagNumber = "variable"
b001b50f2009 Imported from capsule None devteam parents: diff changeset	109 else:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	110 if self.vcfFormat<4.1:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	111
b001b50f2009 Imported from capsule None devteam parents: diff changeset	112 try:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	113 tagNumber = int(tagNumber)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	114
b001b50f2009 Imported from capsule None devteam parents: diff changeset	115 except ValueError:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	116 print >> sys.stderr, "\nError parsing header. Problem with info tag:", tagID
b001b50f2009 Imported from capsule None devteam parents: diff changeset	117 print >> sys.stderr, "Number of fields associated with this tag is not an integer or '.'"
b001b50f2009 Imported from capsule None devteam parents: diff changeset	118 exit(1)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	119
b001b50f2009 Imported from capsule None devteam parents: diff changeset	120 if lineType == "info":
b001b50f2009 Imported from capsule None devteam parents: diff changeset	121 self.infoHeaderTags[tagID] = tagNumber, tagType, tagDescription
b001b50f2009 Imported from capsule None devteam parents: diff changeset	122 self.infoHeaderString[tagID] = self.headerLine
b001b50f2009 Imported from capsule None devteam parents: diff changeset	123 if lineType == "format":
b001b50f2009 Imported from capsule None devteam parents: diff changeset	124 self.formatHeaderTags[tagID] = tagNumber, tagType, tagDescription
b001b50f2009 Imported from capsule None devteam parents: diff changeset	125 self.formatHeaderString[tagID] = self.headerLine
b001b50f2009 Imported from capsule None devteam parents: diff changeset	126
b001b50f2009 Imported from capsule None devteam parents: diff changeset	127 return True
b001b50f2009 Imported from capsule None devteam parents: diff changeset	128
b001b50f2009 Imported from capsule None devteam parents: diff changeset	129 # Check to see if the records contain information from multiple different
b001b50f2009 Imported from capsule None devteam parents: diff changeset	130 # sources. If vcfPytools has been used to find the intersection or union
b001b50f2009 Imported from capsule None devteam parents: diff changeset	131 # of two vcf files, the records may have been merged to keep all the
b001b50f2009 Imported from capsule None devteam parents: diff changeset	132 # information available. If this is the case, there will be a ##FILE line
b001b50f2009 Imported from capsule None devteam parents: diff changeset	133 # for each set of information in the file. The order of these files needs
b001b50f2009 Imported from capsule None devteam parents: diff changeset	134 # to be maintained.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	135 def headerFiles(self, writeOut):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	136 fileID = (self.headerLine.split("ID=",1))[1].split(",",1)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	137 filename = fileID[1].split("\"",2)[1]
b001b50f2009 Imported from capsule None devteam parents: diff changeset	138 try: fileID = int(fileID[0])
b001b50f2009 Imported from capsule None devteam parents: diff changeset	139 except ValueError:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	140 print >> sys.stderr, "File ID in ##FILE entry must be an integer."
b001b50f2009 Imported from capsule None devteam parents: diff changeset	141 print >> sys.stderr, self.headerLine
b001b50f2009 Imported from capsule None devteam parents: diff changeset	142 exit(1)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	143 if self.includedDataSets.has_key(fileID):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	144 print >> sys.stderr, "\nERROR: file " + self.filename
b001b50f2009 Imported from capsule None devteam parents: diff changeset	145 print >> sys.stderr, "Multiple files in the ##FILE list have identical ID values."
b001b50f2009 Imported from capsule None devteam parents: diff changeset	146 exit(1)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	147 self.includedDataSets[fileID] = filename
b001b50f2009 Imported from capsule None devteam parents: diff changeset	148
b001b50f2009 Imported from capsule None devteam parents: diff changeset	149 # Set the number of files with information in this vcf file.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	150 if fileID > self.numberDataSets: self.numberDataSets = fileID
b001b50f2009 Imported from capsule None devteam parents: diff changeset	151
b001b50f2009 Imported from capsule None devteam parents: diff changeset	152 return True
b001b50f2009 Imported from capsule None devteam parents: diff changeset	153
b001b50f2009 Imported from capsule None devteam parents: diff changeset	154 # Read additional information contained in the header.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	155 def headerAdditional(self):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	156 self.headerText += self.headerLine + "\n"
b001b50f2009 Imported from capsule None devteam parents: diff changeset	157
b001b50f2009 Imported from capsule None devteam parents: diff changeset	158 return True
b001b50f2009 Imported from capsule None devteam parents: diff changeset	159
b001b50f2009 Imported from capsule None devteam parents: diff changeset	160 # Read in the column titles to check that all standard fields
b001b50f2009 Imported from capsule None devteam parents: diff changeset	161 # are present and read in all the samples.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	162 def headerTitleString(self, filename, writeOut):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	163 self.headerTitles = self.headerLine + "\n"
b001b50f2009 Imported from capsule None devteam parents: diff changeset	164
b001b50f2009 Imported from capsule None devteam parents: diff changeset	165 # Strip the end of line character from the last infoFields entry.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	166 infoFields = self.headerLine.split("\t")
b001b50f2009 Imported from capsule None devteam parents: diff changeset	167 if len(infoFields) > 8:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	168 # if len(infoFields) - 9 == 1 and writeOut: print >> sys.stdout, len(infoFields) - 9, " sample present in vcf file: ", filename
b001b50f2009 Imported from capsule None devteam parents: diff changeset	169 # elif writeOut: print >> sys.stdout, len(infoFields) - 9, " samples present in vcf file: ", filename
b001b50f2009 Imported from capsule None devteam parents: diff changeset	170 self.samplesList = infoFields[9:]
b001b50f2009 Imported from capsule None devteam parents: diff changeset	171 self.genotypes = True
b001b50f2009 Imported from capsule None devteam parents: diff changeset	172 elif len(infoFields) == 8:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	173 if writeOut: print >> sys.stdout, "No samples present in the header. No genotype information available."
b001b50f2009 Imported from capsule None devteam parents: diff changeset	174 else:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	175 print self.headerLine, len(infoFields)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	176 print >> sys.stderr, "Not all vcf standard fields are available."
b001b50f2009 Imported from capsule None devteam parents: diff changeset	177 exit(1)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	178
b001b50f2009 Imported from capsule None devteam parents: diff changeset	179 return False
b001b50f2009 Imported from capsule None devteam parents: diff changeset	180
b001b50f2009 Imported from capsule None devteam parents: diff changeset	181 # If there is no header in the vcf file, close and reopen the
b001b50f2009 Imported from capsule None devteam parents: diff changeset	182 # file so that the first line is avaiable for parsing as a
b001b50f2009 Imported from capsule None devteam parents: diff changeset	183 # vcf record.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	184 def noHeader(self, filename, writeOut):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	185 if writeOut: print >> sys.stdout, "No header lines present in", filename
b001b50f2009 Imported from capsule None devteam parents: diff changeset	186 self.hasHeader = False
b001b50f2009 Imported from capsule None devteam parents: diff changeset	187 self.closeVcf(filename)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	188 self.openVcf(filename)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	189
b001b50f2009 Imported from capsule None devteam parents: diff changeset	190 return False
b001b50f2009 Imported from capsule None devteam parents: diff changeset	191
b001b50f2009 Imported from capsule None devteam parents: diff changeset	192 # Check that info fields exist.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	193 def checkInfoFields(self, tag):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	194 if self.infoHeaderTags.has_key(tag) == False:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	195 print >> sys.stderr, "Info tag \"", tag, "\" does not exist in the header."
b001b50f2009 Imported from capsule None devteam parents: diff changeset	196 exit(1)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	197
b001b50f2009 Imported from capsule None devteam parents: diff changeset	198 # Get the next line of information from the vcf file.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	199 def getRecord(self):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	200 self.record = self.filehandle.readline()
b001b50f2009 Imported from capsule None devteam parents: diff changeset	201 if not self.record: return False
b001b50f2009 Imported from capsule None devteam parents: diff changeset	202
b001b50f2009 Imported from capsule None devteam parents: diff changeset	203 # Set up and execute a regular expression match.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	204 recordRe = re.compile(r"^(\S+)\t(\d+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)(\n\|\t.+)$")
b001b50f2009 Imported from capsule None devteam parents: diff changeset	205 #recordRe = re.compile(r"^(\S+)\s+(\d+)\s+(\S+)\s+(\S+)\s+(\S+)\s+(\S+)\s+(\S+)\s+(\S+)(\n\|\s+.+)$")
b001b50f2009 Imported from capsule None devteam parents: diff changeset	206 recordMatch = recordRe.match(self.record)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	207 if recordMatch == None:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	208 print >> sys.stderr, "Unable to resolve vcf record.\n"
b001b50f2009 Imported from capsule None devteam parents: diff changeset	209 print >> sys.stderr, self.record
b001b50f2009 Imported from capsule None devteam parents: diff changeset	210 exit(1)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	211
b001b50f2009 Imported from capsule None devteam parents: diff changeset	212 self.referenceSequence = recordMatch.group(1)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	213 try: self.position = int(recordMatch.group(2))
b001b50f2009 Imported from capsule None devteam parents: diff changeset	214 except ValueError:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	215 text = "variant position is not an integer"
b001b50f2009 Imported from capsule None devteam parents: diff changeset	216 self.generalError(text, "", None)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	217 self.rsid = recordMatch.group(3)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	218 self.ref = recordMatch.group(4)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	219 self.alt = recordMatch.group(5)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	220 self.quality = recordMatch.group(6)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	221 self.filters = recordMatch.group(7)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	222 self.info = recordMatch.group(8)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	223 self.genotypeString = recordMatch.group(9)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	224 self.infoTags = {}
b001b50f2009 Imported from capsule None devteam parents: diff changeset	225
b001b50f2009 Imported from capsule None devteam parents: diff changeset	226 # Check that the quality is an integer or a float. If not, set the quality
b001b50f2009 Imported from capsule None devteam parents: diff changeset	227 # to zero.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	228 try: self.quality = float(self.quality)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	229 except ValueError: self.quality = float(0.)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	230
b001b50f2009 Imported from capsule None devteam parents: diff changeset	231 # If recordMatch.group(9) is not the end of line character, there is
b001b50f2009 Imported from capsule None devteam parents: diff changeset	232 # genotype information with this record.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	233 if self.genotypeString != "\n": self.hasGenotypes = True
b001b50f2009 Imported from capsule None devteam parents: diff changeset	234 else: self.hasGenotypes = False
b001b50f2009 Imported from capsule None devteam parents: diff changeset	235
b001b50f2009 Imported from capsule None devteam parents: diff changeset	236 # Add the reference sequence to the dictionary. If it didn't previously
b001b50f2009 Imported from capsule None devteam parents: diff changeset	237 # exist append the reference sequence to the end of the list as well.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	238 # This ensures that the order in which the reference sequences appeared
b001b50f2009 Imported from capsule None devteam parents: diff changeset	239 # in the header can be preserved.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	240 if self.referenceSequence not in self.referenceSequences:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	241 self.referenceSequences[self.referenceSequence] = True
b001b50f2009 Imported from capsule None devteam parents: diff changeset	242 self.referenceSequenceList.append(self.referenceSequence)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	243
b001b50f2009 Imported from capsule None devteam parents: diff changeset	244 # Check for multiple alternate alleles.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	245 self.alternateAlleles = self.alt.split(",")
b001b50f2009 Imported from capsule None devteam parents: diff changeset	246 self.numberAlternateAlleles = len(self.alternateAlleles)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	247
b001b50f2009 Imported from capsule None devteam parents: diff changeset	248 # If required, process the info and genotypes.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	249 if self.processInfo: self.processInfoFields()
b001b50f2009 Imported from capsule None devteam parents: diff changeset	250 if self.processGenotypes and self.hasGenotypes: self.processGenotypeFields()
b001b50f2009 Imported from capsule None devteam parents: diff changeset	251
b001b50f2009 Imported from capsule None devteam parents: diff changeset	252 return True
b001b50f2009 Imported from capsule None devteam parents: diff changeset	253
b001b50f2009 Imported from capsule None devteam parents: diff changeset	254 # Process the info string.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	255 def processInfoFields(self):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	256
b001b50f2009 Imported from capsule None devteam parents: diff changeset	257 # First break the info string into its constituent elements.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	258 infoEntries = self.info.split(";")
b001b50f2009 Imported from capsule None devteam parents: diff changeset	259
b001b50f2009 Imported from capsule None devteam parents: diff changeset	260 # As long as some info fields exist, place them into a dictionary.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	261 for entry in infoEntries:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	262 infoEntry = entry.split("=")
b001b50f2009 Imported from capsule None devteam parents: diff changeset	263
b001b50f2009 Imported from capsule None devteam parents: diff changeset	264 # If the entry is a flag, there will be no equals and the length of
b001b50f2009 Imported from capsule None devteam parents: diff changeset	265 # infoEntry will be 1. In this case, set the dictionary entry to the
b001b50f2009 Imported from capsule None devteam parents: diff changeset	266 # whole entry. If the vcf file has undergone a union or intersection
b001b50f2009 Imported from capsule None devteam parents: diff changeset	267 # operation and contains the information from multiple files, this may
b001b50f2009 Imported from capsule None devteam parents: diff changeset	268 # be a '/' seperate list of flags and so cannot be set to a Boolean value
b001b50f2009 Imported from capsule None devteam parents: diff changeset	269 # yet.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	270 if len(infoEntry) == 1: self.infoTags[infoEntry[0]] = infoEntry[0]
b001b50f2009 Imported from capsule None devteam parents: diff changeset	271 elif len(infoEntry) > 1: self.infoTags[infoEntry[0]] = infoEntry[1]
b001b50f2009 Imported from capsule None devteam parents: diff changeset	272
b001b50f2009 Imported from capsule None devteam parents: diff changeset	273 # Process the genotype formats and values.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	274 def processGenotypeFields(self):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	275 genotypeEntries = self.genotypeString.split("\t")
b001b50f2009 Imported from capsule None devteam parents: diff changeset	276 self.genotypeFormatString = genotypeEntries[1]
b001b50f2009 Imported from capsule None devteam parents: diff changeset	277 self.genotypes = list(genotypeEntries[2:])
b001b50f2009 Imported from capsule None devteam parents: diff changeset	278 self.genotypeFormats = {}
b001b50f2009 Imported from capsule None devteam parents: diff changeset	279 self.genotypeFields = {}
b001b50f2009 Imported from capsule None devteam parents: diff changeset	280 self.genotypeFormats = self.genotypeFormatString.split(":")
b001b50f2009 Imported from capsule None devteam parents: diff changeset	281
b001b50f2009 Imported from capsule None devteam parents: diff changeset	282 # Check that the number of genotype fields is equal to the number of samples
b001b50f2009 Imported from capsule None devteam parents: diff changeset	283 if len(self.samplesList) != len(self.genotypes):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	284 text = "The number of genotypes is different to the number of samples"
b001b50f2009 Imported from capsule None devteam parents: diff changeset	285 self.generalError(text, "", "")
b001b50f2009 Imported from capsule None devteam parents: diff changeset	286
b001b50f2009 Imported from capsule None devteam parents: diff changeset	287 # Add the genotype information to a dictionary.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	288 for i in range( len(self.samplesList) ):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	289 genotypeInfo = self.genotypes[i].split(":")
b001b50f2009 Imported from capsule None devteam parents: diff changeset	290 self.genotypeFields[ self.samplesList[i] ] = {}
b001b50f2009 Imported from capsule None devteam parents: diff changeset	291
b001b50f2009 Imported from capsule None devteam parents: diff changeset	292 # Check that there are as many fields as in the format field. If not, this must
b001b50f2009 Imported from capsule None devteam parents: diff changeset	293 # be because the information is not known. In this case, it is permitted that
b001b50f2009 Imported from capsule None devteam parents: diff changeset	294 # the genotype information is either . or ./.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	295 if genotypeInfo[0] == "./." or genotypeInfo[0] == "." and len(self.genotypeFormats) != len(genotypeInfo):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	296 self.genotypeFields[ self.samplesList[i] ] = "."
b001b50f2009 Imported from capsule None devteam parents: diff changeset	297 else:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	298 if len(self.genotypeFormats) != len(genotypeInfo):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	299 text = "The number of genotype fields is different to the number specified in the format string"
b001b50f2009 Imported from capsule None devteam parents: diff changeset	300 self.generalError(text, "sample", self.samplesList[i])
b001b50f2009 Imported from capsule None devteam parents: diff changeset	301
b001b50f2009 Imported from capsule None devteam parents: diff changeset	302 for j in range( len(self.genotypeFormats) ): self.genotypeFields[ self.samplesList[i] ][ self.genotypeFormats[j] ] = genotypeInfo[j]
b001b50f2009 Imported from capsule None devteam parents: diff changeset	303
b001b50f2009 Imported from capsule None devteam parents: diff changeset	304 # Parse through the vcf file until the correct reference sequence is
b001b50f2009 Imported from capsule None devteam parents: diff changeset	305 # encountered and the position is greater than or equal to that requested.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	306 def parseVcf(self, referenceSequence, position, writeOut, outputFile):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	307 success = True
b001b50f2009 Imported from capsule None devteam parents: diff changeset	308 if self.referenceSequence != referenceSequence:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	309 while self.referenceSequence != referenceSequence and success:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	310 if writeOut: outputFile.write(self.record)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	311 success = self.getRecord()
b001b50f2009 Imported from capsule None devteam parents: diff changeset	312
b001b50f2009 Imported from capsule None devteam parents: diff changeset	313 while self.referenceSequence == referenceSequence and self.position < position and success:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	314 if writeOut: outputFile.write(self.record)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	315 success = self.getRecord()
b001b50f2009 Imported from capsule None devteam parents: diff changeset	316
b001b50f2009 Imported from capsule None devteam parents: diff changeset	317 return success
b001b50f2009 Imported from capsule None devteam parents: diff changeset	318
b001b50f2009 Imported from capsule None devteam parents: diff changeset	319 # Get the information for a specific info tag. Also check that it contains
b001b50f2009 Imported from capsule None devteam parents: diff changeset	320 # the correct number and type of entries.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	321 def getInfo(self, tag):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	322 result = []
b001b50f2009 Imported from capsule None devteam parents: diff changeset	323
b001b50f2009 Imported from capsule None devteam parents: diff changeset	324 # Check if the tag exists in the header information. If so,
b001b50f2009 Imported from capsule None devteam parents: diff changeset	325 # determine the number and type of entries asscoiated with this
b001b50f2009 Imported from capsule None devteam parents: diff changeset	326 # tag.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	327 if self.infoHeaderTags.has_key(tag):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	328 infoNumber = self.infoHeaderTags[tag][0]
b001b50f2009 Imported from capsule None devteam parents: diff changeset	329 infoType = self.infoHeaderTags[tag][1]
b001b50f2009 Imported from capsule None devteam parents: diff changeset	330 numberValues = infoNumber
b001b50f2009 Imported from capsule None devteam parents: diff changeset	331
b001b50f2009 Imported from capsule None devteam parents: diff changeset	332 # First check that the tag exists in the information string. Then split
b001b50f2009 Imported from capsule None devteam parents: diff changeset	333 # the entry on commas. For flag entries, do not perform the split.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	334 if self.infoTags.has_key(tag):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	335 if numberValues == 0 and infoType == "Flag": result = True
b001b50f2009 Imported from capsule None devteam parents: diff changeset	336 elif numberValues != 0 and infoType == "Flag":
b001b50f2009 Imported from capsule None devteam parents: diff changeset	337 print >> sys.stderr, "ERROR"
b001b50f2009 Imported from capsule None devteam parents: diff changeset	338 exit(1)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	339 else:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	340 fields = self.infoTags[tag].split(",")
b001b50f2009 Imported from capsule None devteam parents: diff changeset	341 if len(fields) != numberValues:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	342 text = "Unexpected number of entries"
b001b50f2009 Imported from capsule None devteam parents: diff changeset	343 self.generalError(text, "information tag", tag)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	344
b001b50f2009 Imported from capsule None devteam parents: diff changeset	345 for i in range(infoNumber):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	346 try: result.append(fields[i])
b001b50f2009 Imported from capsule None devteam parents: diff changeset	347 except IndexError:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	348 text = "Insufficient values. Expected: " + self.infoHeaderTags[tag][0]
b001b50f2009 Imported from capsule None devteam parents: diff changeset	349 self.generalError(text, "tag:", tag)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	350 else: numberValues = 0
b001b50f2009 Imported from capsule None devteam parents: diff changeset	351
b001b50f2009 Imported from capsule None devteam parents: diff changeset	352 else:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	353 text = "information field does not have a definition in the header"
b001b50f2009 Imported from capsule None devteam parents: diff changeset	354 self.generalError(text, "tag", tag)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	355
b001b50f2009 Imported from capsule None devteam parents: diff changeset	356 return numberValues, infoType, result
b001b50f2009 Imported from capsule None devteam parents: diff changeset	357
b001b50f2009 Imported from capsule None devteam parents: diff changeset	358 # Get the genotype information.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	359 def getGenotypeInfo(self, sample, tag):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	360 result = []
b001b50f2009 Imported from capsule None devteam parents: diff changeset	361 if self.formatHeaderTags.has_key(tag):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	362 infoNumber = self.formatHeaderTags[tag][0]
b001b50f2009 Imported from capsule None devteam parents: diff changeset	363 infoType = self.formatHeaderTags[tag][1]
b001b50f2009 Imported from capsule None devteam parents: diff changeset	364 numberValues = infoNumber
b001b50f2009 Imported from capsule None devteam parents: diff changeset	365
b001b50f2009 Imported from capsule None devteam parents: diff changeset	366 if self.genotypeFields[sample] == "." and len(self.genotypeFields[sample]) == 1:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	367 numberValues = 0
b001b50f2009 Imported from capsule None devteam parents: diff changeset	368 result = "."
b001b50f2009 Imported from capsule None devteam parents: diff changeset	369 else:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	370 if self.genotypeFields[sample].has_key(tag):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	371 if tag == "GT":
b001b50f2009 Imported from capsule None devteam parents: diff changeset	372 if len(self.genotypeFields[sample][tag]) != 3 and len(self.genotypeFields[sample][tag]) != 1:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	373 text = "Unexected number of characters in genotype (GT) field"
b001b50f2009 Imported from capsule None devteam parents: diff changeset	374 self.generalError(text, "sample", sample)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	375
b001b50f2009 Imported from capsule None devteam parents: diff changeset	376 # If a diploid call, check whether or not the genotype is phased.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	377 elif len(self.genotypeFields[sample][tag]) == 3:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	378 self.phased = True if self.genotypeFields[sample][tag][1] == "\|" else False
b001b50f2009 Imported from capsule None devteam parents: diff changeset	379 result.append( self.genotypeFields[sample][tag][0] )
b001b50f2009 Imported from capsule None devteam parents: diff changeset	380 result.append( self.genotypeFields[sample][tag][2] )
b001b50f2009 Imported from capsule None devteam parents: diff changeset	381 elif len(self.genotypeFields[sample][tag]) == 3:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	382 result.append( self.genotypeFields[sample][tag][0] )
b001b50f2009 Imported from capsule None devteam parents: diff changeset	383 else:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	384 fields = self.genotypeFields[sample][tag].split(",")
b001b50f2009 Imported from capsule None devteam parents: diff changeset	385 if len(fields) != numberValues:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	386 text = "Unexpected number of characters in " + tag + " field"
b001b50f2009 Imported from capsule None devteam parents: diff changeset	387 self.generalError(text, "sample", sample)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	388
b001b50f2009 Imported from capsule None devteam parents: diff changeset	389 for i in range(infoNumber): result.append(fields[i])
b001b50f2009 Imported from capsule None devteam parents: diff changeset	390 else:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	391 text = "genotype field does not have a definition in the header"
b001b50f2009 Imported from capsule None devteam parents: diff changeset	392 self.generalError(text, "tag", tag)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	393
b001b50f2009 Imported from capsule None devteam parents: diff changeset	394 return numberValues, result
b001b50f2009 Imported from capsule None devteam parents: diff changeset	395
b001b50f2009 Imported from capsule None devteam parents: diff changeset	396 # Parse the dbsnp entry. If the entry conforms to the required variant type,
b001b50f2009 Imported from capsule None devteam parents: diff changeset	397 # return the dbsnp rsid value, otherwise ".".
b001b50f2009 Imported from capsule None devteam parents: diff changeset	398 def getDbsnpInfo(self):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	399
b001b50f2009 Imported from capsule None devteam parents: diff changeset	400 # First check that the variant class (VC) is listed as SNP.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	401 vc = self.info.split("VC=",1)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	402 if vc[1].find(";") != -1: snp = vc[1].split(";",1)
b001b50f2009 Imported from capsule None devteam parents: diff changeset	403 else:
b001b50f2009 Imported from capsule None devteam parents: diff changeset	404 snp = []
b001b50f2009 Imported from capsule None devteam parents: diff changeset	405 snp.append(vc[1])
b001b50f2009 Imported from capsule None devteam parents: diff changeset	406
b001b50f2009 Imported from capsule None devteam parents: diff changeset	407 if snp[0].lower() == "snp": rsid = self.rsid
b001b50f2009 Imported from capsule None devteam parents: diff changeset	408 else: rsid = "."
b001b50f2009 Imported from capsule None devteam parents: diff changeset	409
b001b50f2009 Imported from capsule None devteam parents: diff changeset	410 return rsid
b001b50f2009 Imported from capsule None devteam parents: diff changeset	411
b001b50f2009 Imported from capsule None devteam parents: diff changeset	412 # Build a new vcf record.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	413 def buildRecord(self, removeGenotypes):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	414 record = self.referenceSequence + "\t" + \
b001b50f2009 Imported from capsule None devteam parents: diff changeset	415 str(self.position) + "\t" + \
b001b50f2009 Imported from capsule None devteam parents: diff changeset	416 self.rsid + "\t" + \
b001b50f2009 Imported from capsule None devteam parents: diff changeset	417 self.ref + "\t" + \
b001b50f2009 Imported from capsule None devteam parents: diff changeset	418 self.alt + "\t" + \
b001b50f2009 Imported from capsule None devteam parents: diff changeset	419 str(self.quality) + "\t" + \
b001b50f2009 Imported from capsule None devteam parents: diff changeset	420 self.filters + "\t" + \
b001b50f2009 Imported from capsule None devteam parents: diff changeset	421 self.info
b001b50f2009 Imported from capsule None devteam parents: diff changeset	422
b001b50f2009 Imported from capsule None devteam parents: diff changeset	423 if self.hasGenotypes and not removeGenotypes: record += self.genotypeString
b001b50f2009 Imported from capsule None devteam parents: diff changeset	424
b001b50f2009 Imported from capsule None devteam parents: diff changeset	425 record += "\n"
b001b50f2009 Imported from capsule None devteam parents: diff changeset	426
b001b50f2009 Imported from capsule None devteam parents: diff changeset	427 return record
b001b50f2009 Imported from capsule None devteam parents: diff changeset	428
b001b50f2009 Imported from capsule None devteam parents: diff changeset	429 # Close the vcf file.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	430 def closeVcf(self, filename):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	431 self.filehandle.close()
b001b50f2009 Imported from capsule None devteam parents: diff changeset	432
b001b50f2009 Imported from capsule None devteam parents: diff changeset	433 # Define error messages for different handled errors.
b001b50f2009 Imported from capsule None devteam parents: diff changeset	434 def generalError(self, text, field, fieldValue):
b001b50f2009 Imported from capsule None devteam parents: diff changeset	435 print >> sys.stderr, "\nError encountered when attempting to read:"
b001b50f2009 Imported from capsule None devteam parents: diff changeset	436 print >> sys.stderr, "\treference sequence :\t", self.referenceSequence
b001b50f2009 Imported from capsule None devteam parents: diff changeset	437 print >> sys.stderr, "\tposition :\t\t", self.position
b001b50f2009 Imported from capsule None devteam parents: diff changeset	438 if field != "": print >> sys.stderr, "\t", field, ":\t", fieldValue
b001b50f2009 Imported from capsule None devteam parents: diff changeset	439 print >> sys.stderr, "\n", text
b001b50f2009 Imported from capsule None devteam parents: diff changeset	440 exit(1)

0

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

1 #!/usr/bin/python

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

2

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

3 import os.path

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

4 import sys

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

5 import re

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

6

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

7 class vcf:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

8 def __init__(self):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

9

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

10 # Header info.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

11 self.filename = ""

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

12 self.hasHeader = True

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

13 self.headerText = ""

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

14 self.headerTitles = ""

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

15 self.vcfFormat = ""

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

16 #self.headerInfoText = ""

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

17 #self.headerFormatText = ""

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

18

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

19 # Store the info and format tags as well as the lines that describe

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

20 # them in a dictionary.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

21 self.numberDataSets = 0

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

22 self.includedDataSets = {}

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

23 self.infoHeaderTags = {}

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

24 self.infoHeaderString = {}

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

25 self.formatHeaderTags = {}

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

26 self.formatHeaderString = {}

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

27

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

28 # Genotype information.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

29 self.genotypes = False

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

30 self.infoField = {}

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

31

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

32 # Reference sequence information.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

33 self.referenceSequences = {}

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

34 self.referenceSequenceList = []

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

35 self.referenceSequence = ""

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

36

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

37 # Record information.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

38 self.position = -1

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

39 self.samplesList = []

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

40

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

41 # Determine which fields to process.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

42 self.processInfo = False

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

43 self.processGenotypes = False

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

44 self.dbsnpVcf = False

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

45 self.hapmapVcf = False

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

46

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

47 # Open a vcf file.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

48 def openVcf(self, filename):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

49 if filename == "stdin":

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

50 self.filehandle = sys.stdin

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

51 self.filename = "stdin"

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

52 else:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

53 try: self.filehandle = open(filename,"r")

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

54 except IOError:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

55 print >> sys.stderr, "Failed to find file: ",filename

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

56 exit(1)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

57 self.filename = os.path.abspath(filename)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

58

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

59 # Parse the vcf header.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

60 def parseHeader(self, filename, writeOut):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

61 while self.getHeaderLine(filename, writeOut):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

62 continue

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

63

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

64 # Determine the type of information in the header line.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

65 def getHeaderLine(self, filename, writeOut):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

66 self.headerLine = self.filehandle.readline().rstrip("\n")

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

67 if self.headerLine.startswith("##fileformat"): success = self.getvcfFormat()

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

68 if self.headerLine.startswith("##INFO"): success = self.headerInfo(writeOut, "info")

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

69 elif self.headerLine.startswith("##FORMAT"): success = self.headerInfo(writeOut, "format")

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

70 elif self.headerLine.startswith("##FILE"): success = self.headerFiles(writeOut)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

71 elif self.headerLine.startswith("##"): success = self.headerAdditional()

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

72 elif self.headerLine.startswith("#"): success = self.headerTitleString(filename, writeOut)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

73 else: success = self.noHeader(filename, writeOut)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

74

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

75 return success

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

76

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

77 # Read VCF format

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

78 def getvcfFormat(self):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

79 try:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

80 self.vcfFormat = self.headerLine.split("=",1)[1]

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

81 self.vcfFormat = float( self.vcfFormat.split("VCFv",1)[1] )## Extract the version number rather than the whole string

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

82 except IndexError:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

83 print >> sys.stderr, "\nError parsing the fileformat"

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

84 print >> sys.stderr, "The following fileformat header is wrongly formatted: ", self.headerLine

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

85 exit(1)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

86 return True

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

87

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

88

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

89 # Read information on an info field from the header line.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

90 def headerInfo(self, writeOut, lineType):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

91 tag = self.headerLine.split("=",1)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

92 tagID = (tag[1].split("ID=",1))[1].split(",",1)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

93

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

94 # Check if this info field has already been defined.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

95 if (lineType == "info" and self.infoHeaderTags.has_key(tagID[0])) or (lineType == "format" and self.formatHeaderTags.has_key(tagID[0])):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

96 print >> sys.stderr, "Info tag \"", tagID[0], "\" is defined multiple times in the header."

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

97 exit(1)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

98

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

99 # Determine the number of entries, entry type and description.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

100 tagNumber = (tagID[1].split("Number=",1))[1].split(",",1)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

101 tagType = (tagNumber[1].split("Type=",1))[1].split(",",1)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

102 try: tagDescription = ( ( (tagType[1].split("Description=\"",1))[1] ).split("\">") )[0]

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

103 except IndexError: tagDescription = ""

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

104 tagID = tagID[0]; tagNumber = tagNumber[0]; tagType = tagType[0]

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

105

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

106 # Check that the number of fields associated with the tag is either

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

107 # an integer or a '.' to indicate variable number of entries.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

108 if tagNumber == ".": tagNumber = "variable"

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

109 else:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

110 if self.vcfFormat<4.1:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

111

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

112 try:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

113 tagNumber = int(tagNumber)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

114

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

115 except ValueError:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

116 print >> sys.stderr, "\nError parsing header. Problem with info tag:", tagID

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

117 print >> sys.stderr, "Number of fields associated with this tag is not an integer or '.'"

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

118 exit(1)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

119

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

120 if lineType == "info":

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

121 self.infoHeaderTags[tagID] = tagNumber, tagType, tagDescription

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

122 self.infoHeaderString[tagID] = self.headerLine

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

123 if lineType == "format":

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

124 self.formatHeaderTags[tagID] = tagNumber, tagType, tagDescription

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

125 self.formatHeaderString[tagID] = self.headerLine

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

126

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

127 return True

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

128

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

129 # Check to see if the records contain information from multiple different

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

130 # sources. If vcfPytools has been used to find the intersection or union

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

131 # of two vcf files, the records may have been merged to keep all the

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

132 # information available. If this is the case, there will be a ##FILE line

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

133 # for each set of information in the file. The order of these files needs

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

134 # to be maintained.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

135 def headerFiles(self, writeOut):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

136 fileID = (self.headerLine.split("ID=",1))[1].split(",",1)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

137 filename = fileID[1].split("\"",2)[1]

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

138 try: fileID = int(fileID[0])

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

139 except ValueError:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

140 print >> sys.stderr, "File ID in ##FILE entry must be an integer."

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

141 print >> sys.stderr, self.headerLine

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

142 exit(1)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

143 if self.includedDataSets.has_key(fileID):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

144 print >> sys.stderr, "\nERROR: file " + self.filename

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

145 print >> sys.stderr, "Multiple files in the ##FILE list have identical ID values."

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

146 exit(1)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

147 self.includedDataSets[fileID] = filename

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

148

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

149 # Set the number of files with information in this vcf file.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

150 if fileID > self.numberDataSets: self.numberDataSets = fileID

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

151

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

152 return True

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

153

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

154 # Read additional information contained in the header.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

155 def headerAdditional(self):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

156 self.headerText += self.headerLine + "\n"

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

157

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

158 return True

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

159

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

160 # Read in the column titles to check that all standard fields

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

161 # are present and read in all the samples.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

162 def headerTitleString(self, filename, writeOut):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

163 self.headerTitles = self.headerLine + "\n"

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

164

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

165 # Strip the end of line character from the last infoFields entry.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

166 infoFields = self.headerLine.split("\t")

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

167 if len(infoFields) > 8:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

168 # if len(infoFields) - 9 == 1 and writeOut: print >> sys.stdout, len(infoFields) - 9, " sample present in vcf file: ", filename

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

169 # elif writeOut: print >> sys.stdout, len(infoFields) - 9, " samples present in vcf file: ", filename

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

170 self.samplesList = infoFields[9:]

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

171 self.genotypes = True

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

172 elif len(infoFields) == 8:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

173 if writeOut: print >> sys.stdout, "No samples present in the header. No genotype information available."

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

174 else:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

175 print self.headerLine, len(infoFields)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

176 print >> sys.stderr, "Not all vcf standard fields are available."

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

177 exit(1)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

178

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

179 return False

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

180

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

181 # If there is no header in the vcf file, close and reopen the

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

182 # file so that the first line is avaiable for parsing as a

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

183 # vcf record.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

184 def noHeader(self, filename, writeOut):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

185 if writeOut: print >> sys.stdout, "No header lines present in", filename

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

186 self.hasHeader = False

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

187 self.closeVcf(filename)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

188 self.openVcf(filename)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

189

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

190 return False

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

191

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

192 # Check that info fields exist.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

193 def checkInfoFields(self, tag):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

194 if self.infoHeaderTags.has_key(tag) == False:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

195 print >> sys.stderr, "Info tag \"", tag, "\" does not exist in the header."

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

196 exit(1)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

197

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

198 # Get the next line of information from the vcf file.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

199 def getRecord(self):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

200 self.record = self.filehandle.readline()

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

201 if not self.record: return False

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

202

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

203 # Set up and execute a regular expression match.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

204 recordRe = re.compile(r"^(\S+)\t(\d+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)(\n|\t.+)$")

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

205 #recordRe = re.compile(r"^(\S+)\s+(\d+)\s+(\S+)\s+(\S+)\s+(\S+)\s+(\S+)\s+(\S+)\s+(\S+)(\n|\s+.+)$")

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

206 recordMatch = recordRe.match(self.record)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

207 if recordMatch == None:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

208 print >> sys.stderr, "Unable to resolve vcf record.\n"

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

209 print >> sys.stderr, self.record

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

210 exit(1)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

211

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

212 self.referenceSequence = recordMatch.group(1)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

213 try: self.position = int(recordMatch.group(2))

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

214 except ValueError:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

215 text = "variant position is not an integer"

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

216 self.generalError(text, "", None)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

217 self.rsid = recordMatch.group(3)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

218 self.ref = recordMatch.group(4)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

219 self.alt = recordMatch.group(5)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

220 self.quality = recordMatch.group(6)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

221 self.filters = recordMatch.group(7)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

222 self.info = recordMatch.group(8)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

223 self.genotypeString = recordMatch.group(9)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

224 self.infoTags = {}

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

225

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

226 # Check that the quality is an integer or a float. If not, set the quality

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

227 # to zero.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

228 try: self.quality = float(self.quality)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

229 except ValueError: self.quality = float(0.)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

230

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

231 # If recordMatch.group(9) is not the end of line character, there is

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

232 # genotype information with this record.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

233 if self.genotypeString != "\n": self.hasGenotypes = True

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

234 else: self.hasGenotypes = False

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

235

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

236 # Add the reference sequence to the dictionary. If it didn't previously

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

237 # exist append the reference sequence to the end of the list as well.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

238 # This ensures that the order in which the reference sequences appeared

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

239 # in the header can be preserved.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

240 if self.referenceSequence not in self.referenceSequences:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

241 self.referenceSequences[self.referenceSequence] = True

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

242 self.referenceSequenceList.append(self.referenceSequence)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

243

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

244 # Check for multiple alternate alleles.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

245 self.alternateAlleles = self.alt.split(",")

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

246 self.numberAlternateAlleles = len(self.alternateAlleles)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

247

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

248 # If required, process the info and genotypes.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

249 if self.processInfo: self.processInfoFields()

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

250 if self.processGenotypes and self.hasGenotypes: self.processGenotypeFields()

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

251

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

252 return True

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

253

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

254 # Process the info string.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

255 def processInfoFields(self):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

256

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

257 # First break the info string into its constituent elements.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

258 infoEntries = self.info.split(";")

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

259

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

260 # As long as some info fields exist, place them into a dictionary.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

261 for entry in infoEntries:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

262 infoEntry = entry.split("=")

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

263

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

264 # If the entry is a flag, there will be no equals and the length of

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

265 # infoEntry will be 1. In this case, set the dictionary entry to the

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

266 # whole entry. If the vcf file has undergone a union or intersection

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

267 # operation and contains the information from multiple files, this may

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

268 # be a '/' seperate list of flags and so cannot be set to a Boolean value

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

269 # yet.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

270 if len(infoEntry) == 1: self.infoTags[infoEntry[0]] = infoEntry[0]

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

271 elif len(infoEntry) > 1: self.infoTags[infoEntry[0]] = infoEntry[1]

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

272

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

273 # Process the genotype formats and values.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

274 def processGenotypeFields(self):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

275 genotypeEntries = self.genotypeString.split("\t")

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

276 self.genotypeFormatString = genotypeEntries[1]

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

277 self.genotypes = list(genotypeEntries[2:])

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

278 self.genotypeFormats = {}

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

279 self.genotypeFields = {}

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

280 self.genotypeFormats = self.genotypeFormatString.split(":")

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

281

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

282 # Check that the number of genotype fields is equal to the number of samples

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

283 if len(self.samplesList) != len(self.genotypes):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

284 text = "The number of genotypes is different to the number of samples"

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

285 self.generalError(text, "", "")

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

286

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

287 # Add the genotype information to a dictionary.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

288 for i in range( len(self.samplesList) ):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

289 genotypeInfo = self.genotypes[i].split(":")

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

290 self.genotypeFields[ self.samplesList[i] ] = {}

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

291

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

292 # Check that there are as many fields as in the format field. If not, this must

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

293 # be because the information is not known. In this case, it is permitted that

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

294 # the genotype information is either . or ./.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

295 if genotypeInfo[0] == "./." or genotypeInfo[0] == "." and len(self.genotypeFormats) != len(genotypeInfo):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

296 self.genotypeFields[ self.samplesList[i] ] = "."

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

297 else:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

298 if len(self.genotypeFormats) != len(genotypeInfo):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

299 text = "The number of genotype fields is different to the number specified in the format string"

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

300 self.generalError(text, "sample", self.samplesList[i])

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

301

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

302 for j in range( len(self.genotypeFormats) ): self.genotypeFields[ self.samplesList[i] ][ self.genotypeFormats[j] ] = genotypeInfo[j]

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

303

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

304 # Parse through the vcf file until the correct reference sequence is

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

305 # encountered and the position is greater than or equal to that requested.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

306 def parseVcf(self, referenceSequence, position, writeOut, outputFile):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

307 success = True

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

308 if self.referenceSequence != referenceSequence:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

309 while self.referenceSequence != referenceSequence and success:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

310 if writeOut: outputFile.write(self.record)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

311 success = self.getRecord()

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

312

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

313 while self.referenceSequence == referenceSequence and self.position < position and success:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

314 if writeOut: outputFile.write(self.record)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

315 success = self.getRecord()

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

316

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

317 return success

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

318

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

319 # Get the information for a specific info tag. Also check that it contains

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

320 # the correct number and type of entries.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

321 def getInfo(self, tag):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

322 result = []

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

323

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

324 # Check if the tag exists in the header information. If so,

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

325 # determine the number and type of entries asscoiated with this

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

326 # tag.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

327 if self.infoHeaderTags.has_key(tag):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

328 infoNumber = self.infoHeaderTags[tag][0]

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

329 infoType = self.infoHeaderTags[tag][1]

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

330 numberValues = infoNumber

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

331

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

332 # First check that the tag exists in the information string. Then split

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

333 # the entry on commas. For flag entries, do not perform the split.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

334 if self.infoTags.has_key(tag):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

335 if numberValues == 0 and infoType == "Flag": result = True

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

336 elif numberValues != 0 and infoType == "Flag":

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

337 print >> sys.stderr, "ERROR"

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

338 exit(1)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

339 else:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

340 fields = self.infoTags[tag].split(",")

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

341 if len(fields) != numberValues:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

342 text = "Unexpected number of entries"

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

343 self.generalError(text, "information tag", tag)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

344

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

345 for i in range(infoNumber):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

346 try: result.append(fields[i])

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

347 except IndexError:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

348 text = "Insufficient values. Expected: " + self.infoHeaderTags[tag][0]

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

349 self.generalError(text, "tag:", tag)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

350 else: numberValues = 0

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

351

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

352 else:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

353 text = "information field does not have a definition in the header"

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

354 self.generalError(text, "tag", tag)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

355

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

356 return numberValues, infoType, result

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

357

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

358 # Get the genotype information.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

359 def getGenotypeInfo(self, sample, tag):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

360 result = []

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

361 if self.formatHeaderTags.has_key(tag):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

362 infoNumber = self.formatHeaderTags[tag][0]

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

363 infoType = self.formatHeaderTags[tag][1]

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

364 numberValues = infoNumber

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

365

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

366 if self.genotypeFields[sample] == "." and len(self.genotypeFields[sample]) == 1:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

367 numberValues = 0

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

368 result = "."

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

369 else:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

370 if self.genotypeFields[sample].has_key(tag):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

371 if tag == "GT":

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

372 if len(self.genotypeFields[sample][tag]) != 3 and len(self.genotypeFields[sample][tag]) != 1:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

373 text = "Unexected number of characters in genotype (GT) field"

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

374 self.generalError(text, "sample", sample)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

375

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

376 # If a diploid call, check whether or not the genotype is phased.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

377 elif len(self.genotypeFields[sample][tag]) == 3:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

378 self.phased = True if self.genotypeFields[sample][tag][1] == "|" else False

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

379 result.append( self.genotypeFields[sample][tag][0] )

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

380 result.append( self.genotypeFields[sample][tag][2] )

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

381 elif len(self.genotypeFields[sample][tag]) == 3:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

382 result.append( self.genotypeFields[sample][tag][0] )

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

383 else:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

384 fields = self.genotypeFields[sample][tag].split(",")

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

385 if len(fields) != numberValues:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

386 text = "Unexpected number of characters in " + tag + " field"

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

387 self.generalError(text, "sample", sample)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

388

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

389 for i in range(infoNumber): result.append(fields[i])

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

390 else:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

391 text = "genotype field does not have a definition in the header"

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

392 self.generalError(text, "tag", tag)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

393

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

394 return numberValues, result

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

395

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

396 # Parse the dbsnp entry. If the entry conforms to the required variant type,

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

397 # return the dbsnp rsid value, otherwise ".".

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

398 def getDbsnpInfo(self):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

399

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

400 # First check that the variant class (VC) is listed as SNP.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

401 vc = self.info.split("VC=",1)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

402 if vc[1].find(";") != -1: snp = vc[1].split(";",1)

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

403 else:

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

404 snp = []

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

405 snp.append(vc[1])

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

406

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

407 if snp[0].lower() == "snp": rsid = self.rsid

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

408 else: rsid = "."

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

409

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

410 return rsid

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

411

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

412 # Build a new vcf record.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

413 def buildRecord(self, removeGenotypes):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

414 record = self.referenceSequence + "\t" + \

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

415 str(self.position) + "\t" + \

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

416 self.rsid + "\t" + \

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

417 self.ref + "\t" + \

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

418 self.alt + "\t" + \

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

419 str(self.quality) + "\t" + \

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

420 self.filters + "\t" + \

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

421 self.info

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

422

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

423 if self.hasGenotypes and not removeGenotypes: record += self.genotypeString

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

424

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

425 record += "\n"

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

426

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

427 return record

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

428

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

429 # Close the vcf file.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

430 def closeVcf(self, filename):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

431 self.filehandle.close()

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

432

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

433 # Define error messages for different handled errors.

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

434 def generalError(self, text, field, fieldValue):

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

435 print >> sys.stderr, "\nError encountered when attempting to read:"

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

436 print >> sys.stderr, "\treference sequence :\t", self.referenceSequence

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

437 print >> sys.stderr, "\tposition :\t\t", self.position

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

438 if field != "": print >> sys.stderr, "\t", field, ":\t", fieldValue

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

439 print >> sys.stderr, "\n", text

b001b50f2009 Imported from capsule None

devteam

parents:

diff changeset

440 exit(1)

Mercurial > repos > devteam > vcf_annotate

annotate vcfClass.py @ 0:b001b50f2009 draft default tip