protk: lib/galaxy/datatypes/proteomics.py annotate

annotate lib/galaxy/datatypes/proteomics.py @ 0:a929e27eb203 draft

Uploaded

author	iracooke
date	Thu, 21 Jun 2012 22:30:48 -0400
parents
children

rev	line source
0 a929e27eb203 Uploaded iracooke parents: diff changeset	1 """
a929e27eb203 Uploaded iracooke parents: diff changeset	2 Proteomics format classes
a929e27eb203 Uploaded iracooke parents: diff changeset	3 """
a929e27eb203 Uploaded iracooke parents: diff changeset	4 import logging
a929e27eb203 Uploaded iracooke parents: diff changeset	5 import re
a929e27eb203 Uploaded iracooke parents: diff changeset	6 from galaxy.datatypes.data import *
a929e27eb203 Uploaded iracooke parents: diff changeset	7 from galaxy.datatypes.xml import *
a929e27eb203 Uploaded iracooke parents: diff changeset	8 from galaxy.datatypes.sniff import *
a929e27eb203 Uploaded iracooke parents: diff changeset	9 from galaxy.datatypes.binary import *
a929e27eb203 Uploaded iracooke parents: diff changeset	10
a929e27eb203 Uploaded iracooke parents: diff changeset	11 log = logging.getLogger(__name__)
a929e27eb203 Uploaded iracooke parents: diff changeset	12
a929e27eb203 Uploaded iracooke parents: diff changeset	13
a929e27eb203 Uploaded iracooke parents: diff changeset	14 class Xls( Binary ):
a929e27eb203 Uploaded iracooke parents: diff changeset	15 """Class describing a binary excel spreadsheet file"""
a929e27eb203 Uploaded iracooke parents: diff changeset	16 file_ext = "xls"
a929e27eb203 Uploaded iracooke parents: diff changeset	17
a929e27eb203 Uploaded iracooke parents: diff changeset	18 def set_peek( self, dataset, is_multi_byte=False ):
a929e27eb203 Uploaded iracooke parents: diff changeset	19 if not dataset.dataset.purged:
a929e27eb203 Uploaded iracooke parents: diff changeset	20 dataset.peek = "Excel Spreadsheet file"
a929e27eb203 Uploaded iracooke parents: diff changeset	21 dataset.blurb = data.nice_size( dataset.get_size() )
a929e27eb203 Uploaded iracooke parents: diff changeset	22 else:
a929e27eb203 Uploaded iracooke parents: diff changeset	23 dataset.peek = 'file does not exist'
a929e27eb203 Uploaded iracooke parents: diff changeset	24 dataset.blurb = 'file purged from disk'
a929e27eb203 Uploaded iracooke parents: diff changeset	25 def display_peek( self, dataset ):
a929e27eb203 Uploaded iracooke parents: diff changeset	26 try:
a929e27eb203 Uploaded iracooke parents: diff changeset	27 return dataset.peek
a929e27eb203 Uploaded iracooke parents: diff changeset	28 except:
a929e27eb203 Uploaded iracooke parents: diff changeset	29 return "Binary xls file (%s)" % ( data.nice_size( dataset.get_size() ) )
a929e27eb203 Uploaded iracooke parents: diff changeset	30
a929e27eb203 Uploaded iracooke parents: diff changeset	31 class PepXml(GenericXml):
a929e27eb203 Uploaded iracooke parents: diff changeset	32 """pepXML data"""
a929e27eb203 Uploaded iracooke parents: diff changeset	33 file_ext = "pepxml"
a929e27eb203 Uploaded iracooke parents: diff changeset	34
a929e27eb203 Uploaded iracooke parents: diff changeset	35 def set_peek( self, dataset, is_multi_byte=False ):
a929e27eb203 Uploaded iracooke parents: diff changeset	36 """Set the peek and blurb text"""
a929e27eb203 Uploaded iracooke parents: diff changeset	37 if not dataset.dataset.purged:
a929e27eb203 Uploaded iracooke parents: diff changeset	38 dataset.peek = data.get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
a929e27eb203 Uploaded iracooke parents: diff changeset	39 dataset.blurb = 'pepXML data'
a929e27eb203 Uploaded iracooke parents: diff changeset	40 else:
a929e27eb203 Uploaded iracooke parents: diff changeset	41 dataset.peek = 'file does not exist'
a929e27eb203 Uploaded iracooke parents: diff changeset	42 dataset.blurb = 'file purged from disk'
a929e27eb203 Uploaded iracooke parents: diff changeset	43 def sniff( self, filename ):
a929e27eb203 Uploaded iracooke parents: diff changeset	44 """
a929e27eb203 Uploaded iracooke parents: diff changeset	45 Determines whether the file is pepXML
a929e27eb203 Uploaded iracooke parents: diff changeset	46 """
a929e27eb203 Uploaded iracooke parents: diff changeset	47 #TODO - Use a context manager on Python 2.5+ to close handle
a929e27eb203 Uploaded iracooke parents: diff changeset	48 handle = open(filename)
a929e27eb203 Uploaded iracooke parents: diff changeset	49 xmlns_re = re.compile(".*pepXML\"")
a929e27eb203 Uploaded iracooke parents: diff changeset	50 for i in range(3):
a929e27eb203 Uploaded iracooke parents: diff changeset	51 line = handle.readline()
a929e27eb203 Uploaded iracooke parents: diff changeset	52 if xmlns_re.match(line.strip()):
a929e27eb203 Uploaded iracooke parents: diff changeset	53 handle.close()
a929e27eb203 Uploaded iracooke parents: diff changeset	54 return True
a929e27eb203 Uploaded iracooke parents: diff changeset	55
a929e27eb203 Uploaded iracooke parents: diff changeset	56 handle.close()
a929e27eb203 Uploaded iracooke parents: diff changeset	57 return False
a929e27eb203 Uploaded iracooke parents: diff changeset	58
a929e27eb203 Uploaded iracooke parents: diff changeset	59 class MzML( GenericXml ):
a929e27eb203 Uploaded iracooke parents: diff changeset	60 """mzML data"""
a929e27eb203 Uploaded iracooke parents: diff changeset	61 file_ext = "mzml"
a929e27eb203 Uploaded iracooke parents: diff changeset	62
a929e27eb203 Uploaded iracooke parents: diff changeset	63 def set_peek( self, dataset, is_multi_byte=False ):
a929e27eb203 Uploaded iracooke parents: diff changeset	64 """Set the peek and blurb text"""
a929e27eb203 Uploaded iracooke parents: diff changeset	65 if not dataset.dataset.purged:
a929e27eb203 Uploaded iracooke parents: diff changeset	66 dataset.peek = data.get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
a929e27eb203 Uploaded iracooke parents: diff changeset	67 dataset.blurb = 'mzML Mass Spectrometry data'
a929e27eb203 Uploaded iracooke parents: diff changeset	68 else:
a929e27eb203 Uploaded iracooke parents: diff changeset	69 dataset.peek = 'file does not exist'
a929e27eb203 Uploaded iracooke parents: diff changeset	70 dataset.blurb = 'file purged from disk'
a929e27eb203 Uploaded iracooke parents: diff changeset	71
a929e27eb203 Uploaded iracooke parents: diff changeset	72 def sniff( self, filename ):
a929e27eb203 Uploaded iracooke parents: diff changeset	73 handle = open(filename)
a929e27eb203 Uploaded iracooke parents: diff changeset	74 xmlns_re = re.compile("^<mzML")
a929e27eb203 Uploaded iracooke parents: diff changeset	75 for i in range(3):
a929e27eb203 Uploaded iracooke parents: diff changeset	76 line = handle.readline()
a929e27eb203 Uploaded iracooke parents: diff changeset	77 if xmlns_re.match(line.strip()):
a929e27eb203 Uploaded iracooke parents: diff changeset	78 handle.close()
a929e27eb203 Uploaded iracooke parents: diff changeset	79 return True
a929e27eb203 Uploaded iracooke parents: diff changeset	80
a929e27eb203 Uploaded iracooke parents: diff changeset	81 handle.close()
a929e27eb203 Uploaded iracooke parents: diff changeset	82 return False
a929e27eb203 Uploaded iracooke parents: diff changeset	83
a929e27eb203 Uploaded iracooke parents: diff changeset	84
a929e27eb203 Uploaded iracooke parents: diff changeset	85 class ProtXML( Text ):
a929e27eb203 Uploaded iracooke parents: diff changeset	86 """protXML data"""
a929e27eb203 Uploaded iracooke parents: diff changeset	87 file_ext = "protxml"
a929e27eb203 Uploaded iracooke parents: diff changeset	88
a929e27eb203 Uploaded iracooke parents: diff changeset	89 def set_peek( self, dataset, is_multi_byte=False ):
a929e27eb203 Uploaded iracooke parents: diff changeset	90 """Set the peek and blurb text"""
a929e27eb203 Uploaded iracooke parents: diff changeset	91 if not dataset.dataset.purged:
a929e27eb203 Uploaded iracooke parents: diff changeset	92 dataset.peek = data.get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
a929e27eb203 Uploaded iracooke parents: diff changeset	93 dataset.blurb = 'prot XML Search Results'
a929e27eb203 Uploaded iracooke parents: diff changeset	94 else:
a929e27eb203 Uploaded iracooke parents: diff changeset	95 dataset.peek = 'file does not exist'
a929e27eb203 Uploaded iracooke parents: diff changeset	96 dataset.blurb = 'file purged from disk'
a929e27eb203 Uploaded iracooke parents: diff changeset	97 def sniff( self, filename ):
a929e27eb203 Uploaded iracooke parents: diff changeset	98 protxml_header = [ '<?xml version="1.0" encoding="ISO-8859-1"?>',
a929e27eb203 Uploaded iracooke parents: diff changeset	99 'xmlns="http://regis-web.systemsbiology.net/protXML"' ]
a929e27eb203 Uploaded iracooke parents: diff changeset	100
a929e27eb203 Uploaded iracooke parents: diff changeset	101 for i, line in enumerate( file( filename ) ):
a929e27eb203 Uploaded iracooke parents: diff changeset	102 if i >= len( pepxml_header ):
a929e27eb203 Uploaded iracooke parents: diff changeset	103 return True
a929e27eb203 Uploaded iracooke parents: diff changeset	104 line = line.rstrip( '\n\r' )
a929e27eb203 Uploaded iracooke parents: diff changeset	105 if protxml_header[ i ] not in line:
a929e27eb203 Uploaded iracooke parents: diff changeset	106 return False
a929e27eb203 Uploaded iracooke parents: diff changeset	107
a929e27eb203 Uploaded iracooke parents: diff changeset	108
a929e27eb203 Uploaded iracooke parents: diff changeset	109
a929e27eb203 Uploaded iracooke parents: diff changeset	110 class MzXML( Text ):
a929e27eb203 Uploaded iracooke parents: diff changeset	111 """mzXML data"""
a929e27eb203 Uploaded iracooke parents: diff changeset	112 file_ext = "mzXML"
a929e27eb203 Uploaded iracooke parents: diff changeset	113
a929e27eb203 Uploaded iracooke parents: diff changeset	114 def set_peek( self, dataset, is_multi_byte=False ):
a929e27eb203 Uploaded iracooke parents: diff changeset	115 """Set the peek and blurb text"""
a929e27eb203 Uploaded iracooke parents: diff changeset	116 if not dataset.dataset.purged:
a929e27eb203 Uploaded iracooke parents: diff changeset	117 dataset.peek = data.get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
a929e27eb203 Uploaded iracooke parents: diff changeset	118 dataset.blurb = 'mzXML Mass Spectrometry data'
a929e27eb203 Uploaded iracooke parents: diff changeset	119 else:
a929e27eb203 Uploaded iracooke parents: diff changeset	120 dataset.peek = 'file does not exist'
a929e27eb203 Uploaded iracooke parents: diff changeset	121 dataset.blurb = 'file purged from disk'
a929e27eb203 Uploaded iracooke parents: diff changeset	122 def sniff( self, filename ):
a929e27eb203 Uploaded iracooke parents: diff changeset	123 mzxml_header = [ '<?xml version="1.0" encoding="ISO-8859-1"?>',
a929e27eb203 Uploaded iracooke parents: diff changeset	124 '<mzXML xmlns="http://sashimi.sourceforge.net/schema_revision/mzXML_2.1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://sashimi.sourceforge.net/schema_revision/mzXML_2.1 http://sashimi.sourceforge.net/schema_revision/mzXML_2.1/mzXML_idx_2.1.xsd">' ]
a929e27eb203 Uploaded iracooke parents: diff changeset	125 for i, line in enumerate( file( filename ) ):
a929e27eb203 Uploaded iracooke parents: diff changeset	126 if i >= len( mzxml_header ):
a929e27eb203 Uploaded iracooke parents: diff changeset	127 return True
a929e27eb203 Uploaded iracooke parents: diff changeset	128 line = line.rstrip( '\n\r' )
a929e27eb203 Uploaded iracooke parents: diff changeset	129 if line != mzxml_header[ i ]:
a929e27eb203 Uploaded iracooke parents: diff changeset	130 return False
a929e27eb203 Uploaded iracooke parents: diff changeset	131
a929e27eb203 Uploaded iracooke parents: diff changeset	132 class Mgf( Text ):
a929e27eb203 Uploaded iracooke parents: diff changeset	133 """Mascot Generic Format data"""
a929e27eb203 Uploaded iracooke parents: diff changeset	134 file_ext = "mgf"
a929e27eb203 Uploaded iracooke parents: diff changeset	135
a929e27eb203 Uploaded iracooke parents: diff changeset	136 def set_peek( self, dataset, is_multi_byte=False ):
a929e27eb203 Uploaded iracooke parents: diff changeset	137 """Set the peek and blurb text"""
a929e27eb203 Uploaded iracooke parents: diff changeset	138 if not dataset.dataset.purged:
a929e27eb203 Uploaded iracooke parents: diff changeset	139 dataset.peek = data.get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
a929e27eb203 Uploaded iracooke parents: diff changeset	140 dataset.blurb = 'mgf Mascot Generic Format'
a929e27eb203 Uploaded iracooke parents: diff changeset	141 else:
a929e27eb203 Uploaded iracooke parents: diff changeset	142 dataset.peek = 'file does not exist'
a929e27eb203 Uploaded iracooke parents: diff changeset	143 dataset.blurb = 'file purged from disk'
a929e27eb203 Uploaded iracooke parents: diff changeset	144
a929e27eb203 Uploaded iracooke parents: diff changeset	145
a929e27eb203 Uploaded iracooke parents: diff changeset	146 def sniff( self, filename ):
a929e27eb203 Uploaded iracooke parents: diff changeset	147 mgf_begin_ions = "BEGIN IONS"
a929e27eb203 Uploaded iracooke parents: diff changeset	148 max_lines=100
a929e27eb203 Uploaded iracooke parents: diff changeset	149
a929e27eb203 Uploaded iracooke parents: diff changeset	150 for i, line in enumerate( file( filename ) ):
a929e27eb203 Uploaded iracooke parents: diff changeset	151 line = line.rstrip( '\n\r' )
a929e27eb203 Uploaded iracooke parents: diff changeset	152 if line==mgf_begin_ions:
a929e27eb203 Uploaded iracooke parents: diff changeset	153 return True
a929e27eb203 Uploaded iracooke parents: diff changeset	154 if i>max_lines:
a929e27eb203 Uploaded iracooke parents: diff changeset	155 return False
a929e27eb203 Uploaded iracooke parents: diff changeset	156
a929e27eb203 Uploaded iracooke parents: diff changeset	157
a929e27eb203 Uploaded iracooke parents: diff changeset	158 class MascotDat( Text ):
a929e27eb203 Uploaded iracooke parents: diff changeset	159 """Mascot search results """
a929e27eb203 Uploaded iracooke parents: diff changeset	160 file_ext = "mascotdat"
a929e27eb203 Uploaded iracooke parents: diff changeset	161
a929e27eb203 Uploaded iracooke parents: diff changeset	162 def set_peek( self, dataset, is_multi_byte=False ):
a929e27eb203 Uploaded iracooke parents: diff changeset	163 """Set the peek and blurb text"""
a929e27eb203 Uploaded iracooke parents: diff changeset	164 if not dataset.dataset.purged:
a929e27eb203 Uploaded iracooke parents: diff changeset	165 dataset.peek = data.get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
a929e27eb203 Uploaded iracooke parents: diff changeset	166 dataset.blurb = 'mascotdat Mascot Search Results'
a929e27eb203 Uploaded iracooke parents: diff changeset	167 else:
a929e27eb203 Uploaded iracooke parents: diff changeset	168 dataset.peek = 'file does not exist'
a929e27eb203 Uploaded iracooke parents: diff changeset	169 dataset.blurb = 'file purged from disk'
a929e27eb203 Uploaded iracooke parents: diff changeset	170
a929e27eb203 Uploaded iracooke parents: diff changeset	171
a929e27eb203 Uploaded iracooke parents: diff changeset	172 def sniff( self, filename ):
a929e27eb203 Uploaded iracooke parents: diff changeset	173 mime_version = "MIME-Version: 1.0 (Generated by Mascot version 1.0)"
a929e27eb203 Uploaded iracooke parents: diff changeset	174 max_lines=10
a929e27eb203 Uploaded iracooke parents: diff changeset	175
a929e27eb203 Uploaded iracooke parents: diff changeset	176 for i, line in enumerate( file( filename ) ):
a929e27eb203 Uploaded iracooke parents: diff changeset	177 line = line.rstrip( '\n\r' )
a929e27eb203 Uploaded iracooke parents: diff changeset	178 if line==mime_version:
a929e27eb203 Uploaded iracooke parents: diff changeset	179 return True
a929e27eb203 Uploaded iracooke parents: diff changeset	180 if i>max_lines:
a929e27eb203 Uploaded iracooke parents: diff changeset	181 return False

Mercurial > repos > iracooke > protk

annotate lib/galaxy/datatypes/proteomics.py @ 0:a929e27eb203 draft