query_tabular: query_tabular.py comparison

comparison query_tabular.py @ 6:03842a4f71c6 draft

Uploaded

author	jjohnson
date	Fri, 17 Feb 2017 15:20:24 -0500
parents	19ae309ec53c
children	72c32037fa1e

comparison

equal deleted inserted replaced

-:19ae309ec53c
+:03842a4f71c6
 """
 TODO:
 - could read column names from comment lines, but issues with legal names
 - could add some transformations on tabular columns,
+filter - skip_regex
 e.g. a regex to format date/time strings
 format: {
 c2 : re.sub('pat', 'sub', c2)
 c3 : len(c3)
 }
 def format(colname,val, expr):
+normalize input list columns
+iterate over list values creating one row per iteration
+option for input line_num column
+create associated table
+fk, name, value  # e.g. PSM table with list of proteins containing peptide
+fk, name, value[, value] # if multiple columns similarly indexed, e.g. vcf
 - column_defs dict of columns to create from tabular input
 column_defs : { 'name1' : 'expr', 'name2' : 'expr'}
 - allow multiple queries and outputs
+repeat min - max with up to max conditional outputs
 - add a --json input for table definitions (or yaml)
 JSON config:
 { tables : [
 { file_path : '/home/galaxy/dataset_101.dat',
 table_name : 't1',
 unique: ['c1'],
 index: ['c2','c3']
 },
 { file_path : '/home/galaxy/dataset_102.dat',
 table_name : 'gff',
-column_names : ['seqname',,,'start','end']
+column_names : ['seqname',,'date','start','end']
 comment_lines : 1
 load_named_columns : True
+filters : [{'filter': 'regex', 'pattern': '#peptide', 'action': 'exclude_match'},
+{'filter': 'replace', 'column': 3, 'replace': 'gi[|]', 'pattern': ''}]
 },
 { file_path : '/home/galaxy/dataset_103.dat',
 table_name : 'test',
 column_names : ['c1', 'c2', 'c3']
 }
 ]
 }
 """
-tables_query = \
-"SELECT name, sql FROM sqlite_master WHERE type='table' ORDER BY name"
+class LineFilter( object ):
+def __init__(self,source,filter_dict):
+self.source = source
+self.filter_dict = filter_dict
+print >> sys.stderr, 'LineFilter %s' % filter_dict if filter_dict else 'NONE'
+self.func = lambda l: l.rstrip('\r\n') if l else None
+if not filter_dict:
+return
+if filter_dict['filter'] == 'regex':
+rgx = re.compile(filter_dict['pattern'])
+if filter_dict['action'] == 'exclude_match':
+self.func = lambda l: l if not rgx.match(l) else None
+elif filter_dict['action'] == 'include_match':
+self.func = lambda l: l if rgx.match(l) else None
+elif filter_dict['action'] == 'exclude_find':
+self.func = lambda l: l if not rgx.search(l) else None
+elif filter_dict['action'] == 'include_find':
+self.func = lambda l: l if rgx.search(l) else None
+elif filter_dict['filter'] == 'replace':
+p = filter_dict['pattern']
+r = filter_dict['replace']
+c = int(filter_dict['column']) - 1
+self.func = lambda l: '\t'.join([x if i != c else re.sub(p,r,x) for i,x in enumerate(l.split('\t'))])
+def __iter__(self):
+return self
+def next(self):
+for i,next_line in enumerate(self.source):
+line = self.func(next_line)
+if line:
+return line
+raise StopIteration
+class TabularReader:
+"""
+Tabular file iterator. Returns a list
+"""
+def __init__(self, file_path, skip=0, comment_char=None, col_idx=None, filters=None):
+self.skip = skip
+self.comment_char = comment_char
+self.col_idx = col_idx
+self.filters = filters
+self.tsv_file = open(file_path)
+if skip and skip > 0:
+for i in range(5):
+if not self.tsv_file.readline():
+break
+source = LineFilter(self.tsv_file,None)
+if comment_char:
+source = LineFilter(source,{"filter": "regex", "pattern": comment_char, "action": "exclude_match"})
+if filters:
+for f in filters:
+source = LineFilter(source,f)
+self.source = source
+def __iter__(self):
+return self
+def next(self):
+''' Iteration '''
+for i,line in enumerate(self.source):
+fields = line.rstrip('\r\n').split('\t')
+if self.col_idx:
+fields = [fields[i] for i in self.col_idx]
+return fields
+raise StopIteration
 def getValueType(val):
 if val or 0. == val:
 try:
 return 'TEXT'
 return None
 def get_column_def(file_path, table_name, skip=0, comment_char='#',
-column_names=None, max_lines=100,load_named_columns=False):
+column_names=None, max_lines=100,load_named_columns=False,filters=None):
 col_pref = ['TEXT', 'REAL', 'INTEGER', None]
 col_types = []
 col_idx = None
 data_lines = 0
 try:
-with open(file_path, "r") as fh:
+tr = TabularReader(file_path,skip=skip, comment_char=comment_char, col_idx=None, filters=filters)
-for linenum, line in enumerate(fh):
+for linenum, fields in enumerate(tr):
-if linenum < skip:
+if linenum > max_lines:
-continue
+break
-if line.startswith(comment_char):
+try:
-continue
+while len(col_types) < len(fields):
-data_lines += 1
+col_types.append(None)
-try:
+for i, val in enumerate(fields):
-fields = line.split('\t')
+colType = getValueType(val)
-while len(col_types) < len(fields):
+if col_pref.index(colType) < col_pref.index(col_types[i]):
-col_types.append(None)
+col_types[i] = colType
-for i, val in enumerate(fields):
+except Exception, e:
-colType = getValueType(val)
+print >> sys.stderr, 'Failed at line: %d err: %s' % (linenum, e)
-if col_pref.index(colType) < col_pref.index(col_types[i]):
-col_types[i] = colType
-except Exception, e:
-print >> sys.stderr, 'Failed at line: %d err: %s' % (linenum, e)
 except Exception, e:
 print >> sys.stderr, 'Failed: %s' % (e)
 for i,col_type in enumerate(col_types):
 if not col_type:
 col_types[i] = 'TEXT'
 for i, col_name in enumerate(col_names):
 col_def.append('%s %s' % (col_names[i], col_types[i]))
 return col_names, col_types, col_def, col_idx
-def create_table(conn, file_path, table_name, skip=0, comment_char='#', pkey_autoincr=None, column_names=None,load_named_columns=False,unique_indexes=[],indexes=[]):
+def create_table(conn, file_path, table_name, skip=0, comment_char='#', pkey_autoincr=None, column_names=None,load_named_columns=False,filters=None,unique_indexes=[],indexes=[]):
-col_names, col_types, col_def, col_idx = get_column_def(file_path, table_name, skip=skip, comment_char=comment_char, column_names=column_names,load_named_columns=load_named_columns)
+col_names, col_types, col_def, col_idx = get_column_def(file_path, table_name, skip=skip, comment_char=comment_char,
+column_names=column_names,load_named_columns=load_named_columns,filters=filters)
 col_func = [float if t == 'REAL' else int if t == 'INTEGER' else str for t in col_types]
 table_def = 'CREATE TABLE %s (\n    %s%s\n);' % (
 table_name,
 '%s INTEGER PRIMARY KEY AUTOINCREMENT,' % pkey_autoincr if pkey_autoincr else '',
 ', \n    '.join(col_def))
 # print >> sys.stdout, table_def
 insert_stmt = 'INSERT INTO %s(%s) VALUES(%s)' % (table_name, ','.join(col_names), ','.join(["?" for x in col_names]))
 # print >> sys.stdout, insert_stmt
 for i,index in enumerate(indexes):
 index_name='idx_%s_%d' % (table_name,i)
 index_columns = index.split(',')
 create_index(conn, table_name, index_name, index_columns)
 c = conn.cursor()
-with open(file_path, "r") as fh:
+tr = TabularReader(file_path,skip=skip, comment_char=comment_char, col_idx=col_idx, filters=filters)
-for linenum, line in enumerate(fh):
+for linenum, fields in enumerate(tr):
-if linenum < skip or line.startswith(comment_char):
+data_lines += 1
-continue
+try:
-data_lines += 1
+if col_idx:
-try:
+fields = [fields[i] for i in col_idx]
-fields = line.rstrip('\r\n').split('\t')
+vals = [col_func[i](x) if x else None for i, x in enumerate(fields)]
-if col_idx:
+c.execute(insert_stmt, vals)
-fields = [fields[i] for i in col_idx]
+except Exception, e:
-vals = [col_func[i](x) if x else None for i, x in enumerate(fields)]
+print >> sys.stderr, 'Failed at line: %d err: %s' % (linenum, e)
-c.execute(insert_stmt, vals)
-except Exception, e:
-print >> sys.stderr, 'Failed at line: %d err: %s' % (linenum, e)
 conn.commit()
 c.close()
 except Exception, e:
 print >> sys.stderr, 'Failed: %s' % (e)
 exit(1)
 def create_index(conn, table_name, index_name, index_columns, unique=False):
 index_def = "CREATE %s INDEX %s on %s(%s)" % ('UNIQUE' if unique else '', index_name, table_name, ','.join(index_columns))
 c = conn.cursor()
 c.execute(index_def)
 conn.commit()
 c.close()
 def regex_match(expr, item):
 return re.match(expr, item) is not None
 if 'tables' in tdef:
 for ti, table in enumerate(tdef['tables']):
 path = table['file_path']
 table_name = table['table_name'] if 'table_name' in table else 't%d' % (ti + 1)
 comment_lines = table['comment_lines'] if 'comment_lines' in table else 0
+comment_char = table['comment_char'] if 'comment_char' in table else None
 column_names = table['column_names'] if 'column_names' in table else None
 if column_names:
 load_named_columns = table['load_named_columns'] if 'load_named_columns' in table else False
 else:
 load_named_columns = False
 unique_indexes = table['unique'] if 'unique' in table else []
 indexes = table['index'] if 'index' in table else []
+filters = table['filters'] if 'filters' in table else None
 pkey_autoincr = table['pkey_autoincr'] if 'pkey_autoincr' in table else None
 create_table(conn, path, table_name, pkey_autoincr=pkey_autoincr, column_names=column_names,
-skip=comment_lines, load_named_columns=load_named_columns,
+skip=comment_lines, comment_char=comment_char, load_named_columns=load_named_columns,
-unique_indexes=unique_indexes, indexes=indexes)
+filters=filters,unique_indexes=unique_indexes, indexes=indexes)
 except Exception, exc:
 print >> sys.stderr, "Error: %s" % exc
 conn.close()
 query = None
 query += line
 elif (options.query is not None):
 query = options.query
 if (query is None):
+tables_query = \
+"SELECT name, sql FROM sqlite_master WHERE type='table' ORDER BY name"
 try:
 conn = get_connection(options.sqlitedb)
 c = conn.cursor()
 rslt = c.execute(tables_query).fetchall()
 for table, sql in rslt:

Mercurial > repos > jjohnson > query_tabular

comparison query_tabular.py @ 6:03842a4f71c6 draft