poor_gene_coverage: hgvs_collapse

author	Yusuf Ali <ali@yusuf.email>
date	Wed, 25 Mar 2015 15:49:28 -0600
parents
children

rev	line source
0 7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	1 #!/usr/bin/env perl
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	2
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	3 use strict;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	4 use warnings;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	5
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	6 # reports the variant in transcripts separately only if the AA change is different, or distance from splicing site is different
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	7 @ARGV == 2 or @ARGV == 3 or die "Usage: $0 <hgvs input.txt> <output.txt> [ignore splice distance diff]\n";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	8
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	9 my %ftype_rank = ( protein_coding => 100,
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	10 processed_transcript => 90,
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	11 antisense => 80,
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	12 retained_intron => 70,
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	13 lincRNA => 60,
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	14 nonsense_mediated_decay => 50,
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	15 misc_enrichment_kit_target => 0);
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	16
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	17 my %mtype_rank = ( nonsense => 100,
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	18 frameshift => 99,
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	19 nonstop => 90,
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	20 missense => 80,
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	21 silent => 50,
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	22 "non-coding" => 40);
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	23 open(IN, $ARGV[0])
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	24 or die "Cannot open $ARGV[0] for reading: $!\n";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	25 open(OUT, ">$ARGV[1]")
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	26 or die "Cannot open $ARGV[1] for writing: $!\n";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	27 my $succinct = (@ARGV == 3);
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	28 my @lines;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	29 my $last_chr = "";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	30 my $last_pos = "";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	31 my $last_alt = "";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	32 my %buffered_F;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	33 my %buffered_id_rank;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	34 my $header = <IN>;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	35 print OUT $header;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	36
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	37 my ($chr_column, $pos_column, $alt_column, $cdna_hgvs_column, $aa_hgvs_column, $phase_column, $transcript_column, $transcript_length_column, $exon_dist_column, $ftype_column, $mtype_column, $splicing_score_column, $splicing_effect_column, $sources_column);
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	38 chomp $header;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	39 my @headers = split /\t/, $header;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	40 for(my $i = 0; $i <= $#headers; $i++){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	41 if($headers[$i] eq "Chr"){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	42 $chr_column = $i;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	43 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	44 elsif($headers[$i] eq "Feature type"){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	45 $ftype_column = $i;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	46 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	47 elsif($headers[$i] eq "Variant type"){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	48 $mtype_column = $i;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	49 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	50 elsif($headers[$i] eq "DNA From" or $headers[$i] eq "DNA Pos"){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	51 $pos_column = $i;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	52 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	53 elsif($headers[$i] eq "Obs base"){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	54 $alt_column = $i;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	55 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	56 elsif($headers[$i] eq "Transcript HGVS"){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	57 $cdna_hgvs_column = $i;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	58 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	59 elsif($headers[$i] eq "Protein HGVS"){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	60 $aa_hgvs_column = $i;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	61 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	62 elsif($headers[$i] eq "Phase"){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	63 $phase_column = $i;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	64 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	65 elsif($headers[$i] eq "Selected transcript"){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	66 $transcript_column = $i;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	67 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	68 elsif($headers[$i] eq "Transcript length"){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	69 $transcript_length_column = $i;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	70 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	71 elsif($headers[$i] eq "Closest exon junction (AA coding variants)"){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	72 $exon_dist_column = $i;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	73 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	74 elsif($headers[$i] eq "Splicing alteration potential"){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	75 $splicing_score_column = $i;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	76 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	77 elsif($headers[$i] eq "Splicing alteration details"){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	78 $splicing_effect_column = $i;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	79 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	80 elsif($headers[$i] eq "Sources"){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	81 $sources_column = $i;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	82 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	83 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	84 if(not defined $chr_column){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	85 die "Could not find Chr header in $ARGV[0], aborting.\n";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	86 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	87 if(not defined $pos_column){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	88 die "Could not find 'DNA From' header in $ARGV[0], aborting.\n";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	89 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	90 if(not defined $alt_column){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	91 die "Could not find 'Obs base' header in $ARGV[0], aborting.\n";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	92 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	93 if(not defined $cdna_hgvs_column){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	94 die "Could not find 'Transcript HGVS' header in $ARGV[0], aborting.\n";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	95 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	96 if(not defined $aa_hgvs_column){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	97 die "Could not find 'Protein HGVS' header in $ARGV[0], aborting.\n";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	98 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	99 if(not defined $phase_column){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	100 die "Could not find Phase header in $ARGV[0], aborting.\n";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	101 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	102 if(not defined $transcript_column){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	103 die "Could not find 'Selected transcript' header in $ARGV[0], aborting.\n";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	104 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	105 if(not defined $transcript_length_column){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	106 die "Could not find 'Transcript length' header in $ARGV[0], aborting.\n";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	107 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	108 #if(not defined $mtype_column){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	109 # die "Could not find 'Variant type' header in $ARGV[0], aborting.\n";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	110 #}
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	111 if(not defined $ftype_column){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	112 die "Could not find 'Feature type' header in $ARGV[0], aborting.\n";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	113 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	114 if(not defined $exon_dist_column){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	115 die "Could not find 'Closest exon junction (AA coding variants)' header in $ARGV[0], aborting.\n";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	116 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	117
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	118 while(<IN>){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	119 chomp;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	120 my @F = split /\t/, $_, -1;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	121 my $chr = $F[$chr_column];
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	122 my $pos = $F[$pos_column];
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	123 my $alt = $F[$alt_column];
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	124 my $cdna_hgvs = $F[$cdna_hgvs_column];
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	125 my $hgvs = $F[$aa_hgvs_column];
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	126 my $ftype = $F[$ftype_column];
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	127 my $mtype;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	128 $mtype = $F[$mtype_column] if defined $mtype_column;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	129 $hgvs =~ s/\d+//g; # look only at the non-position parts of the AA syntax
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	130 my $exon_edge_distance = $F[$exon_dist_column];
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	131 my $phase = $F[$phase_column] \|\| "";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	132 # in the case of large indels (i.e. CNVs), their positions may not be the same, but effectively they should be reported as such
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	133 if($phase =~ /CNV-\S+?:(\S+)/){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	134 $pos = $1;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	135 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	136 my $preferred_id = $succinct ? ($F[$transcript_column] =~ /^$succinct/o) : 0;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	137 my $id_rank = $F[$transcript_column];
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	138 $id_rank =~ s/^.?0(\d+)(\.\d+)?$/$1/; # look at only trailing non-padded number (and no .version suffix)
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	139
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	140 my $collapse_key = $succinct ? "$chr:$pos:$alt" : "$chr:$pos:$hgvs:$exon_edge_distance:$phase";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	141 # Same variant
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	142 if($chr eq $last_chr and $pos eq $last_pos and $alt eq $last_alt){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	143 # same AA effect
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	144 if(not exists $buffered_F{$collapse_key}){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	145 $buffered_F{$collapse_key} = \@F;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	146 $buffered_id_rank{$collapse_key} = $id_rank;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	147 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	148 else{
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	149 $buffered_F{$collapse_key}->[$sources_column] .= "; $F[$sources_column]" if defined $sources_column;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	150 $ftype_rank{$ftype} = 0 if not defined $ftype_rank{$ftype};
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	151 $mtype_rank{$mtype} = 0 if defined $mtype and not exists $mtype_rank{$mtype};
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	152 my $buf_ftype = $buffered_F{$collapse_key}->[$ftype_column];
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	153 $ftype_rank{$buf_ftype} = 0 if not defined $ftype_rank{$buf_ftype};
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	154 my $buf_mtype;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	155 $buf_mtype = $buffered_F{$collapse_key}->[$mtype_column] if defined $mtype_column;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	156 $mtype_rank{$buf_mtype} = 0 if defined $buf_mtype and not exists $mtype_rank{$buf_mtype};
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	157 # see if this transcript is "earlier" than the other, based on ID #
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	158 if($ftype_rank{$ftype} > $ftype_rank{$buf_ftype} or
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	159 (defined $mtype and $mtype_rank{$mtype} > $mtype_rank{$buf_mtype}) or
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	160 $preferred_id or
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	161 ($id_rank =~ /^\d+$/ and $buffered_id_rank{$collapse_key} =~ /^\d+$/ and $id_rank < $buffered_id_rank{$collapse_key})
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	162 or $F[$transcript_column] lt $buffered_F{$collapse_key}->[$transcript_column]){ # alphabetical as backup
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	163 # make this the first one reported (and use its HGVS syntax)
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	164 $buffered_F{$collapse_key}->[$transcript_length_column] = $F[$transcript_length_column]."; ".$buffered_F{$collapse_key}->[$transcript_length_column];
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	165 $buffered_F{$collapse_key}->[$transcript_column] = $F[$transcript_column]."; ".$buffered_F{$collapse_key}->[$transcript_column];
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	166 $buffered_F{$collapse_key}->[$cdna_hgvs_column] = $F[$cdna_hgvs_column];
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	167 $buffered_F{$collapse_key}->[$aa_hgvs_column] = $F[$aa_hgvs_column];
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	168 $buffered_id_rank{$collapse_key} = $id_rank;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	169 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	170 else{
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	171 # just append it to the list of IDs
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	172 $buffered_F{$collapse_key}->[$transcript_length_column] .= "; $F[$transcript_length_column]";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	173 $buffered_F{$collapse_key}->[$transcript_column] .= "; $F[$transcript_column]";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	174 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	175 if($succinct and defined $splicing_score_column and $F[$splicing_score_column] ne "NA" and $F[$splicing_score_column] > $buffered_F{$collapse_key}->[$splicing_score_column]){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	176 $buffered_F{$collapse_key}->[$splicing_score_column] = $F[$splicing_score_column];
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	177 $buffered_F{$collapse_key}->[$splicing_effect_column] = $F[$splicing_effect_column] ." (transcript model ".$F[$transcript_column].")";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	178 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	179 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	180 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	181 # Different variant from the last line, dump any buffered data
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	182 else{
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	183 for my $collapse_key (keys %buffered_F){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	184 if(defined $sources_column){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	185 my %seen;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	186 $buffered_F{$collapse_key}->[$sources_column] = join("; ", grep {not $seen{$_}++} split(/; /, $buffered_F{$collapse_key}->[$sources_column]));
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	187 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	188 print OUT join("\t", @{$buffered_F{$collapse_key}}), "\n";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	189 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	190 undef %buffered_F;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	191 $last_chr = $chr;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	192 $last_pos = $pos;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	193 $last_alt = $alt;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	194 $buffered_F{$collapse_key} = \@F;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	195 $buffered_id_rank{$collapse_key} = $id_rank;
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	196 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	197 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	198 for my $collapse_key (keys %buffered_F){
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	199 print OUT join("\t", @{$buffered_F{$collapse_key}}), "\n";
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	200 }
7cdd13ff182a initial commit Yusuf Ali <ali@yusuf.email> parents: diff changeset	201 close(IN);

0

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

1 #!/usr/bin/env perl

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

2

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

3 use strict;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

4 use warnings;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

5

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

6 # reports the variant in transcripts separately only if the AA change is different, or distance from splicing site is different

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

7 @ARGV == 2 or @ARGV == 3 or die "Usage: $0 <hgvs input.txt> <output.txt> [ignore splice distance diff]\n";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

8

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

9 my %ftype_rank = ( protein_coding => 100,

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

10 processed_transcript => 90,

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

11 antisense => 80,

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

12 retained_intron => 70,

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

13 lincRNA => 60,

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

14 nonsense_mediated_decay => 50,

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

15 misc_enrichment_kit_target => 0);

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

16

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

17 my %mtype_rank = ( nonsense => 100,

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

18 frameshift => 99,

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

19 nonstop => 90,

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

20 missense => 80,

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

21 silent => 50,

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

22 "non-coding" => 40);

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

23 open(IN, $ARGV[0])

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

24 or die "Cannot open $ARGV[0] for reading: $!\n";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

25 open(OUT, ">$ARGV[1]")

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

26 or die "Cannot open $ARGV[1] for writing: $!\n";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

27 my $succinct = (@ARGV == 3);

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

28 my @lines;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

29 my $last_chr = "";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

30 my $last_pos = "";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

31 my $last_alt = "";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

32 my %buffered_F;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

33 my %buffered_id_rank;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

34 my $header = <IN>;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

35 print OUT $header;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

36

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

37 my ($chr_column, $pos_column, $alt_column, $cdna_hgvs_column, $aa_hgvs_column, $phase_column, $transcript_column, $transcript_length_column, $exon_dist_column, $ftype_column, $mtype_column, $splicing_score_column, $splicing_effect_column, $sources_column);

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

38 chomp $header;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

39 my @headers = split /\t/, $header;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

40 for(my $i = 0; $i <= $#headers; $i++){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

41 if($headers[$i] eq "Chr"){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

42 $chr_column = $i;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

43 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

44 elsif($headers[$i] eq "Feature type"){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

45 $ftype_column = $i;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

46 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

47 elsif($headers[$i] eq "Variant type"){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

48 $mtype_column = $i;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

49 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

50 elsif($headers[$i] eq "DNA From" or $headers[$i] eq "DNA Pos"){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

51 $pos_column = $i;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

52 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

53 elsif($headers[$i] eq "Obs base"){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

54 $alt_column = $i;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

55 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

56 elsif($headers[$i] eq "Transcript HGVS"){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

57 $cdna_hgvs_column = $i;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

58 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

59 elsif($headers[$i] eq "Protein HGVS"){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

60 $aa_hgvs_column = $i;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

61 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

62 elsif($headers[$i] eq "Phase"){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

63 $phase_column = $i;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

64 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

65 elsif($headers[$i] eq "Selected transcript"){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

66 $transcript_column = $i;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

67 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

68 elsif($headers[$i] eq "Transcript length"){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

69 $transcript_length_column = $i;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

70 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

71 elsif($headers[$i] eq "Closest exon junction (AA coding variants)"){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

72 $exon_dist_column = $i;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

73 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

74 elsif($headers[$i] eq "Splicing alteration potential"){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

75 $splicing_score_column = $i;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

76 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

77 elsif($headers[$i] eq "Splicing alteration details"){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

78 $splicing_effect_column = $i;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

79 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

80 elsif($headers[$i] eq "Sources"){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

81 $sources_column = $i;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

82 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

83 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

84 if(not defined $chr_column){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

85 die "Could not find Chr header in $ARGV[0], aborting.\n";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

86 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

87 if(not defined $pos_column){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

88 die "Could not find 'DNA From' header in $ARGV[0], aborting.\n";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

89 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

90 if(not defined $alt_column){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

91 die "Could not find 'Obs base' header in $ARGV[0], aborting.\n";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

92 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

93 if(not defined $cdna_hgvs_column){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

94 die "Could not find 'Transcript HGVS' header in $ARGV[0], aborting.\n";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

95 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

96 if(not defined $aa_hgvs_column){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

97 die "Could not find 'Protein HGVS' header in $ARGV[0], aborting.\n";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

98 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

99 if(not defined $phase_column){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

100 die "Could not find Phase header in $ARGV[0], aborting.\n";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

101 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

102 if(not defined $transcript_column){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

103 die "Could not find 'Selected transcript' header in $ARGV[0], aborting.\n";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

104 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

105 if(not defined $transcript_length_column){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

106 die "Could not find 'Transcript length' header in $ARGV[0], aborting.\n";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

107 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

108 #if(not defined $mtype_column){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

109 # die "Could not find 'Variant type' header in $ARGV[0], aborting.\n";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

110 #}

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

111 if(not defined $ftype_column){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

112 die "Could not find 'Feature type' header in $ARGV[0], aborting.\n";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

113 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

114 if(not defined $exon_dist_column){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

115 die "Could not find 'Closest exon junction (AA coding variants)' header in $ARGV[0], aborting.\n";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

116 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

117

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

118 while(<IN>){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

119 chomp;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

120 my @F = split /\t/, $_, -1;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

121 my $chr = $F[$chr_column];

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

122 my $pos = $F[$pos_column];

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

123 my $alt = $F[$alt_column];

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

124 my $cdna_hgvs = $F[$cdna_hgvs_column];

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

125 my $hgvs = $F[$aa_hgvs_column];

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

126 my $ftype = $F[$ftype_column];

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

127 my $mtype;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

128 $mtype = $F[$mtype_column] if defined $mtype_column;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

129 $hgvs =~ s/\d+//g; # look only at the non-position parts of the AA syntax

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

130 my $exon_edge_distance = $F[$exon_dist_column];

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

131 my $phase = $F[$phase_column] || "";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

132 # in the case of large indels (i.e. CNVs), their positions may not be the same, but effectively they should be reported as such

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

133 if($phase =~ /CNV-\S+?:(\S+)/){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

134 $pos = $1;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

135 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

136 my $preferred_id = $succinct ? ($F[$transcript_column] =~ /^$succinct/o) : 0;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

137 my $id_rank = $F[$transcript_column];

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

138 $id_rank =~ s/^.*?0*(\d+)(\.\d+)?$/$1/; # look at only trailing non-padded number (and no .version suffix)

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

139

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

140 my $collapse_key = $succinct ? "$chr:$pos:$alt" : "$chr:$pos:$hgvs:$exon_edge_distance:$phase";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

141 # Same variant

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

142 if($chr eq $last_chr and $pos eq $last_pos and $alt eq $last_alt){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

143 # same AA effect

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

144 if(not exists $buffered_F{$collapse_key}){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

145 $buffered_F{$collapse_key} = \@F;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

146 $buffered_id_rank{$collapse_key} = $id_rank;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

147 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

148 else{

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

149 $buffered_F{$collapse_key}->[$sources_column] .= "; $F[$sources_column]" if defined $sources_column;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

150 $ftype_rank{$ftype} = 0 if not defined $ftype_rank{$ftype};

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

151 $mtype_rank{$mtype} = 0 if defined $mtype and not exists $mtype_rank{$mtype};

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

152 my $buf_ftype = $buffered_F{$collapse_key}->[$ftype_column];

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

153 $ftype_rank{$buf_ftype} = 0 if not defined $ftype_rank{$buf_ftype};

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

154 my $buf_mtype;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

155 $buf_mtype = $buffered_F{$collapse_key}->[$mtype_column] if defined $mtype_column;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

156 $mtype_rank{$buf_mtype} = 0 if defined $buf_mtype and not exists $mtype_rank{$buf_mtype};

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

157 # see if this transcript is "earlier" than the other, based on ID #

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

158 if($ftype_rank{$ftype} > $ftype_rank{$buf_ftype} or

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

159 (defined $mtype and $mtype_rank{$mtype} > $mtype_rank{$buf_mtype}) or

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

160 $preferred_id or

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

161 ($id_rank =~ /^\d+$/ and $buffered_id_rank{$collapse_key} =~ /^\d+$/ and $id_rank < $buffered_id_rank{$collapse_key})

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

162 or $F[$transcript_column] lt $buffered_F{$collapse_key}->[$transcript_column]){ # alphabetical as backup

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

163 # make this the first one reported (and use its HGVS syntax)

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

164 $buffered_F{$collapse_key}->[$transcript_length_column] = $F[$transcript_length_column]."; ".$buffered_F{$collapse_key}->[$transcript_length_column];

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

165 $buffered_F{$collapse_key}->[$transcript_column] = $F[$transcript_column]."; ".$buffered_F{$collapse_key}->[$transcript_column];

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

166 $buffered_F{$collapse_key}->[$cdna_hgvs_column] = $F[$cdna_hgvs_column];

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

167 $buffered_F{$collapse_key}->[$aa_hgvs_column] = $F[$aa_hgvs_column];

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

168 $buffered_id_rank{$collapse_key} = $id_rank;

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

169 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

170 else{

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

171 # just append it to the list of IDs

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

172 $buffered_F{$collapse_key}->[$transcript_length_column] .= "; $F[$transcript_length_column]";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

173 $buffered_F{$collapse_key}->[$transcript_column] .= "; $F[$transcript_column]";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

174 }

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

175 if($succinct and defined $splicing_score_column and $F[$splicing_score_column] ne "NA" and $F[$splicing_score_column] > $buffered_F{$collapse_key}->[$splicing_score_column]){

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

176 $buffered_F{$collapse_key}->[$splicing_score_column] = $F[$splicing_score_column];

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>

parents:

diff changeset

177 $buffered_F{$collapse_key}->[$splicing_effect_column] = $F[$splicing_effect_column] ." (transcript model ".$F[$transcript_column].")";

7cdd13ff182a initial commit

Yusuf Ali <ali@yusuf.email>