mirplant2: miRDeep_plant.pl annotate

annotate miRDeep_plant.pl @ 44:0c4e11018934 draft

Uploaded

author	big-tiandm
date	Thu, 30 Oct 2014 21:29:19 -0400
parents	dc5a29826c7d
children	ca05d68aca13

rev	line source
12 dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1 #!/usr/bin/perl
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	2
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	3 use warnings;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	4 use strict;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	5 use Getopt::Std;
44 0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	6 use RNA;
12 dc5a29826c7d Uploaded big-tiandm parents: diff changeset	7
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	8
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	9 ################################# MIRDEEP #################################################
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	10
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	11 ################################## USAGE ##################################################
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	12
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	13
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	14 my $usage=
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	15 "$0 file_signature file_structure temp_out_directory
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	16
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	17 This is the core algorithm of miRDeep. It takes as input a file in blastparsed format with
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	18 information on the positions of reads aligned to potential precursor sequences (signature).
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	19 It also takes as input an RNAfold output file, giving information on the sequence, structure
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	20 and mimimum free energy of the potential precursor sequences.
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	21
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	22 Extra arguments can be given. -s specifies a fastafile containing the known mature miRNA
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	23 sequences that should be considered for conservation purposes. -t prints out the potential
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	24 precursor sequences that do _not_ exceed the cut-off (default prints out the sequences that
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	25 exceeds the cut-off). -u gives limited output, that is only the ids of the potential precursors
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	26 that exceed the cut-off. -v varies the cut-off. -x is a sensitive option for Sanger sequences
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	27 obtained through conventional cloning. -z consider the number of base pairings in the lower
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	28 stems (this option is not well tested).
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	29
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	30 -h print this usage
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	31 -s fasta file with known miRNAs
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	32 #-o temp directory ,maked befor running the program.
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	33 -t print filtered
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	34 -u limited output (only ids)
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	35 -v cut-off (default 1)
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	36 -x sensitive option for Sanger sequences
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	37 -y use Randfold
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	38 -z consider Drosha processing
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	39 ";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	40
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	41
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	42
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	43
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	44
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	45 ############################################################################################
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	46
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	47 ################################### INPUT ##################################################
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	48
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	49
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	50 #signature file in blast_parsed format
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	51 my $file_blast_parsed=shift or die $usage;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	52
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	53 #structure file outputted from RNAfold
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	54 my $file_struct=shift or die $usage;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	55
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	56 my $tmpdir=shift or die $usage;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	57 #options
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	58 my %options=();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	59 getopts("hs:tuv:xyz",\%options);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	60
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	61
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	62
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	63
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	64
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	65
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	66 #############################################################################################
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	67
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	68 ############################# GLOBAL VARIABLES ##############################################
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	69
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	70
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	71 #parameters
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	72 my $nucleus_lng=11;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	73
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	74 my $score_star=3.9;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	75 my $score_star_not=-1.3;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	76 my $score_nucleus=7.63;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	77 my $score_nucleus_not=-1.17;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	78 my $score_randfold=1.37;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	79 my $score_randfold_not=-3.624;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	80 my $score_intercept=0.3;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	81 my @scores_stem=(-3.1,-2.3,-2.2,-1.6,-1.5,0.1,0.6,0.8,0.9,0.9,0);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	82 my $score_min=1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	83 if($options{v}){$score_min=$options{v};}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	84 if($options{x}){$score_min=-5;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	85
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	86 my $e=2.718281828;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	87
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	88 #hashes
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	89 my %hash_desc;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	90 my %hash_seq;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	91 my %hash_struct;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	92 my %hash_mfe;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	93 my %hash_nuclei;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	94 my %hash_mirs;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	95 my %hash_query;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	96 my %hash_comp;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	97 my %hash_bp;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	98
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	99 #other variables
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	100 my $subject_old;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	101 my $message_filter;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	102 my $message_score;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	103 my $lines;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	104 my $out_of_bound;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	105
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	106
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	107
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	108 ##############################################################################################
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	109
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	110 ################################ MAIN ######################################################
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	111
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	112
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	113 #print help if that option is used
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	114 if($options{h}){die $usage;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	115 unless ($tmpdir=~/\/$/) {$tmpdir .="/";}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	116 if(!(-s $tmpdir)){mkdir $tmpdir;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	117 $tmpdir .="TMP_DIR/";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	118 mkdir $tmpdir;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	119
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	120 #parse structure file outputted from RNAfold
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	121 parse_file_struct($file_struct);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	122
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	123 #if conservation is scored, the fasta file of known miRNA sequences is parsed
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	124 if($options{s}){create_hash_nuclei($options{s})};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	125
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	126 #parse signature file in blast_parsed format and resolve each potential precursor
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	127 parse_file_blast_parsed($file_blast_parsed);
44 0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	128 #`rm -rf $tmpdir`;
12 dc5a29826c7d Uploaded big-tiandm parents: diff changeset	129 exit;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	130
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	131
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	132
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	133
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	134 ##############################################################################################
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	135
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	136 ############################## SUBROUTINES ###################################################
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	137
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	138
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	139
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	140 sub parse_file_blast_parsed{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	141
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	142 # read through the signature blastparsed file, fills up a hash with information on queries
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	143 # (deep sequences) mapping to the current subject (potential precursor) and resolve each
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	144 # potential precursor in turn
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	145
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	146 my $file_blast_parsed=shift;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	147
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	148 open (FILE_BLAST_PARSED, "<$file_blast_parsed") or die "can not open $file_blast_parsed\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	149 while (my $line=<FILE_BLAST_PARSED>){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	150 if($line=~/^(\S+)\s+(\S+)\s+(\d+)\.+(\d+)\s+(\S+)\s+(\S+)\s+(\d+)\.+(\d+)\s+(\S+)\s+(\S+)\s+(\S+)\s+(.+)$/){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	151 my $query=$1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	152 my $query_lng=$2;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	153 my $query_beg=$3;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	154 my $query_end=$4;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	155 my $subject=$5;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	156 my $subject_lng=$6;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	157 my $subject_beg=$7;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	158 my $subject_end=$8;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	159 my $e_value=$9;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	160 my $pid=$10;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	161 my $bitscore=$11;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	162 my $other=$12;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	163
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	164 #if the new line concerns a new subject (potential precursor) then the old subject must be resolved
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	165 if($subject_old and $subject_old ne $subject){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	166 resolve_potential_precursor();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	167 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	168
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	169 #resolve the strand
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	170 my $strand=find_strand($other);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	171
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	172 #resolve the number of reads that the deep sequence represents
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	173 my $freq=find_freq($query);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	174
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	175 #read information of the query (deep sequence) into hash
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	176 $hash_query{$query}{"subject_beg"}=$subject_beg;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	177 $hash_query{$query}{"subject_end"}=$subject_end;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	178 $hash_query{$query}{"strand"}=$strand;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	179 $hash_query{$query}{"freq"}=$freq;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	180
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	181 #save the signature information
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	182 $lines.=$line;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	183
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	184 $subject_old=$subject;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	185 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	186 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	187 resolve_potential_precursor();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	188 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	189
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	190 sub resolve_potential_precursor{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	191
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	192 # dissects the potential precursor in parts by filling hashes, and tests if it passes the
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	193 # initial filter and the scoring filter
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	194
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	195 # binary variable whether the potential precursor is still viable
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	196 my $ret=1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	197 #print STDERR ">$subject_old\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	198
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	199 fill_structure();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	200 #print STDERR "\%hash_bp",scalar keys %hash_bp,"\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	201 fill_pri();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	202 #print STDERR "\%hash_comp",scalar keys %hash_comp,"\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	203
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	204 fill_mature();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	205 #print STDERR "\%hash_comp",scalar keys %hash_comp,"\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	206
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	207 fill_star();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	208 #print STDERR "\%hash_comp",scalar keys %hash_comp,"\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	209
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	210 fill_loop();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	211 #print STDERR "\%hash_comp",scalar keys %hash_comp,"\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	212
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	213 fill_lower_flanks();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	214 #print STDERR "\%hash_comp",scalar keys %hash_comp,"\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	215
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	216 # do_test_assemble();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	217
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	218 # this is the actual classification
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	219 unless(pass_filtering_initial() and pass_threshold_score()){$ret=0;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	220
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	221 print_results($ret);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	222
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	223 reset_variables();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	224
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	225 return;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	226
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	227 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	228
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	229
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	230
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	231 sub print_results{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	232
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	233 my $ret=shift;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	234
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	235 # print out if the precursor is accepted and accepted precursors should be printed out
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	236 # or if the potential precursor is discarded and discarded potential precursors should
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	237 # be printed out
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	238
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	239 if((!$options{t} and $ret) or ($options{t} and !$ret)){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	240 #full output
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	241 unless($options{u}){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	242 if($message_filter){print $message_filter;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	243 if($message_score){print $message_score;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	244 print_hash_comp();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	245 print $lines,"\n\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	246 return;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	247 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	248 #limited output (only ids)
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	249 my $id=$hash_comp{"pri_id"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	250 print "$id\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	251 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	252 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	253
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	254
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	255
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	256
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	257
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	258
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	259
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	260 sub pass_threshold_score{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	261
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	262 # this is the scoring
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	263
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	264 #minimum free energy of the potential precursor
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	265 # my $score_mfe=score_mfe($hash_comp{"pri_mfe"});
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	266 my $score_mfe=score_mfe($hash_comp{"pri_mfe"},$hash_comp{"pri_end"});
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	267
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	268 #count of reads that map in accordance with Dicer processing
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	269 my $score_freq=score_freq($hash_comp{"freq"});
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	270 #print STDERR "score_mfe: $score_mfe\nscore_freq: $score_freq\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	271
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	272 #basic score
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	273 my $score=$score_mfe+$score_freq;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	274
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	275 #scoring of conserved nucleus/seed (optional)
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	276 if($options{s}){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	277
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	278 #if the nucleus is conserved
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	279 if(test_nucleus_conservation()){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	280
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	281 #nucleus from position 2-8
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	282 my $nucleus=substr($hash_comp{"mature_seq"},1,$nucleus_lng);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	283
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	284 #resolve DNA/RNA ambiguities
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	285 $nucleus=~tr/[T]/[U]/;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	286
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	287 #print score contribution
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	288 score_s("score_nucleus\t$score_nucleus");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	289
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	290 #print the ids of known miRNAs with same nucleus
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	291 score_s("$hash_mirs{$nucleus}");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	292 #print STDERR "score_nucleus\t$score_nucleus\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	293
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	294 #add to score
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	295 $score+=$score_nucleus;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	296
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	297 #if the nucleus is not conserved
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	298 }else{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	299 #print (negative) score contribution
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	300 score_s("score_nucleus\t$score_nucleus_not");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	301
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	302 #add (negative) score contribution
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	303 $score+=$score_nucleus_not;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	304 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	305 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	306
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	307 #if the majority of potential star reads fall as expected from Dicer processing
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	308 if($hash_comp{"star_read"}){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	309 score_s("score_star\t$score_star");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	310 #print STDERR "score_star\t$score_star\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	311 $score+=$score_star;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	312 }else{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	313 score_s("score_star\t$score_star_not");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	314 #print STDERR "score_star_not\t$score_star_not\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	315 $score+=$score_star_not;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	316 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	317
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	318 #score lower stems for potential for Drosha recognition (highly optional)
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	319 if($options{z}){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	320 my $stem_bp=$hash_comp{"stem_bp"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	321 my $score_stem=$scores_stem[$stem_bp];
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	322 $score+=$score_stem;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	323 score_s("score_stem\t$score_stem");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	324 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	325
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	326 #print STDERR "score_intercept\t$score_intercept\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	327
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	328 $score+=$score_intercept;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	329
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	330 #score for randfold (optional)
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	331 if($options{y}){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	332
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	333 # only calculate randfold value if it can make the difference between the potential precursor
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	334 # being accepted or discarded
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	335 if($score+$score_randfold>=$score_min and $score+$score_randfold_not<=$score_min){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	336
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	337 #randfold value<0.05
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	338 if(test_randfold()){$score+=$score_randfold;score_s("score_randfold\t$score_randfold");}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	339
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	340 #randfold value>0.05
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	341 else{$score+=$score_randfold_not;score_s("score_randfold\t$score_randfold_not");}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	342 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	343 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	344
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	345 #round off values to one decimal
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	346 my $round_mfe=round($score_mfe*10)/10;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	347 my $round_freq=round($score_freq*10)/10;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	348 my $round=round($score*10)/10;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	349
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	350 #print scores
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	351 score_s("score_mfe\t$round_mfe\nscore_freq\t$round_freq\nscore\t$round");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	352
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	353 #return 1 if the potential precursor is accepted, return 0 if discarded
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	354 unless($score>=$score_min){return 0;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	355 return 1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	356 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	357
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	358 sub test_randfold{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	359
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	360 #print sequence to temporary file, test randfold value, return 1 or 0
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	361
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	362 # print_file("pri_seq.fa",">pri_seq\n".$hash_comp{"pri_seq"});
44 0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	363 #my $tmpfile=$tmpdir.$hash_comp{"pri_id"};
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	364 #open(FILE, ">$tmpfile");
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	365 #print FILE ">pri_seq\n",$hash_comp{"pri_seq"};
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	366 #close FILE;
12 dc5a29826c7d Uploaded big-tiandm parents: diff changeset	367
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	368 # my $p_value=`randfold -s $tmpfile 999 \| cut -f 3`;
44 0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	369 #my $p1=`randfold -s $tmpfile 999 \| cut -f 3`;
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	370 #my $p2=`randfold -s $tmpfile 999 \| cut -f 3`;
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	371 my $p1=&randfold_pvalue($hash_comp{"pri_seq"},999);
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	372 my $p2=&randfold_pvalue($hash_comp{"pri_seq"},999);
12 dc5a29826c7d Uploaded big-tiandm parents: diff changeset	373 my $p_value=($p1+$p2)/2;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	374 wait;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	375 # system "rm $tmpfile";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	376
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	377 if($p_value<=0.05){return 1;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	378
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	379 return 0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	380 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	381
44 0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	382 sub randfold_pvalue{
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	383 my $cpt_sup = 0;
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	384 my $cpt_inf = 0;
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	385 my $cpt_ega = 1;
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	386
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	387 my ($seq,$number_of_randomizations)=@_;
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	388 my $str =$seq;
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	389 my $mfe = RNA::fold($seq,$str);
12 dc5a29826c7d Uploaded big-tiandm parents: diff changeset	390
44 0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	391 for (my $i=0;$i<$number_of_randomizations;$i++) {
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	392 $seq = shuffle_sequence_dinucleotide($seq);
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	393 $str = $seq;
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	394
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	395 my $rand_mfe = RNA::fold($str,$str);
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	396
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	397 if ($rand_mfe < $mfe) {
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	398 $cpt_inf++;
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	399 }
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	400 if ($rand_mfe == $mfe) {
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	401 $cpt_ega++;
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	402 }
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	403 if ($rand_mfe > $mfe) {
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	404 $cpt_sup++;
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	405 }
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	406 }
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	407
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	408 my $proba = ($cpt_ega + $cpt_inf) / ($number_of_randomizations + 1);
12 dc5a29826c7d Uploaded big-tiandm parents: diff changeset	409
44 0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	410 #print "$name\t$mfe\t$proba\n";
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	411 return $proba;
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	412 }
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	413
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	414 sub shuffle_sequence_dinucleotide {
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	415
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	416 my ($str) = @_;
12 dc5a29826c7d Uploaded big-tiandm parents: diff changeset	417
44 0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	418 # upper case and convert to ATGC
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	419 $str = uc($str);
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	420 $str =~ s/U/T/g;
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	421
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	422 my @nuc = ('A','T','G','C');
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	423 my $count_swap = 0;
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	424 # set maximum number of permutations
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	425 my $stop = length($str) * 10;
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	426
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	427 while($count_swap < $stop) {
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	428
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	429 my @pos;
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	430
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	431 # look start and end letters
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	432 my $firstnuc = $nuc[int(rand 4)];
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	433 my $thirdnuc = $nuc[int(rand 4)];
12 dc5a29826c7d Uploaded big-tiandm parents: diff changeset	434
44 0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	435 # get positions for matching nucleotides
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	436 for (my $i=0;$i<(length($str)-2);$i++) {
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	437 if ((substr($str,$i,1) eq $firstnuc) && (substr($str,$i+2,1) eq $thirdnuc)) {
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	438 push (@pos,($i+1));
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	439 $i++;
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	440 }
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	441 }
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	442
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	443 # swap at random trinucleotides
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	444 my $max = scalar(@pos);
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	445 for (my $i=0;$i<$max;$i++) {
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	446 my $swap = int(rand($max));
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	447 if ((abs($pos[$swap] - $pos[$i]) >= 3) && (substr($str,$pos[$i],1) ne substr($str,$pos[$swap],1))) {
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	448 $count_swap++;
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	449 my $w1 = substr($str,$pos[$i],1);
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	450 my $w2 = substr($str,$pos[$swap],1);
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	451 substr($str,$pos[$i],1,$w2);
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	452 substr($str,$pos[$swap],1,$w1);
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	453 }
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	454 }
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	455 }
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	456 return($str);
0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	457 }
12 dc5a29826c7d Uploaded big-tiandm parents: diff changeset	458
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	459 sub test_nucleus_conservation{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	460
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	461 #test if nucleus is identical to nucleus from known miRNA, return 1 or 0
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	462
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	463 my $nucleus=substr($hash_comp{"mature_seq"},1,$nucleus_lng);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	464 $nucleus=~tr/[T]/[U]/;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	465 if($hash_nuclei{$nucleus}){return 1;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	466
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	467 return 0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	468 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	469
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	470
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	471
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	472 sub pass_filtering_initial{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	473
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	474 #test if the structure forms a plausible hairpin
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	475 unless(pass_filtering_structure()){filter_p("structure problem"); return 0;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	476
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	477 #test if >90% of reads map to the hairpin in consistence with Dicer processing
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	478 unless(pass_filtering_signature()){filter_p("signature problem");return 0;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	479
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	480 return 1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	481
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	482 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	483
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	484
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	485 sub pass_filtering_signature{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	486
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	487 #number of reads that map in consistence with Dicer processing
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	488 my $consistent=0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	489
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	490 #number of reads that map inconsistent with Dicer processing
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	491 my $inconsistent=0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	492
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	493 # number of potential star reads map in good consistence with Drosha/Dicer processing
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	494 # (3' overhangs relative to mature product)
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	495 my $star_perfect=0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	496
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	497 # number of potential star reads that do not map in good consistence with 3' overhang
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	498 my $star_fuzzy=0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	499
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	500
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	501 #sort queries (deep sequences) by their position on the hairpin
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	502 my @queries=sort {$hash_query{$a}{"subject_beg"} <=> $hash_query{$b}{"subject_beg"}} keys %hash_query;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	503
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	504 foreach my $query(@queries){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	505
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	506 #number of reads that the deep sequence represents
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	507 unless(defined($hash_query{$query}{"freq"})){next;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	508 my $query_freq=$hash_query{$query}{"freq"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	509
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	510 #test which Dicer product (if any) the deep sequence corresponds to
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	511 my $product=test_query($query);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	512
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	513 #if the deep sequence corresponds to a Dicer product, add to the 'consistent' variable
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	514 if($product){$consistent+=$query_freq;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	515
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	516 #if the deep sequence do not correspond to a Dicer product, add to the 'inconsistent' variable
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	517 else{$inconsistent+=$query_freq;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	518
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	519 #test a potential star sequence has good 3' overhang
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	520 if($product eq "star"){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	521 if(test_star($query)){$star_perfect+=$query_freq;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	522 else{$star_fuzzy+=$query_freq;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	523 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	524 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	525
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	526 # if the majority of potential star sequences map in good accordance with 3' overhang
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	527 # score for the presence of star evidence
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	528 if($star_perfect>$star_fuzzy){$hash_comp{"star_read"}=1;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	529
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	530 #total number of reads mapping to the hairpin
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	531 my $freq=$consistent+$inconsistent;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	532 $hash_comp{"freq"}=$freq;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	533 unless($freq>0){filter_s("read frequency too low"); return 0;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	534
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	535 #unless >90% of the reads map in consistence with Dicer processing, the hairpin is discarded
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	536 my $inconsistent_fraction=$inconsistent/($inconsistent+$consistent);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	537 unless($inconsistent_fraction<=0.1){filter_p("inconsistent\t$inconsistent\nconsistent\t$consistent"); return 0;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	538
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	539 #the hairpin is retained
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	540 return 1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	541 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	542
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	543 sub test_star{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	544
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	545 #test if a deep sequence maps in good consistence with 3' overhang
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	546
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	547 my $query=shift;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	548
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	549 #5' begin and 3' end positions
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	550 my $beg=$hash_query{$query}{"subject_beg"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	551 my $end=$hash_query{$query}{"subject_end"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	552
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	553 #the difference between observed and expected begin positions must be 0 or 1
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	554 my $offset=$beg-$hash_comp{"star_beg"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	555 if($offset==0 or $offset==1 or $offset==-1){return 1;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	556
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	557 return 0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	558 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	559
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	560
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	561
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	562 sub test_query{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	563
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	564 #test if deep sequence maps in consistence with Dicer processing
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	565
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	566 my $query=shift;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	567
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	568 #begin, end, strand and read count
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	569 my $beg=$hash_query{$query}{"subject_beg"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	570 my $end=$hash_query{$query}{"subject_end"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	571 my $strand=$hash_query{$query}{"strand"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	572 my $freq=$hash_query{$query}{"freq"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	573
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	574 #should not be on the minus strand (although this has in fact anecdotally been observed for known miRNAs)
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	575 if($strand eq '-'){return 0;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	576
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	577 #the deep sequence is allowed to stretch 2 nt beyond the expected 5' end
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	578 my $fuzz_beg=2;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	579 #the deep sequence is allowed to stretch 5 nt beyond the expected 3' end
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	580 my $fuzz_end=2;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	581
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	582 #if in accordance with Dicer processing, return the type of Dicer product
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	583 if(contained($beg,$end,$hash_comp{"mature_beg"}-$fuzz_beg,$hash_comp{"mature_end"}+$fuzz_end)){return "mature";}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	584 if(contained($beg,$end,$hash_comp{"star_beg"}-$fuzz_beg,$hash_comp{"star_end"}+$fuzz_end)){return "star";}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	585 if(contained($beg,$end,$hash_comp{"loop_beg"}-$fuzz_beg,$hash_comp{"loop_end"}+$fuzz_end)){return "loop";}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	586
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	587 #if not in accordance, return 0
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	588 return 0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	589 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	590
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	591
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	592 sub pass_filtering_structure{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	593
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	594 #The potential precursor must form a hairpin with miRNA precursor-like characteristics
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	595
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	596 #return value
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	597 my $ret=1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	598
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	599 #potential mature, star, loop and lower flank parts must be identifiable
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	600 unless(test_components()){return 0;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	601
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	602 #no bifurcations
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	603 unless(no_bifurcations_precursor()){$ret=0;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	604
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	605 #minimum 14 base pairings in duplex
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	606 unless(bp_duplex()>=15){$ret=0;filter_s("too few pairings in duplex");}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	607
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	608 #not more than 6 nt difference between mature and star length
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	609 unless(-6<diff_lng() and diff_lng()<6){$ret=0; filter_s("too big difference between mature and star length") }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	610
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	611 return $ret;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	612 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	613
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	614
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	615
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	616
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	617
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	618
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	619 sub test_components{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	620
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	621 #tests whether potential mature, star, loop and lower flank parts are identifiable
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	622
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	623 unless($hash_comp{"mature_struct"}){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	624 filter_s("no mature");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	625 # print STDERR "no mature\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	626 return 0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	627 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	628
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	629 unless($hash_comp{"star_struct"}){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	630 filter_s("no star");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	631 # print STDERR "no star\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	632 return 0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	633 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	634
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	635 unless($hash_comp{"loop_struct"}){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	636 filter_s("no loop");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	637 # print STDERR "no loop\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	638 return 0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	639 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	640
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	641 unless($hash_comp{"flank_first_struct"}){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	642 filter_s("no flanks");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	643 #print STDERR "no flanks_first_struct\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	644 return 0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	645 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	646
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	647 unless($hash_comp{"flank_second_struct"}){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	648 filter_s("no flanks");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	649 # print STDERR "no flanks_second_struct\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	650 return 0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	651 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	652 return 1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	653 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	654
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	655
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	656
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	657
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	658
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	659 sub no_bifurcations_precursor{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	660
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	661 #tests whether there are bifurcations in the hairpin
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	662
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	663 #assembles the potential precursor sequence and structure from the expected Dicer products
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	664 #this is the expected biological precursor, in contrast with 'pri_seq' that includes
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	665 #some genomic flanks on both sides
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	666
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	667 my $pre_struct;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	668 my $pre_seq;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	669 if($hash_comp{"mature_arm"} eq "first"){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	670 $pre_struct.=$hash_comp{"mature_struct"}.$hash_comp{"loop_struct"}.$hash_comp{"star_struct"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	671 $pre_seq.=$hash_comp{"mature_seq"}.$hash_comp{"loop_seq"}.$hash_comp{"star_seq"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	672 }else{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	673 $pre_struct.=$hash_comp{"star_struct"}.$hash_comp{"loop_struct"}.$hash_comp{"mature_struct"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	674 $pre_seq.=$hash_comp{"star_seq"}.$hash_comp{"loop_seq"}.$hash_comp{"mature_seq"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	675 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	676
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	677 #read into hash
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	678 $hash_comp{"pre_struct"}=$pre_struct;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	679 $hash_comp{"pre_seq"}=$pre_seq;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	680
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	681 #simple pattern matching checks for bifurcations
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	682 unless($pre_struct=~/^((\.\|$)+..(\.\|$)+)$/){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	683 filter_s("bifurcation in precursor");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	684 # print STDERR "bifurcation in precursor\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	685 return 0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	686 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	687
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	688 return 1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	689 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	690
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	691 sub bp_precursor{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	692
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	693 #total number of bps in the precursor
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	694
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	695 my $pre_struct=$hash_comp{"pre_struct"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	696
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	697 #simple pattern matching
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	698 my $pre_bps=0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	699 while($pre_struct=~/\(/g){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	700 $pre_bps++;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	701 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	702 return $pre_bps;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	703 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	704
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	705
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	706 sub bp_duplex{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	707
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	708 #total number of bps in the duplex
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	709
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	710 my $duplex_bps=0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	711 my $mature_struct=$hash_comp{"mature_struct"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	712
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	713 #simple pattern matching
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	714 while($mature_struct=~/($\|$)/g){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	715 $duplex_bps++;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	716 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	717 return $duplex_bps;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	718 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	719
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	720 sub diff_lng{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	721
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	722 #find difference between mature and star lengths
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	723
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	724 my $mature_lng=length $hash_comp{"mature_struct"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	725 my $star_lng=length $hash_comp{"star_struct"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	726 my $diff_lng=$mature_lng-$star_lng;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	727 return $diff_lng;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	728 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	729
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	730
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	731
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	732 sub do_test_assemble{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	733
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	734 # not currently used, tests if the 'pri_struct' as assembled from the parts (Dicer products, lower flanks)
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	735 # is identical to 'pri_struct' before disassembly into parts
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	736
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	737 my $assemble_struct;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	738
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	739 if($hash_comp{"flank_first_struct"} and $hash_comp{"mature_struct"} and $hash_comp{"loop_struct"} and $hash_comp{"star_struct"} and $hash_comp{"flank_second_struct"}){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	740 if($hash_comp{"mature_arm"} eq "first"){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	741 $assemble_struct.=$hash_comp{"flank_first_struct"}.$hash_comp{"mature_struct"}.$hash_comp{"loop_struct"}.$hash_comp{"star_struct"}.$hash_comp{"flank_second_struct"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	742 }else{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	743 $assemble_struct.=$hash_comp{"flank_first_struct"}.$hash_comp{"star_struct"}.$hash_comp{"loop_struct"}.$hash_comp{"mature_struct"}.$hash_comp{"flank_second_struct"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	744 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	745 unless($assemble_struct eq $hash_comp{"pri_struct"}){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	746 $hash_comp{"test_assemble"}=$assemble_struct;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	747 print_hash_comp();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	748 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	749 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	750 return;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	751 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	752
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	753
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	754
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	755 sub fill_structure{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	756
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	757 #reads the dot bracket structure into the 'bp' hash where each key and value are basepaired
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	758
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	759 my $struct=$hash_struct{$subject_old};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	760 my $lng=length $struct;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	761
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	762 #local stack for keeping track of basepairings
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	763 my @bps;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	764
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	765 for(my $pos=1;$pos<=$lng;$pos++){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	766 my $struct_pos=excise_struct($struct,$pos,$pos,"+");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	767
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	768 if($struct_pos eq "("){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	769 push(@bps,$pos);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	770 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	771
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	772 if($struct_pos eq ")"){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	773 my $pos_prev=pop(@bps);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	774 $hash_bp{$pos_prev}=$pos;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	775 $hash_bp{$pos}=$pos_prev;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	776 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	777 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	778 return;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	779 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	780
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	781
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	782
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	783 sub fill_star{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	784
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	785 #fills specifics on the expected star strand into 'comp' hash ('component' hash)
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	786
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	787 #if the mature sequence is not plausible, don't look for the star arm
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	788 my $mature_arm=$hash_comp{"mature_arm"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	789 unless($mature_arm){$hash_comp{"star_arm"}=0; return;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	790
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	791 #if the star sequence is not plausible, don't fill into the hash
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	792 my($star_beg,$star_end)=find_star();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	793 my $star_arm=arm_star($star_beg,$star_end);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	794 unless($star_arm){return;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	795
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	796 #excise expected star sequence and structure
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	797 my $star_seq=excise_seq($hash_comp{"pri_seq"},$star_beg,$star_end,"+");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	798 my $star_struct=excise_seq($hash_comp{"pri_struct"},$star_beg,$star_end,"+");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	799
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	800 #fill into hash
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	801 $hash_comp{"star_beg"}=$star_beg;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	802 $hash_comp{"star_end"}=$star_end;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	803 $hash_comp{"star_seq"}=$star_seq;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	804 $hash_comp{"star_struct"}=$star_struct;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	805 $hash_comp{"star_arm"}=$star_arm;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	806
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	807 return;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	808 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	809
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	810
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	811 sub find_star{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	812
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	813 #uses the 'bp' hash to find the expected star begin and end positions from the mature positions
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	814
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	815 #the -2 is for the overhang
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	816 my $mature_beg=$hash_comp{"mature_beg"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	817 my $mature_end=$hash_comp{"mature_end"}-2;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	818 my $mature_lng=$mature_end-$mature_beg+1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	819
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	820 #in some cases, the last nucleotide of the mature sequence does not form a base pair,
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	821 #and therefore does not basepair with the first nucleotide of the star sequence.
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	822 #In this case, the algorithm searches for the last nucleotide of the mature sequence
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	823 #to form a base pair. The offset is the number of nucleotides searched through.
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	824 my $offset_star_beg=0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	825 my $offset_beg=0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	826
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	827 #the offset should not be longer than the length of the mature sequence, then it
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	828 #means that the mature sequence does not form any base pairs
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	829 while(!$offset_star_beg and $offset_beg<$mature_lng){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	830 if($hash_bp{$mature_end-$offset_beg}){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	831 $offset_star_beg=$hash_bp{$mature_end-$offset_beg};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	832 }else{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	833 $offset_beg++;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	834 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	835 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	836 #when defining the beginning of the star sequence, compensate for the offset
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	837 my $star_beg=$offset_star_beg-$offset_beg;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	838
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	839 #same as above
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	840 my $offset_star_end=0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	841 my $offset_end=0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	842 while(!$offset_star_end and $offset_end<$mature_lng){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	843 if($hash_bp{$mature_beg+$offset_end}){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	844 $offset_star_end=$hash_bp{$mature_beg+$offset_end};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	845 }else{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	846 $offset_end++;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	847 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	848 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	849 #the +2 is for the overhang
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	850 my $star_end=$offset_star_end+$offset_end+2;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	851
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	852 return($star_beg,$star_end);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	853 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	854
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	855
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	856 sub fill_pri{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	857
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	858 #fills basic specifics on the precursor into the 'comp' hash
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	859
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	860 my $seq=$hash_seq{$subject_old};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	861 my $struct=$hash_struct{$subject_old};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	862 my $mfe=$hash_mfe{$subject_old};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	863 my $length=length $seq;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	864
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	865 $hash_comp{"pri_id"}=$subject_old;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	866 $hash_comp{"pri_seq"}=$seq;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	867 $hash_comp{"pri_struct"}=$struct;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	868 $hash_comp{"pri_mfe"}=$mfe;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	869 $hash_comp{"pri_beg"}=1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	870 $hash_comp{"pri_end"}=$length;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	871
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	872 return;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	873 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	874
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	875
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	876 sub fill_mature{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	877
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	878 #fills specifics on the mature sequence into the 'comp' hash
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	879
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	880 my $mature_query=find_mature_query();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	881 my($mature_beg,$mature_end)=find_positions_query($mature_query);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	882 my $mature_strand=find_strand_query($mature_query);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	883 my $mature_seq=excise_seq($hash_comp{"pri_seq"},$mature_beg,$mature_end,$mature_strand);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	884 my $mature_struct=excise_struct($hash_comp{"pri_struct"},$mature_beg,$mature_end,$mature_strand);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	885 my $mature_arm=arm_mature($mature_beg,$mature_end,$mature_strand);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	886
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	887 $hash_comp{"mature_query"}=$mature_query;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	888 $hash_comp{"mature_beg"}=$mature_beg;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	889 $hash_comp{"mature_end"}=$mature_end;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	890 $hash_comp{"mature_strand"}=$mature_strand;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	891 $hash_comp{"mature_struct"}=$mature_struct;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	892 $hash_comp{"mature_seq"}=$mature_seq;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	893 $hash_comp{"mature_arm"}=$mature_arm;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	894
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	895 return;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	896 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	897
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	898
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	899
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	900 sub fill_loop{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	901
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	902 #fills specifics on the loop sequence into the 'comp' hash
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	903
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	904 #unless both mature and star sequences are plausible, do not look for the loop
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	905 unless($hash_comp{"mature_arm"} and $hash_comp{"star_arm"}){return;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	906
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	907 my $loop_beg;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	908 my $loop_end;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	909
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	910 #defining the begin and end positions of the loop from the mature and star positions
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	911 #excision depends on whether the mature or star sequence is 5' of the loop ('first')
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	912 if($hash_comp{"mature_arm"} eq "first"){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	913 $loop_beg=$hash_comp{"mature_end"}+1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	914 }else{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	915 $loop_end=$hash_comp{"mature_beg"}-1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	916 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	917
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	918 if($hash_comp{"star_arm"} eq "first"){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	919 $loop_beg=$hash_comp{"star_end"}+1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	920 }else{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	921 $loop_end=$hash_comp{"star_beg"}-1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	922 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	923
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	924 #unless the positions are plausible, do not fill into hash
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	925 unless(test_loop($loop_beg,$loop_end)){return;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	926
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	927 my $loop_seq=excise_seq($hash_comp{"pri_seq"},$loop_beg,$loop_end,"+");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	928 my $loop_struct=excise_struct($hash_comp{"pri_struct"},$loop_beg,$loop_end,"+");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	929
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	930 $hash_comp{"loop_beg"}=$loop_beg;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	931 $hash_comp{"loop_end"}=$loop_end;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	932 $hash_comp{"loop_seq"}=$loop_seq;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	933 $hash_comp{"loop_struct"}=$loop_struct;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	934
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	935 return;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	936 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	937
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	938
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	939 sub fill_lower_flanks{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	940
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	941 #fills specifics on the lower flanks and unpaired strands into the 'comp' hash
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	942
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	943 #unless both mature and star sequences are plausible, do not look for the flanks
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	944 unless($hash_comp{"mature_arm"} and $hash_comp{"star_arm"}){return;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	945
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	946 my $flank_first_end;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	947 my $flank_second_beg;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	948
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	949 #defining the begin and end positions of the flanks from the mature and star positions
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	950 #excision depends on whether the mature or star sequence is 5' in the potenitial precursor ('first')
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	951 if($hash_comp{"mature_arm"} eq "first"){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	952 $flank_first_end=$hash_comp{"mature_beg"}-1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	953 }else{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	954 $flank_second_beg=$hash_comp{"mature_end"}+1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	955 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	956
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	957 if($hash_comp{"star_arm"} eq "first"){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	958 $flank_first_end=$hash_comp{"star_beg"}-1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	959 }else{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	960 $flank_second_beg=$hash_comp{"star_end"}+1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	961 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	962
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	963 #unless the positions are plausible, do not fill into hash
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	964 unless(test_flanks($flank_first_end,$flank_second_beg)){return;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	965
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	966 $hash_comp{"flank_first_end"}=$flank_first_end;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	967 $hash_comp{"flank_second_beg"}=$flank_second_beg;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	968 $hash_comp{"flank_first_seq"}=excise_seq($hash_comp{"pri_seq"},$hash_comp{"pri_beg"},$hash_comp{"flank_first_end"},"+");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	969 $hash_comp{"flank_second_seq"}=excise_seq($hash_comp{"pri_seq"},$hash_comp{"flank_second_beg"},$hash_comp{"pri_end"},"+");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	970 $hash_comp{"flank_first_struct"}=excise_struct($hash_comp{"pri_struct"},$hash_comp{"pri_beg"},$hash_comp{"flank_first_end"},"+");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	971 $hash_comp{"flank_second_struct"}=excise_struct($hash_comp{"pri_struct"},$hash_comp{"flank_second_beg"},$hash_comp{"pri_end"},"+");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	972
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	973 if($options{z}){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	974 fill_stems_drosha();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	975 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	976
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	977 return;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	978 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	979
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	980
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	981 sub fill_stems_drosha{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	982
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	983 #scores the number of base pairings formed by the first ten nt of the lower stems
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	984 #in general, the more stems, the higher the score contribution
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	985 #warning: this options has not been thoroughly tested
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	986
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	987 my $flank_first_struct=$hash_comp{"flank_first_struct"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	988 my $flank_second_struct=$hash_comp{"flank_second_struct"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	989
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	990 my $stem_first=substr($flank_first_struct,-10);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	991 my $stem_second=substr($flank_second_struct,0,10);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	992
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	993 my $stem_bp_first=0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	994 my $stem_bp_second=0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	995
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	996 #find base pairings by simple pattern matching
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	997 while($stem_first=~/\(/g){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	998 $stem_bp_first++;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	999 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1000
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1001 while($stem_second=~/\)/g){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1002 $stem_bp_second++;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1003 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1004
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1005 my $stem_bp=min2($stem_bp_first,$stem_bp_second);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1006
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1007 $hash_comp{"stem_first"}=$stem_first;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1008 $hash_comp{"stem_second"}=$stem_second;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1009 $hash_comp{"stem_bp_first"}=$stem_bp_first;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1010 $hash_comp{"stem_bp_second"}=$stem_bp_second;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1011 $hash_comp{"stem_bp"}=$stem_bp;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1012
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1013 return;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1014 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1015
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1016
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1017
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1018
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1019 sub arm_mature{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1020
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1021 #tests whether the mature sequence is in the 5' ('first') or 3' ('second') arm of the potential precursor
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1022
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1023 my ($beg,$end,$strand)=@_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1024
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1025 #mature and star sequences should alway be on plus strand
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1026 if($strand eq "-"){return 0;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1027
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1028 #there should be no bifurcations and minimum one base pairing
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1029 my $struct=excise_seq($hash_comp{"pri_struct"},$beg,$end,$strand);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1030 if(defined($struct) and $struct=~/^(\(\|\.)+$/ and $struct=~/\(/){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1031 return "first";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1032 }elsif(defined($struct) and $struct=~/^(\)\|\.)+$/ and $struct=~/\)/){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1033 return "second";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1034 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1035 return 0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1036 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1037
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1038
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1039 sub arm_star{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1040
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1041 #tests whether the star sequence is in the 5' ('first') or 3' ('second') arm of the potential precursor
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1042
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1043 my ($beg,$end)=@_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1044
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1045 #unless the begin and end positions are plausible, test negative
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1046 unless($beg>0 and $beg<=$hash_comp{"pri_end"} and $end>0 and $end<=$hash_comp{"pri_end"} and $beg<=$end){return 0;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1047
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1048 #no overlap between the mature and the star sequence
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1049 if($hash_comp{"mature_arm"} eq "first"){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1050 ($hash_comp{"mature_end"}<$beg) or return 0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1051 }elsif($hash_comp{"mature_arm"} eq "second"){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1052 ($end<$hash_comp{"mature_beg"}) or return 0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1053 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1054
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1055 #there should be no bifurcations and minimum one base pairing
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1056 my $struct=excise_seq($hash_comp{"pri_struct"},$beg,$end,"+");
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1057 if($struct=~/^(\(\|\.)+$/ and $struct=~/\(/){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1058 return "first";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1059 }elsif($struct=~/^(\)\|\.)+$/ and $struct=~/\)/){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1060 return "second";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1061 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1062 return 0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1063 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1064
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1065
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1066 sub test_loop{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1067
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1068 #tests the loop positions
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1069
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1070 my ($beg,$end)=@_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1071
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1072 #unless the begin and end positions are plausible, test negative
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1073 unless($beg>0 and $beg<=$hash_comp{"pri_end"} and $end>0 and $end<=$hash_comp{"pri_end"} and $beg<=$end){return 0;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1074
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1075 return 1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1076 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1077
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1078
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1079 sub test_flanks{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1080
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1081 #tests the positions of the lower flanks
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1082
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1083 my ($beg,$end)=@_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1084
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1085 #unless the begin and end positions are plausible, test negative
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1086 unless($beg>0 and $beg<=$hash_comp{"pri_end"} and $end>0 and $end<=$hash_comp{"pri_end"} and $beg<=$end){return 0;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1087
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1088 return 1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1089 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1090
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1091
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1092 sub comp{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1093
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1094 #subroutine to retrive from the 'comp' hash
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1095
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1096 my $type=shift;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1097 my $component=$hash_comp{$type};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1098 return $component;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1099 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1100
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1101
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1102 sub find_strand_query{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1103
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1104 #subroutine to find the strand for a given query
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1105
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1106 my $query=shift;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1107 my $strand=$hash_query{$query}{"strand"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1108 return $strand;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1109 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1110
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1111
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1112 sub find_positions_query{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1113
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1114 #subroutine to find the begin and end positions for a given query
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1115
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1116 my $query=shift;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1117 my $beg=$hash_query{$query}{"subject_beg"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1118 my $end=$hash_query{$query}{"subject_end"};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1119 return ($beg,$end);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1120 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1121
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1122
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1123
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1124 sub find_mature_query{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1125
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1126 #finds the query with the highest frequency of reads and returns it
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1127 #is used to determine the positions of the potential mature sequence
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1128
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1129 my @queries=sort {$hash_query{$b}{"freq"} <=> $hash_query{$a}{"freq"}} keys %hash_query;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1130 my $mature_query=$queries[0];
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1131 return $mature_query;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1132 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1133
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1134
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1135
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1136
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1137 sub reset_variables{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1138
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1139 #resets the hashes for the next potential precursor
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1140
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1141 # %hash_query=();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1142 # %hash_comp=();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1143 # %hash_bp=();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1144 foreach my $key (keys %hash_query) {delete($hash_query{$key});}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1145 foreach my $key (keys %hash_comp) {delete($hash_comp{$key});}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1146 foreach my $key (keys %hash_bp) {delete($hash_bp{$key});}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1147
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1148 # $message_filter=();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1149 # $message_score=();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1150 # $lines=();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1151 undef($message_filter);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1152 undef($message_score);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1153 undef($lines);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1154 return;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1155 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1156
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1157
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1158
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1159 sub excise_seq{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1160
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1161 #excise sub sequence from the potential precursor
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1162
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1163 my($seq,$beg,$end,$strand)=@_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1164
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1165 #begin can be equal to end if only one nucleotide is excised
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1166 unless($beg<=$end){print STDERR "begin can not be smaller than end for $subject_old\n";exit;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1167
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1168 #rarely, permuted combinations of signature and structure cause out of bound excision errors.
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1169 #this happens once appr. every two thousand combinations
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1170 unless($beg<=length($seq)){$out_of_bound++;return 0;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1171
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1172 #if on the minus strand, the reverse complement should be excised
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1173 if($strand eq "-"){$seq=revcom($seq);}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1174
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1175 #the blast parsed format is 1-indexed, substr is 0-indexed
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1176 my $sub_seq=substr($seq,$beg-1,$end-$beg+1);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1177
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1178 return $sub_seq;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1179
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1180 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1181
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1182 sub excise_struct{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1183
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1184 #excise sub structure
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1185
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1186 my($struct,$beg,$end,$strand)=@_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1187 my $lng=length $struct;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1188
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1189 #begin can be equal to end if only one nucleotide is excised
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1190 unless($beg<=$end){print STDERR "begin can not be smaller than end for $subject_old\n";exit;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1191
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1192 #rarely, permuted combinations of signature and structure cause out of bound excision errors.
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1193 #this happens once appr. every two thousand combinations
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1194 unless($beg<=length($struct)){return 0;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1195
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1196 #if excising relative to minus strand, positions are reversed
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1197 if($strand eq "-"){($beg,$end)=rev_pos($beg,$end,$lng);}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1198
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1199 #the blast parsed format is 1-indexed, substr is 0-indexed
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1200 my $sub_struct=substr($struct,$beg-1,$end-$beg+1);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1201
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1202 return $sub_struct;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1203 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1204
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1205
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1206 sub create_hash_nuclei{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1207 #parses a fasta file with sequences of known miRNAs considered for conservation purposes
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1208 #reads the nuclei into a hash
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1209
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1210 my ($file) = @_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1211 my ($id, $desc, $sequence, $nucleus) = ();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1212
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1213 open (FASTA, "<$file") or die "can not open $file\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1214 while (<FASTA>)
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1215 {
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1216 chomp;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1217 if (/^>(\S+)(.*)/)
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1218 {
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1219 $id = $1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1220 $desc = $2;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1221 $sequence = "";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1222 $nucleus = "";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1223 while (<FASTA>){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1224 chomp;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1225 if (/^>(\S+)(.*)/){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1226 $nucleus = substr($sequence,1,$nucleus_lng);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1227 $nucleus =~ tr/[T]/[U]/;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1228 $hash_mirs{$nucleus} .="$id\t";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1229 $hash_nuclei{$nucleus} += 1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1230
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1231 $id = $1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1232 $desc = $2;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1233 $sequence = "";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1234 $nucleus = "";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1235 next;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1236 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1237 $sequence .= $_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1238 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1239 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1240 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1241 $nucleus = substr($sequence,1,$nucleus_lng);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1242 $nucleus =~ tr/[T]/[U]/;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1243 $hash_mirs{$nucleus} .="$id\t";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1244 $hash_nuclei{$nucleus} += 1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1245 close FASTA;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1246 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1247
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1248
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1249 sub parse_file_struct{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1250 #parses the output from RNAfoldand reads it into hashes
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1251 my($file) = @_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1252 my($id,$desc,$seq,$struct,$mfe) = ();
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1253 open (FILE_STRUCT, "<$file") or die "can not open $file\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1254 while (<FILE_STRUCT>){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1255 chomp;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1256 if (/^>(\S+)\s(.)/){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1257 $id= $1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1258 $desc= $2;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1259 $seq= "";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1260 $struct= "";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1261 $mfe= "";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1262 while (<FILE_STRUCT>){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1263 chomp;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1264 if (/^>(\S+)\s(.)/){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1265 $hash_desc{$id} = $desc;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1266 $hash_seq{$id} = $seq;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1267 $hash_struct{$id} = $struct;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1268 $hash_mfe{$id} = $mfe;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1269 $id = $1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1270 $desc = $2;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1271 $seq = "";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1272 $struct = "";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1273 $mfe = "";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1274 next;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1275 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1276 if(/^\w/){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1277 tr/uU/tT/;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1278 $seq .= $_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1279 next;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1280 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1281 if(/((\.\|$\|$)+)/){$struct .=$1;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1282 if(/$(\s*-\d+\.\d+)$/){$mfe = $1;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1283 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1284 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1285 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1286 $hash_desc{$id} = $desc;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1287 $hash_seq{$id} = $seq;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1288 $hash_struct{$id} = $struct;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1289 $hash_mfe{$id} = $mfe;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1290 close FILE_STRUCT;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1291 return;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1292 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1293
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1294
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1295 sub score_s{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1296
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1297 #this score message is appended to the end of the string of score messages outputted for the potential precursor
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1298
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1299 my $message=shift;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1300 $message_score.=$message."\n";;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1301 return;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1302 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1303
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1304
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1305
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1306 sub score_p{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1307
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1308 #this score message is appended to the beginning of the string of score messages outputted for the potential precursor
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1309
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1310 my $message=shift;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1311 $message_score=$message."\n".$message_score;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1312 return;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1313 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1314
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1315
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1316
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1317 sub filter_s{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1318
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1319 #this filtering message is appended to the end of the string of filtering messages outputted for the potential precursor
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1320
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1321 my $message=shift;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1322 $message_filter.=$message."\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1323 return;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1324 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1325
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1326
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1327 sub filter_p{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1328
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1329 #this filtering message is appended to the beginning of the string of filtering messages outputted for the potential precursor
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1330
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1331 my $message=shift;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1332 if(defined $message_filter){$message_filter=$message."\n".$message_filter;}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1333 else{$message_filter=$message."\n";}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1334 return;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1335 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1336
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1337
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1338 sub find_freq{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1339
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1340 #finds the frequency of a given read query from its id.
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1341
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1342 my($query)=@_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1343
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1344 if($query=~/x(\d+)/i){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1345 my $freq=$1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1346 return $freq;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1347 }else{
44 0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	1348 #print STDERR "Problem with read format\n";
12 dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1349 return 0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1350 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1351 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1352
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1353
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1354 sub print_hash_comp{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1355
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1356 #prints the 'comp' hash
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1357
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1358 my @keys=sort keys %hash_comp;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1359 foreach my $key(@keys){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1360 my $value=$hash_comp{$key};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1361 print "$key \t$value\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1362 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1363 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1364
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1365
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1366
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1367 sub print_hash_bp{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1368
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1369 #prints the 'bp' hash
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1370
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1371 my @keys=sort {$a<=>$b} keys %hash_bp;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1372 foreach my $key(@keys){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1373 my $value=$hash_bp{$key};
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1374 print "$key\t$value\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1375 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1376 print "\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1377 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1378
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1379
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1380
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1381 sub find_strand{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1382
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1383 #A subroutine to find the strand, parsing different blast formats
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1384
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1385 my($other)=@_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1386
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1387 my $strand="+";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1388
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1389 if($other=~/-/){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1390 $strand="-";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1391 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1392
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1393 if($other=~/minus/i){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1394 $strand="-";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1395 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1396 return($strand);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1397 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1398
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1399
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1400 sub contained{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1401
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1402 #Is the stretch defined by the first positions contained in the stretch defined by the second?
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1403
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1404 my($beg1,$end1,$beg2,$end2)=@_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1405
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1406 testbeginend($beg1,$end1,$beg2,$end2);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1407
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1408 if($beg2<=$beg1 and $end1<=$end2){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1409 return 1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1410 }else{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1411 return 0;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1412 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1413 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1414
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1415
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1416 sub testbeginend{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1417
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1418 #Are the beginposition numerically smaller than the endposition for each pair?
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1419
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1420 my($begin1,$end1,$begin2,$end2)=@_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1421
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1422 unless($begin1<=$end1 and $begin2<=$end2){
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1423 print STDERR "beg can not be larger than end for $subject_old\n";
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1424 exit;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1425 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1426 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1427
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1428
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1429 sub rev_pos{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1430
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1431 # The blast_parsed format always uses positions that are relative to the 5' of the given strand
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1432 # This means that for a sequence of length n, the first nucleotide on the minus strand base pairs with
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1433 # the n't nucleotide on the plus strand
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1434
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1435 # This subroutine reverses the begin and end positions of positions of the minus strand so that they
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1436 # are relative to the 5' end of the plus strand
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1437
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1438 my($beg,$end,$lng)=@_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1439
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1440 my $new_end=$lng-$beg+1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1441 my $new_beg=$lng-$end+1;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1442
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1443 return($new_beg,$new_end);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1444 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1445
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1446 sub round {
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1447
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1448 #rounds to nearest integer
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1449
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1450 my($number) = shift;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1451 return int($number + .5);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1452
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1453 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1454
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1455
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1456 sub rev{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1457
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1458 #reverses the order of nucleotides in a sequence
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1459
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1460 my($sequence)=@_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1461
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1462 my $rev=reverse $sequence;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1463
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1464 return $rev;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1465 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1466
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1467 sub com{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1468
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1469 #the complementary of a sequence
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1470
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1471 my($sequence)=@_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1472
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1473 $sequence=~tr/acgtuACGTU/TGCAATGCAA/;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1474
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1475 return $sequence;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1476 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1477
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1478 sub revcom{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1479
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1480 #reverse complement
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1481
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1482 my($sequence)=@_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1483
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1484 my $revcom=rev(com($sequence));
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1485
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1486 return $revcom;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1487 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1488
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1489
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1490 sub max2 {
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1491
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1492 #max of two numbers
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1493
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1494 my($a, $b) = @_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1495 return ($a>$b ? $a : $b);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1496 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1497
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1498 sub min2 {
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1499
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1500 #min of two numbers
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1501
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1502 my($a, $b) = @_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1503 return ($a<$b ? $a : $b);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1504 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1505
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1506
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1507
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1508 sub score_freq{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1509
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1510 # scores the count of reads that map to the potential precursor
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1511 # Assumes geometric distribution as described in methods section of manuscript
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1512
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1513 my $freq=shift;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1514
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1515 #parameters of known precursors and background hairpins
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1516 my $parameter_test=0.999;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1517 my $parameter_control=0.6;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1518
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1519 #log_odds calculated directly to avoid underflow
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1520 my $intercept=log((1-$parameter_test)/(1-$parameter_control));
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1521 my $slope=log($parameter_test/$parameter_control);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1522 my $log_odds=$slope*$freq+$intercept;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1523
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1524 #if no strong evidence for 3' overhangs, limit the score contribution to 0
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1525 unless($options{x} or $hash_comp{"star_read"}){$log_odds=min2($log_odds,0);}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1526
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1527 return $log_odds;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1528 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1529
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1530
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1531
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1532 ##sub score_mfe{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1533
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1534 # scores the minimum free energy in kCal/mol of the potential precursor
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1535 # Assumes Gumbel distribution as described in methods section of manuscript
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1536
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1537 ## my $mfe=shift;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1538
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1539 #numerical value, minimum 1
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1540 ## my $mfe_adj=max2(1,-$mfe);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1541
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1542 #parameters of known precursors and background hairpins, scale and location
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1543 ## my $prob_test=prob_gumbel_discretized($mfe_adj,5.5,32);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1544 ## my $prob_background=prob_gumbel_discretized($mfe_adj,4.8,23);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1545
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1546 ## my $odds=$prob_test/$prob_background;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1547 ## my $log_odds=log($odds);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1548
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1549 ## return $log_odds;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1550 ##}
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1551
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1552 sub score_mfe{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1553 # use bignum;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1554
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1555 # scores the minimum free energy in kCal/mol of the potential precursor
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1556 # Assumes Gumbel distribution as described in methods section of manuscript
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1557
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1558 my ($mfe,$mlng)=@_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1559
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1560 #numerical value, minimum 1
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1561 my $mfe_adj=max2(1,-$mfe);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1562 my $mfe_adj1=$mfe/$mlng;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1563 #parameters of known precursors and background hairpins, scale and location
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1564 my $a=1.339e-12;my $b=2.778e-13;my $c=45.834;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1565 my $ev=$e*($mfe_adj1$c);
44 0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	1566 #print STDERR "\n*",$ev,"\t",$ev+$b,"\t";
12 dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1567 my $log_odds=($a/($b+$ev));
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1568
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1569
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1570 my $prob_test=prob_gumbel_discretized($mfe_adj,5.5,32);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1571 my $prob_background=prob_gumbel_discretized($mfe_adj,4.8,23);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1572
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1573 my $odds=$prob_test/$prob_background;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1574 my $log_odds_2=log($odds);
44 0c4e11018934 Uploaded big-tiandm parents: 12 diff changeset	1575 #print STDERR "log_odds :",$log_odds,"\t",$log_odds_2,"\n";
12 dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1576 return $log_odds;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1577 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1578
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1579
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1580
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1581 sub prob_gumbel_discretized{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1582
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1583 # discretized Gumbel distribution, probabilities within windows of 1 kCal/mol
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1584 # uses the subroutine that calculates the cdf to find the probabilities
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1585
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1586 my ($var,$scale,$location)=@_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1587
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1588 my $bound_lower=$var-0.5;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1589 my $bound_upper=$var+0.5;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1590
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1591 my $cdf_lower=cdf_gumbel($bound_lower,$scale,$location);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1592 my $cdf_upper=cdf_gumbel($bound_upper,$scale,$location);
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1593
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1594 my $prob=$cdf_upper-$cdf_lower;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1595
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1596 return $prob;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1597 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1598
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1599
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1600 sub cdf_gumbel{
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1601
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1602 # calculates the cumulative distribution function of the Gumbel distribution
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1603
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1604 my ($var,$scale,$location)=@_;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1605
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1606 my $cdf=$e(-($e(-($var-$location)/$scale)));
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1607
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1608 return $cdf;
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1609 }
dc5a29826c7d Uploaded big-tiandm parents: diff changeset	1610

Mercurial > repos > big-tiandm > mirplant2

annotate miRDeep_plant.pl @ 44:0c4e11018934 draft