cpt_psm_comparison_table: cpt_psm_comparison_table/lib/CPT/Bio/ORF.pm annotate

annotate cpt_psm_comparison_table/lib/CPT/Bio/ORF.pm @ 0:b8b8b52904a5 draft

Uploaded

author	cpt
date	Tue, 05 Jul 2022 05:42:59 +0000
parents
children

rev	line source
0 b8b8b52904a5 Uploaded cpt parents: diff changeset	1 package CPT::Bio::ORF;
b8b8b52904a5 Uploaded cpt parents: diff changeset	2 use strict;
b8b8b52904a5 Uploaded cpt parents: diff changeset	3 use warnings;
b8b8b52904a5 Uploaded cpt parents: diff changeset	4 use autodie;
b8b8b52904a5 Uploaded cpt parents: diff changeset	5 use Moose;
b8b8b52904a5 Uploaded cpt parents: diff changeset	6
b8b8b52904a5 Uploaded cpt parents: diff changeset	7 has min_gene_length => (
b8b8b52904a5 Uploaded cpt parents: diff changeset	8 is => 'rw',
b8b8b52904a5 Uploaded cpt parents: diff changeset	9 isa => 'Int',
b8b8b52904a5 Uploaded cpt parents: diff changeset	10 default => sub {
b8b8b52904a5 Uploaded cpt parents: diff changeset	11 0
b8b8b52904a5 Uploaded cpt parents: diff changeset	12 },
b8b8b52904a5 Uploaded cpt parents: diff changeset	13 );
b8b8b52904a5 Uploaded cpt parents: diff changeset	14 has sc_atg => ( is => 'rw', isa => 'Bool', default => sub { 1 } );
b8b8b52904a5 Uploaded cpt parents: diff changeset	15 has sc_ttg => ( is => 'rw', isa => 'Bool', default => sub { 1 } );
b8b8b52904a5 Uploaded cpt parents: diff changeset	16 has sc_ctg => ( is => 'rw', isa => 'Bool', default => sub { 0 } );
b8b8b52904a5 Uploaded cpt parents: diff changeset	17 has sc_gtg => ( is => 'rw', isa => 'Bool', default => sub { 1 } );
b8b8b52904a5 Uploaded cpt parents: diff changeset	18
b8b8b52904a5 Uploaded cpt parents: diff changeset	19 our %code = (
b8b8b52904a5 Uploaded cpt parents: diff changeset	20 "TTT" => "F", "TTC" => "F", "TTA" => "L", "TTG" => "L", "TCT" => "S",
b8b8b52904a5 Uploaded cpt parents: diff changeset	21 "TCC" => "S", "TCA" => "S", "TCG" => "S", "TAT" => "Y", "TAC" => "Y",
b8b8b52904a5 Uploaded cpt parents: diff changeset	22 "TAA" => "", "TAG" => "", "TGT" => "C", "TGC" => "C", "TGA" => "*",
b8b8b52904a5 Uploaded cpt parents: diff changeset	23 "TGG" => "W", "CTT" => "L", "CTC" => "L", "CTA" => "L", "CTG" => "L",
b8b8b52904a5 Uploaded cpt parents: diff changeset	24 "CCT" => "P", "CCC" => "P", "CCA" => "P", "CCG" => "P", "CAT" => "H",
b8b8b52904a5 Uploaded cpt parents: diff changeset	25 "CAC" => "H", "CAA" => "Q", "CAG" => "Q", "CGT" => "R", "CGC" => "R",
b8b8b52904a5 Uploaded cpt parents: diff changeset	26 "CGA" => "R", "CGG" => "R", "ATT" => "I", "ATC" => "I", "ATA" => "I",
b8b8b52904a5 Uploaded cpt parents: diff changeset	27 "ATG" => "M", "ACT" => "T", "ACC" => "T", "ACA" => "T", "ACG" => "T",
b8b8b52904a5 Uploaded cpt parents: diff changeset	28 "AAT" => "N", "AAC" => "N", "AAA" => "K", "AAG" => "K", "AGT" => "S",
b8b8b52904a5 Uploaded cpt parents: diff changeset	29 "AGC" => "S", "AGA" => "R", "AGG" => "R", "GTT" => "V", "GTC" => "V",
b8b8b52904a5 Uploaded cpt parents: diff changeset	30 "GTA" => "V", "GTG" => "V", "GCT" => "A", "GCC" => "A", "GCA" => "A",
b8b8b52904a5 Uploaded cpt parents: diff changeset	31 "GCG" => "A", "GAT" => "D", "GAC" => "D", "GAA" => "E", "GAG" => "E",
b8b8b52904a5 Uploaded cpt parents: diff changeset	32 "GGT" => "G", "GGC" => "G", "GGA" => "G", "GGG" => "G",
b8b8b52904a5 Uploaded cpt parents: diff changeset	33 );
b8b8b52904a5 Uploaded cpt parents: diff changeset	34
b8b8b52904a5 Uploaded cpt parents: diff changeset	35
b8b8b52904a5 Uploaded cpt parents: diff changeset	36
b8b8b52904a5 Uploaded cpt parents: diff changeset	37 sub run {
b8b8b52904a5 Uploaded cpt parents: diff changeset	38 my ($self, $sequence) = @_;
b8b8b52904a5 Uploaded cpt parents: diff changeset	39 # Read through forward strand
b8b8b52904a5 Uploaded cpt parents: diff changeset	40 my @putative_starts;
b8b8b52904a5 Uploaded cpt parents: diff changeset	41
b8b8b52904a5 Uploaded cpt parents: diff changeset	42 # 30 seconds with a bioperl object
b8b8b52904a5 Uploaded cpt parents: diff changeset	43 # 5 seconds with string munging. >:\|
b8b8b52904a5 Uploaded cpt parents: diff changeset	44 my $dna = uc( $sequence );
b8b8b52904a5 Uploaded cpt parents: diff changeset	45 my $length = length($sequence);
b8b8b52904a5 Uploaded cpt parents: diff changeset	46
b8b8b52904a5 Uploaded cpt parents: diff changeset	47 # Pre-create the regular expressions
b8b8b52904a5 Uploaded cpt parents: diff changeset	48 my ( $regex_forward, $regex_backwards );
b8b8b52904a5 Uploaded cpt parents: diff changeset	49 my $not_statement_f = '^';
b8b8b52904a5 Uploaded cpt parents: diff changeset	50 my $not_statement_r = '^';
b8b8b52904a5 Uploaded cpt parents: diff changeset	51 if ( !$self->sc_atg() ) {
b8b8b52904a5 Uploaded cpt parents: diff changeset	52 $not_statement_f .= 'A';
b8b8b52904a5 Uploaded cpt parents: diff changeset	53 $not_statement_r .= 'T';
b8b8b52904a5 Uploaded cpt parents: diff changeset	54 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	55 if ( !$self->sc_ctg() ) {
b8b8b52904a5 Uploaded cpt parents: diff changeset	56 $not_statement_f .= 'C';
b8b8b52904a5 Uploaded cpt parents: diff changeset	57 $not_statement_r .= 'G';
b8b8b52904a5 Uploaded cpt parents: diff changeset	58 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	59 if ( !$self->sc_ttg() ) {
b8b8b52904a5 Uploaded cpt parents: diff changeset	60 $not_statement_f .= 'T';
b8b8b52904a5 Uploaded cpt parents: diff changeset	61 $not_statement_r .= 'A';
b8b8b52904a5 Uploaded cpt parents: diff changeset	62 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	63 if ( !$self->sc_gtg() ) {
b8b8b52904a5 Uploaded cpt parents: diff changeset	64 $not_statement_f .= 'G';
b8b8b52904a5 Uploaded cpt parents: diff changeset	65 $not_statement_r .= 'C';
b8b8b52904a5 Uploaded cpt parents: diff changeset	66 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	67
b8b8b52904a5 Uploaded cpt parents: diff changeset	68 # If any start is acceptable, we re-add them and remove our ^
b8b8b52904a5 Uploaded cpt parents: diff changeset	69 if($not_statement_r eq '^' && $not_statement_f eq '^'){
b8b8b52904a5 Uploaded cpt parents: diff changeset	70 $not_statement_f = 'ACTG';
b8b8b52904a5 Uploaded cpt parents: diff changeset	71 $not_statement_r = 'ACTG';
b8b8b52904a5 Uploaded cpt parents: diff changeset	72 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	73 $regex_forward = qr/[${not_statement_f}]TG/;
b8b8b52904a5 Uploaded cpt parents: diff changeset	74 $regex_backwards = qr/CA[${not_statement_r}]/;
b8b8b52904a5 Uploaded cpt parents: diff changeset	75
b8b8b52904a5 Uploaded cpt parents: diff changeset	76 # Collect putative starts
b8b8b52904a5 Uploaded cpt parents: diff changeset	77 for ( my $i = 1 ; $i < $length - 1 ; $i++ ) {
b8b8b52904a5 Uploaded cpt parents: diff changeset	78 my $tri_nt = substr( $dna, $i - 1, 3 ); #$seq_obj->subseq($i,$i+2);
b8b8b52904a5 Uploaded cpt parents: diff changeset	79 if ( $tri_nt =~ $regex_forward ) {
b8b8b52904a5 Uploaded cpt parents: diff changeset	80 push( @putative_starts, [ $i, '+' ] );
b8b8b52904a5 Uploaded cpt parents: diff changeset	81 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	82 if ( $tri_nt =~ $regex_backwards ) {
b8b8b52904a5 Uploaded cpt parents: diff changeset	83 push( @putative_starts, [ $i + 2, '-' ] );
b8b8b52904a5 Uploaded cpt parents: diff changeset	84 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	85 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	86 my %ORFs;
b8b8b52904a5 Uploaded cpt parents: diff changeset	87
b8b8b52904a5 Uploaded cpt parents: diff changeset	88 #Loop through all of the starts we have
b8b8b52904a5 Uploaded cpt parents: diff changeset	89 my $fc = 0;
b8b8b52904a5 Uploaded cpt parents: diff changeset	90 my $rc = 0;
b8b8b52904a5 Uploaded cpt parents: diff changeset	91 foreach (@putative_starts) {
b8b8b52904a5 Uploaded cpt parents: diff changeset	92 my @putative_start = @{$_};
b8b8b52904a5 Uploaded cpt parents: diff changeset	93
b8b8b52904a5 Uploaded cpt parents: diff changeset	94 my $final_seq = "";
b8b8b52904a5 Uploaded cpt parents: diff changeset	95
b8b8b52904a5 Uploaded cpt parents: diff changeset	96 my $add;
b8b8b52904a5 Uploaded cpt parents: diff changeset	97 my $tri_nt;
b8b8b52904a5 Uploaded cpt parents: diff changeset	98 if ( $putative_start[1] eq "+" ) {
b8b8b52904a5 Uploaded cpt parents: diff changeset	99 my $end;
b8b8b52904a5 Uploaded cpt parents: diff changeset	100 for ( my $k = $putative_start[0] ; $k < $length ; $k = $k + 3 )
b8b8b52904a5 Uploaded cpt parents: diff changeset	101 {
b8b8b52904a5 Uploaded cpt parents: diff changeset	102 my $tri_nt = substr( $dna, $k, 3 );
b8b8b52904a5 Uploaded cpt parents: diff changeset	103 my $aa = $code{$tri_nt};
b8b8b52904a5 Uploaded cpt parents: diff changeset	104 if ( $aa && $aa ne '*' ) {
b8b8b52904a5 Uploaded cpt parents: diff changeset	105 $end = $k + 3;
b8b8b52904a5 Uploaded cpt parents: diff changeset	106 $final_seq .= $tri_nt;
b8b8b52904a5 Uploaded cpt parents: diff changeset	107 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	108 else {
b8b8b52904a5 Uploaded cpt parents: diff changeset	109 last;
b8b8b52904a5 Uploaded cpt parents: diff changeset	110 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	111 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	112 if ( length($final_seq)/3 > $self->min_gene_length() ) {
b8b8b52904a5 Uploaded cpt parents: diff changeset	113 $ORFs{ 'f_' + $fc++ } = [
b8b8b52904a5 Uploaded cpt parents: diff changeset	114 length($final_seq)/3,
b8b8b52904a5 Uploaded cpt parents: diff changeset	115 $putative_start[0],
b8b8b52904a5 Uploaded cpt parents: diff changeset	116 $end,
b8b8b52904a5 Uploaded cpt parents: diff changeset	117 'F',
b8b8b52904a5 Uploaded cpt parents: diff changeset	118 $final_seq
b8b8b52904a5 Uploaded cpt parents: diff changeset	119 ];
b8b8b52904a5 Uploaded cpt parents: diff changeset	120 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	121 } # - strand
b8b8b52904a5 Uploaded cpt parents: diff changeset	122 else {
b8b8b52904a5 Uploaded cpt parents: diff changeset	123 my $end;
b8b8b52904a5 Uploaded cpt parents: diff changeset	124 for ( my $k = $putative_start[0] ; $k >= 2 ; $k = $k - 3 ) {
b8b8b52904a5 Uploaded cpt parents: diff changeset	125 my $tmp = reverse( substr( $dna, $k - 3, 3 ) );
b8b8b52904a5 Uploaded cpt parents: diff changeset	126
b8b8b52904a5 Uploaded cpt parents: diff changeset	127 $tmp =~ tr/ACTG/qzAC/;
b8b8b52904a5 Uploaded cpt parents: diff changeset	128 $tmp =~ tr/qz/TG/;
b8b8b52904a5 Uploaded cpt parents: diff changeset	129
b8b8b52904a5 Uploaded cpt parents: diff changeset	130 my $aa = $code{$tmp};
b8b8b52904a5 Uploaded cpt parents: diff changeset	131 if ( defined $aa && $aa ne '*' ) {
b8b8b52904a5 Uploaded cpt parents: diff changeset	132 $end = $k - 1;
b8b8b52904a5 Uploaded cpt parents: diff changeset	133 $final_seq .= $tmp;
b8b8b52904a5 Uploaded cpt parents: diff changeset	134 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	135 else {
b8b8b52904a5 Uploaded cpt parents: diff changeset	136 last;
b8b8b52904a5 Uploaded cpt parents: diff changeset	137 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	138
b8b8b52904a5 Uploaded cpt parents: diff changeset	139 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	140 if ( length($final_seq)/3 > $self->min_gene_length() ) {
b8b8b52904a5 Uploaded cpt parents: diff changeset	141 $ORFs{ 'r_' + $rc++ } = [
b8b8b52904a5 Uploaded cpt parents: diff changeset	142 length($final_seq)/3,
b8b8b52904a5 Uploaded cpt parents: diff changeset	143 $end,
b8b8b52904a5 Uploaded cpt parents: diff changeset	144 $putative_start[0],
b8b8b52904a5 Uploaded cpt parents: diff changeset	145 'R',
b8b8b52904a5 Uploaded cpt parents: diff changeset	146 $final_seq
b8b8b52904a5 Uploaded cpt parents: diff changeset	147 ];
b8b8b52904a5 Uploaded cpt parents: diff changeset	148 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	149 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	150 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	151
b8b8b52904a5 Uploaded cpt parents: diff changeset	152 my @orfs;
b8b8b52904a5 Uploaded cpt parents: diff changeset	153
b8b8b52904a5 Uploaded cpt parents: diff changeset	154 for my $orf_key ( sort( keys(%ORFs) ) ) {
b8b8b52904a5 Uploaded cpt parents: diff changeset	155 my @tmp= @{ $ORFs{$orf_key} };
b8b8b52904a5 Uploaded cpt parents: diff changeset	156 my $seqobj = Bio::Seq->new(
b8b8b52904a5 Uploaded cpt parents: diff changeset	157 -display_id => sprintf(
b8b8b52904a5 Uploaded cpt parents: diff changeset	158 'orf%05d_%s',
b8b8b52904a5 Uploaded cpt parents: diff changeset	159 ($orf_key + 1), $tmp[3],
b8b8b52904a5 Uploaded cpt parents: diff changeset	160 ),
b8b8b52904a5 Uploaded cpt parents: diff changeset	161 -desc => sprintf(
b8b8b52904a5 Uploaded cpt parents: diff changeset	162 '[%s-%s; %s aa long]'
b8b8b52904a5 Uploaded cpt parents: diff changeset	163 ,$tmp[1], $tmp[2], $tmp[0]
b8b8b52904a5 Uploaded cpt parents: diff changeset	164 ),
b8b8b52904a5 Uploaded cpt parents: diff changeset	165 -seq => $tmp[4]
b8b8b52904a5 Uploaded cpt parents: diff changeset	166 );
b8b8b52904a5 Uploaded cpt parents: diff changeset	167 push(@orfs, $seqobj);
b8b8b52904a5 Uploaded cpt parents: diff changeset	168 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	169 return @orfs;
b8b8b52904a5 Uploaded cpt parents: diff changeset	170 }
b8b8b52904a5 Uploaded cpt parents: diff changeset	171
b8b8b52904a5 Uploaded cpt parents: diff changeset	172
b8b8b52904a5 Uploaded cpt parents: diff changeset	173
b8b8b52904a5 Uploaded cpt parents: diff changeset	174 no Moose;
b8b8b52904a5 Uploaded cpt parents: diff changeset	175 1;
b8b8b52904a5 Uploaded cpt parents: diff changeset	176
b8b8b52904a5 Uploaded cpt parents: diff changeset	177 __END__
b8b8b52904a5 Uploaded cpt parents: diff changeset	178
b8b8b52904a5 Uploaded cpt parents: diff changeset	179 =pod
b8b8b52904a5 Uploaded cpt parents: diff changeset	180
b8b8b52904a5 Uploaded cpt parents: diff changeset	181 =encoding UTF-8
b8b8b52904a5 Uploaded cpt parents: diff changeset	182
b8b8b52904a5 Uploaded cpt parents: diff changeset	183 =head1 NAME
b8b8b52904a5 Uploaded cpt parents: diff changeset	184
b8b8b52904a5 Uploaded cpt parents: diff changeset	185 CPT::Bio::ORF
b8b8b52904a5 Uploaded cpt parents: diff changeset	186
b8b8b52904a5 Uploaded cpt parents: diff changeset	187 =head1 VERSION
b8b8b52904a5 Uploaded cpt parents: diff changeset	188
b8b8b52904a5 Uploaded cpt parents: diff changeset	189 version 1.99.4
b8b8b52904a5 Uploaded cpt parents: diff changeset	190
b8b8b52904a5 Uploaded cpt parents: diff changeset	191 =function run
b8b8b52904a5 Uploaded cpt parents: diff changeset	192
b8b8b52904a5 Uploaded cpt parents: diff changeset	193 =head1 AUTHOR
b8b8b52904a5 Uploaded cpt parents: diff changeset	194
b8b8b52904a5 Uploaded cpt parents: diff changeset	195 Eric Rasche <rasche.eric@yandex.ru>
b8b8b52904a5 Uploaded cpt parents: diff changeset	196
b8b8b52904a5 Uploaded cpt parents: diff changeset	197 =head1 COPYRIGHT AND LICENSE
b8b8b52904a5 Uploaded cpt parents: diff changeset	198
b8b8b52904a5 Uploaded cpt parents: diff changeset	199 This software is Copyright (c) 2014 by Eric Rasche.
b8b8b52904a5 Uploaded cpt parents: diff changeset	200
b8b8b52904a5 Uploaded cpt parents: diff changeset	201 This is free software, licensed under:
b8b8b52904a5 Uploaded cpt parents: diff changeset	202
b8b8b52904a5 Uploaded cpt parents: diff changeset	203 The GNU General Public License, Version 3, June 2007
b8b8b52904a5 Uploaded cpt parents: diff changeset	204
b8b8b52904a5 Uploaded cpt parents: diff changeset	205 =cut

Mercurial > repos > cpt > cpt_psm_comparison_table

annotate cpt_psm_comparison_table/lib/CPT/Bio/ORF.pm @ 0:b8b8b52904a5 draft