vsnp_determine_ref_from_data: vsnp_add_zero

comparison vsnp_add_zero_coverage.py @ 7:57bd5b859e86 draft default tip

planemo upload for repository https://github.com/galaxyproject/tools-iuc/tree/master/tools/vsnp commit c38fd63f7980c70390d104a73ba4c72b266444c3

author	iuc
date	Fri, 10 Jun 2022 06:10:23 +0000
parents	b03e88e7bb1d
children

comparison

equal deleted inserted replaced

-:532a11cdd818
+:57bd5b859e86
 def get_zero_df(reference):
 # Create a zero coverage dictionary.
 zero_dict = {}
+reference_length = 0
 for record in SeqIO.parse(reference, "fasta"):
 chrom = record.id
 total_len = len(record.seq)
+reference_length = reference_length + len(record.seq)
 for pos in list(range(1, total_len + 1)):
 zero_dict["%s-%s" % (str(chrom), str(pos))] = 0
 # Convert it to a data frame with depth_x
 # and depth_y columns - index is NaN.
 zero_df = pandas.DataFrame.from_dict(zero_dict, orient='index', columns=["depth"])
-return zero_df
+return zero_df, reference_length
 def output_zc_vcf_file(base_file_name, vcf_file, zero_df, total_zero_coverage, output_vcf):
 column_names = ["CHROM", "POS", "ID", "REF", "ALT", "QUAL", "FILTER", "INFO", "FORMAT", "Sample"]
 vcf_df = pandas.read_csv(vcf_file, sep='\t', header=None, names=column_names, comment='#')
 else:
 shutil.move(vcf_file, output_vcf)
 return good_snp_count
-def output_metrics_file(base_file_name, average_coverage, genome_coverage, good_snp_count, output_metrics):
+def output_metrics_file(base_file_name, average_coverage, genome_coverage, good_snp_count, dbkey, reference,
-bam_metrics = [base_file_name, "", "%4f" % average_coverage, genome_coverage]
+reference_length, total_zero_coverage, percent_ref_with_zero_coverage, output_metrics):
-vcf_metrics = [base_file_name, str(good_snp_count), "", ""]
+columns = ["BAM File", "Reference", "reference Length", "Genome with Coverage", "Average Depth",
-metrics_columns = ["File", "Number of Good SNPs", "Average Coverage", "Genome Coverage"]
+"No Coverage Bases", "Percent Ref with Zero Coverage", "Quality SNPs"]
+values = [base_file_name, dbkey, str(reference_length), genome_coverage, average_coverage,
+str(total_zero_coverage), percent_ref_with_zero_coverage, str(good_snp_count)]
 with open(output_metrics, "w") as fh:
-fh.write("# %s\n" % "\t".join(metrics_columns))
+fh.write("# %s\n" % "\t".join(columns))
-fh.write("%s\n" % "\t".join(bam_metrics))
+fh.write("%s\n" % "\t".join(values))
-fh.write("%s\n" % "\t".join(vcf_metrics))
-def output_files(vcf_file, total_zero_coverage, zero_df, output_vcf, average_coverage, genome_coverage, output_metrics):
+def output_files(vcf_file, total_zero_coverage, percent_ref_with_zero_coverage, zero_df, output_vcf,
+average_coverage, genome_coverage, output_metrics, reference, reference_length, dbkey):
 base_file_name = get_sample_name(vcf_file)
 good_snp_count = output_zc_vcf_file(base_file_name, vcf_file, zero_df, total_zero_coverage, output_vcf)
-output_metrics_file(base_file_name, average_coverage, genome_coverage, good_snp_count, output_metrics)
+output_metrics_file(base_file_name, average_coverage, genome_coverage, good_snp_count, dbkey, reference,
+reference_length, total_zero_coverage, percent_ref_with_zero_coverage, output_metrics)
-def get_coverage_and_snp_count(bam_file, vcf_file, reference, output_metrics, output_vcf):
+def get_coverage_and_snp_count(bam_file, vcf_file, dbkey, reference, output_metrics, output_vcf):
 coverage_df = get_coverage_df(bam_file)
-zero_df = get_zero_df(reference)
+zero_df, reference_length = get_zero_df(reference)
 coverage_df = zero_df.merge(coverage_df, left_index=True, right_index=True, how='outer')
 # depth_x "0" column no longer needed.
 coverage_df = coverage_df.drop(columns=['depth_x'])
 coverage_df = coverage_df.rename(columns={'depth_y': 'depth'})
 # Covert the NaN to 0 coverage and get some metrics.
 coverage_df = coverage_df.fillna(0)
 coverage_df['depth'] = coverage_df['depth'].apply(int)
 total_length = len(coverage_df)
-average_coverage = coverage_df['depth'].mean()
+average_coverage = "{:.2f}".format(coverage_df['depth'].mean())
 zero_df = coverage_df[coverage_df['depth'] == 0]
 total_zero_coverage = len(zero_df)
+percent_ref_with_zero_coverage = "{:.6%}".format(total_zero_coverage / reference_length * 100)
 total_coverage = total_length - total_zero_coverage
 genome_coverage = "{:.2%}".format(total_coverage / total_length)
 # Output a zero-coverage vcf fil and the metrics file.
-output_files(vcf_file, total_zero_coverage, zero_df, output_vcf, average_coverage, genome_coverage, output_metrics)
+output_files(vcf_file, total_zero_coverage, percent_ref_with_zero_coverage, zero_df, output_vcf,
+average_coverage, genome_coverage, output_metrics, reference, reference_length, dbkey)
 if __name__ == '__main__':
 parser = argparse.ArgumentParser()
 parser.add_argument('--bam_input', action='store', dest='bam_input', help='bam input file')
+parser.add_argument('--dbkey', action='store', dest='dbkey', help='bam input dbkey')
 parser.add_argument('--output_metrics', action='store', dest='output_metrics', required=False, default=None, help='Output metrics text file')
 parser.add_argument('--output_vcf', action='store', dest='output_vcf', required=False, default=None, help='Output VCF file')
 parser.add_argument('--reference', action='store', dest='reference', help='Reference dataset')
 parser.add_argument('--vcf_input', action='store', dest='vcf_input', help='vcf input file')
 args = parser.parse_args()
-get_coverage_and_snp_count(args.bam_input, args.vcf_input, args.reference, args.output_metrics, args.output_vcf)
+get_coverage_and_snp_count(args.bam_input, args.vcf_input, args.dbkey, args.reference, args.output_metrics, args.output_vcf)

Mercurial > repos > iuc > vsnp_determine_ref_from_data

comparison vsnp_add_zero_coverage.py @ 7:57bd5b859e86 draft default tip