vsnp_statistics: vsnp_statistics.py comparison

Uploaded

comparison

equal deleted inserted replaced

-:39ab5405b509
+:b908bb18008a
 # Gather Series into a data frame.
 fastq_df = pandas.DataFrame(dict(id=s1, seq=s2)).set_index(['id'])
 # Starting at row 3, keep every 4 row
 # random sample specified number of rows.
 file_size = nice_size(os.path.getsize(fastq_file))
-total_reads = int(len(fastq_df.index) / 4)
+total_reads = len(seqs)
 # Mean Read Length
 if sampling_size > total_reads:
 sampling_size = total_reads
-fastq_df = fastq_df.iloc[3::4].sample(sampling_size)
+try:
+fastq_df = fastq_df.iloc[3::4].sample(sampling_size)
+except ValueError:
+fastq_df = fastq_df.iloc[3::4].sample(sampling_size, replace=True)
 dict_mean = {}
 list_length = []
 i = 0
 for id, seq, in fastq_df.iterrows():
 dict_mean[id] = numpy.mean(letter_annotations[i])

Mercurial > repos > greg > vsnp_statistics