comparison facturation.py @ 0:27f2ef353554 draft

"planemo upload for repository https://github.com/ARTbio/tools-artbio/tree/master/tools/facturation_ibps commit 07c73df696d6d80e03f03232603d713882131625"
author artbio
date Mon, 11 May 2020 19:42:27 -0400
parents
children e93bf8bd0e93
comparison
equal deleted inserted replaced
-1:000000000000 0:27f2ef353554
1 # -*- coding: utf-8 -*-
2
3
4 import argparse
5 import re
6 import warnings
7
8 import openpyxl
9
10 import pandas as pd
11
12
13 warnings.filterwarnings("ignore")
14
15
16 def Parser():
17 the_parser = argparse.ArgumentParser()
18 the_parser.add_argument('--input', '-i', action='store', type=str,
19 help="input html code to convert to xlsx")
20 the_parser.add_argument('--output', '-o', action='store', type=str,
21 help='xlsx converted file')
22 the_parser.add_argument('--template', '-t', action='store', type=str,
23 help='xlsx template file')
24 the_parser.add_argument('--reduction', '-r', action='store', type=float,
25 help='reduction to apply', default=1.0)
26 args = the_parser.parse_args()
27 return args
28
29
30 def main(template, input_file, output_file, reduction):
31 """Script de parsing des fichiers de facturation de l'IBPS"""
32
33 # ouverture fichier input
34 with open(input_file, 'rb') as file_object:
35 facture_html = file_object.read()
36 # convert to unicode utf-8, remove &nbsp and €
37 facture_html = facture_html.decode('utf-8')
38 facture_html = facture_html.replace(r' ', r' ')
39 facture_html = facture_html.replace(r' €', '')
40 facture_html = facture_html.replace(u' \u20ac', '')
41 # parsing de la référence, de la date et de la période de facturation
42 date = re.search(r'Paris le (.*?)</p>',
43 facture_html).group(1)
44 periode = re.search(r'de la prestation (.*?)</p>',
45 facture_html).group(1)
46 ref = re.search(r'rence interne d.*? :\s*(.*?)<',
47 facture_html).group(1)
48
49 # parsing des tableaux html avec pandas
50 facture_parsed = pd.read_html(
51 facture_html,
52 thousands='',
53 decimal='.',
54 flavor='bs4')
55 # remove 'Adresse de l'appel à facturation : ' (\xa0:\xa0)
56 adresse = facture_parsed[0].replace(
57 r"Adresse de l\'appel \xe0 facturation : ", r'', regex=True)
58 adresse = adresse.replace(
59 r"Adresse du client : ", r'', regex=True)
60 elements = facture_parsed[1]
61
62 # conversion des noms de colonnes
63 elements_col = elements.iloc[0]
64 cout_col = elements_col.str.extract(r'(cout.*)',
65 expand=False).dropna().iloc[0]
66 elements = elements.rename(columns=elements_col).drop(
67 elements.index[0])
68
69 # changement du type des éléments numériques du tableau
70 elements[u'nombre(s)'] = pd.to_numeric(elements[u'nombre(s)'])
71 elements[cout_col] = pd.to_numeric(elements[cout_col])
72
73 # ouverture fichier output
74 facture_output = openpyxl.load_workbook(
75 template, data_only='True', keep_vba=False)
76 ws = facture_output.worksheets[0]
77
78 # rajout de l'image de SU qui ne survit pas à la conversion
79 img = openpyxl.drawing.image.Image('template_SU.jpg')
80 img.anchor = "A1"
81 ws.add_image(img)
82
83 # ajout des éléments facturés dans le tableau
84 element_row = 23
85 for i in range(len(elements)):
86 element_row += 1
87 ws.cell(row=element_row, column=1, value=elements.iloc[i][u'Objet'])
88 ws.cell(
89 row=element_row,
90 column=2,
91 value=elements.iloc[i][u'nombre(s)']).number_format = '0.00'
92 ws.cell(
93 row=element_row,
94 column=4,
95 value=((1-reduction) *
96 elements.iloc[i][cout_col])).number_format = '0.00'
97
98 # ajout de l'adresse
99 address_row = 7
100 for i in range(len(adresse)):
101 address_row += 1
102 ws.cell(row=address_row, column=3,
103 value=adresse.iloc[i, 0].encode('utf-8'))
104
105 # ajout de la référence/période/date
106 ws.cell(row=2, column=3, value=ref.encode('utf-8'))
107 ws.cell(row=5, column=5, value=periode.encode('utf-8'))
108 ws.cell(row=21, column=5, value=date.encode('utf-8'))
109
110 # export fichier output
111 facture_output.save(output_file)
112 return
113
114
115 if __name__ == '__main__':
116 args = Parser()
117 main(args.template, args.input, args.output, args.reduction)