xrmx / parse-medici-torino

Script per trasformare i pdf dei medici di medicina generale della ASL Città di Torino in formato machine readable

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

risoluzione indirizzi a caso

xrmx opened this issue · comments

Ci sono questi indirizzi che vengono risolti a caso in giro per l'italia:

indirizzo: VIA G.D. CASSINI 75 int. 10 TORINO 10129       2
indirizzo: CORSO FILIPPO TURATI 15 sc. G TORINO 10128     3          
indirizzo: PIAZZA P.F. GUALA 135 bis TORINO 10135         8
indirizzo: VIA CAVOUR 8 sc. C TORINO 10123                1
indirizzo: CORSO BELGIO 86 int. 11 TORINO 10153           7
indirizzo: VIA ABATE A.M. VASSALLI EANDI 29 TORINO 10138  3
indirizzo: VIA V. LANCIA 15 TORINO 10141                  3
indirizzo: CORSO G. AGNELLI 56 TORINO 10137               2
indirizzo: VIA DON L. MURIALDO 39 TORINO 10142            3
indirizzo: CORSO A. DE GASPERI 6 TORINO 10129             8
indirizzo: VIA G. GIOLITTI 37 TORINO 10123                1
indirizzo: VIA GIACOMO MEDICI 72/C TORINO 10145           7
indirizzo: VIA MONTE NERO 5 bis TORINO 10154              6
indirizzo: VIA CIBRARIO 33 bis TORINO 10143               4
indirizzo: VIA BURIASCO 2 sc. B TORINO 10135              2
indirizzo: VIA S.FRANCESCO DA PAOLA 38/D TORINO 10123     1
indirizzo: VIA A. BADINI CONFALONIERI 82 TORINO 10148     5
indirizzo: VIA C. NEGARVILLE 25/C TORINO 10135            3
indirizzo: VIA C.I. GIULIO 2 TORINO 10122                 1
indirizzo: VIA S. CLEMENTE 3 TORINO 10143                 4
indirizzo: VIA G. BOCCARDO 2 TORINO 10147                 5
indirizzo: VIA C. NEGARVILLE 25/C TORINO 10135            3

Gli errori sembrano un misto tra abbreviazioni e indirizzo con bis / scala che mandano in confusione mapbox. Oltre a creare nuove regole in fixups.py conviene anche provare a passare un bounding box all'api di mapbox in modo che al posto di risolvere a caso non risolva e renda il problema visibile.

Ridotti a

indirizzo: CORSO BELGIO 86 int. 11 TORINO 10153           7
indirizzo: VIA CAVOUR 8 sc. C TORINO 10123                1
indirizzo: CORSO FILIPPO TURATI 15 sc. G TORINO 10128     3
indirizzo: PIAZZA P.F. GUALA 135 bis TORINO 10135         8
indirizzo: VIA ABATE A.M. VASSALLI EANDI 29 TORINO 10138  3
indirizzo: CORSO G. AGNELLI 56 TORINO 10137               2
indirizzo: VIA BURIASCO 2 sc. B TORINO 10135              2
indirizzo: VIA G. GIOLITTI 37 TORINO 10123                1
indirizzo: CORSO A. DE GASPERI 6 TORINO 10129             8
indirizzo: VIA DON L. MURIALDO 39 TORINO 10142            3
indirizzo: VIA C. NEGARVILLE 25/C TORINO 10135            3
indirizzo: VIA C.I. GIULIO 2 TORINO 10122                 1
indirizzo: VIA S. CLEMENTE 3 TORINO 10143                 4
indirizzo: VIA G. BOCCARDO 2 TORINO 10147                 5

Come sistemare:

  • espandere in fixups.py nel caso dei nomi puntati
  • espandere sc. in scala
  • togliere int. \d+ (o se c'è capire come sta scritto su openstreetmap)

Ridotte a queste, ora sono geolocalizzate male ma tutte in provincia di Torino:

indirizzo: CORSO G. AGNELLI 56 TORINO 10137               2
indirizzo: VIA S. CLEMENTE 3 TORINO 10143                 4
indirizzo: VIA C.I. GIULIO 2 TORINO 10122                 1
indirizzo: CORSO A. DE GASPERI 6 TORINO 10129             8
indirizzo: VIA G. GIOLITTI 37 TORINO 10123                1
indirizzo: VIA DON L. MURIALDO 39 TORINO 10142            3
indirizzo: VIA G. BOCCARDO 2 TORINO 10147                 5