[performance] comma

Question

[performance] comma

davebulaval opened this issue 4 years ago · comments

Addresses with comma seem to lower performance.

from deepparse.parser import AddressParser

dp = AddressParser(model="bpemb", device=0)

dp("2020 boul. René-Lévesques, Montréal, QC, Canada", with_prob=True).address_parsed_components
#> [('2020', ('PostalCode', 0.8566)),
#>  ('boul.', ('Province', 0.7204)),
#>  ('René-Lévesques,', ('StreetName', 0.7636)),
#>  ('Montréal,', ('StreetName', 0.9614)),
#>  ('QC,', ('StreetName', 0.7382)),
#>  ('Canada', ('Province', 0.5126))]


parsed_address = address_parser("2020 boul. René-Lévesques Montréal QC", with_prob=True)

>>> print(parsed_address.address_parsed_components)

[('2020', ('PostalCode', 0.9467)), ('boul.', ('StreetName', 0.9895)), ('René-Lévesques', ('StreetName', 0.9602)), ('Montréal', ('Municipality', 0.9965)), ('QC', ('Province', 0.9999))]

David Beauchemin · Answer 1 · Wed Oct 28 2020 04:33:45 GMT+0800 (China Standard Time)

From our training dataset, less than 0,006% of our address contains at least a comma.

David Beauchemin · Answer 2 · Tue Nov 03 2020 05:04:41 GMT+0800 (China Standard Time)

Fixed using the removal of ,. Will improve robustness in further models.