广东省东莞市莞城区东莞大道解析错误的问题

Question

datochan opened this issue 6 years ago · comments

原先地址是: 广东省东莞市莞城区东莞大道海雅百货
解析的结果是:

区    市    省            地址
城区  东莞市  广东省  莞大道海雅百货自然堂专柜

陈俊州 · Answer 1 · Mon Sep 17 2018 18:40:53 GMT+0800 (China Standard Time)

😭 被领导骂的好惨, 哈哈 ...

DQYuan · Answer 2 · Mon Sep 17 2018 19:12:57 GMT+0800 (China Standard Time)

我周末看看，对苛求100%准确的场景，还是最后再人工检查一下比较好 o(╥﹏╥)o

陈俊州 · Answer 3 · Mon Sep 17 2018 21:34:25 GMT+0800 (China Standard Time)

是哇，是哇。应该要检查一遍的。

这种错误不只有东莞，还有不少的。比如:

浙江省杭州市下城区青云街40号3楼

解析成了:

区    市    省            地址
城区  杭州市  浙江省  下青云街40号3楼

感觉应该是分词的问题, 去掉HMM之后用完整词库匹配可能会好些~~

DQYuan · Answer 4 · Thu Sep 27 2018 01:46:27 GMT+0800 (China Standard Time)

pip install -U cpca更新一下
我增加了一个全文模式，可以解决这个问题：

location_str = ["浙江省杭州市下城区青云街40号3楼","广东省东莞市莞城区东莞大道海雅百货"]
from cpca import *
df = transform(location_str, cut=False)
df

输出结果：

     区    市    省        地址
0   下城区  杭州市  浙江省  青云街40号3楼
1   莞城区  东莞市  广东省    大道海雅百货

在要求准确率的情况下可以使用这个模式。
此外可以设置前看字符的数量来提高效率（默认是8，效率可能比较低）：

location_str = ["浙江省杭州市下城区青云街40号3楼","广东省东莞市莞城区东莞大道海雅百货"]
from cpca import *
df = transform(location_str, cut=False, lookahead=3)
df

陈俊州 · Answer 5 · Fri Sep 28 2018 10:14:34 GMT+0800 (China Standard Time)

@DQinYuan
收到，多谢~

emgbb · Answer 6 · Wed Jul 15 2020 01:12:33 GMT+0800 (China Standard Time)

奇怪，我最新安装的cpca版本广东省东莞市莞城区东莞大道海雅百货这个地址实验后，又变成以前的问题了