spark的rdd中分词结果使用的自定义字典不生效

Question

spark的rdd中分词结果使用的自定义字典不生效

nandily opened this issue 5 years ago · comments

使用ansj_seg5.1.6
使用DicLibrary.insertOrCreate("dish", "酸汤鱼", "userDefine", 10000)添加自定义字典。
当在命令行中直接使用DicAnalysis.parse("酸汤鱼大份")时能够分词得到 “酸汤鱼|大|份”。
但是将分词过程放在rdd中处理时sc.textFile("").map(e=>DicAnalysis.parse(e))时得到的分词结果变成了“酸|汤|鱼|大|份”。

ansj · Answer 1 · Thu Jan 09 2020 09:46:28 GMT+0800 (China Standard Time)

parse的时候指定词典试试在2020年01月09日 09:44，nandily 写道：使用ansj_seg5.1.6 使用DicLibrary.insertOrCreate("dish", "酸汤鱼", "userDefine", 10000)添加自定义字典。当在命令行中直接使用DicAnalysis.parse("酸汤鱼大份")时能够分词得到 “酸汤鱼|大|份”。但是将分词过程放在rdd中处理时sc.textFile("").map(e=>DicAnalysis.parse(e))时得到的分词结果变成了“酸|汤|鱼|大|份”。 — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

nandily · Answer 2 · Thu Jan 09 2020 10:36:41 GMT+0800 (China Standard Time)

parse的时候指定词典试试在2020年01月09日 09:44，nandily 写道：使用ansj_seg5.1.6 使用DicLibrary.insertOrCreate("dish", "酸汤鱼", "userDefine", 10000)添加自定义字典。当在命令行中直接使用DicAnalysis.parse("酸汤鱼大份")时能够分词得到 “酸汤鱼|大|份”。但是将分词过程放在rdd中处理时sc.textFile("").map(e=>DicAnalysis.parse(e))时得到的分词结果变成了“酸|汤|鱼|大|份”。 — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

试了一下parse的时候指定词典sc.textFile("").map(e=>DicAnalysis.parse(e, DicLibrary.get("dish")))，自定义的字典还是没起作用，分词结果还是“酸|汤|鱼|大|份”。
然后了一下把字典加载过程放到rdd的map中，
sc.textFile("").map(e=>{
DicLibrary.insertOrCreate("dish", "酸汤鱼", "userDefine", 10000)
DicAnalysis.parse(e)})
这样分词结果就正确了，程序的速度就慢了，每次map都要加载一次字典

ansj · Answer 3 · Thu Jan 09 2020 11:53:49 GMT+0800 (China Standard Time)

应该是别的机器上没有初始化词典。你凡凡issue 以前有人问过。貌似得序列化传过去。不想加载的话

…

On Jan 9, 2020, at 10:36 AM, nandily ***@***.***> wrote: parse的时候指定词典试试在2020年01月09日 09:44，nandily 写道：使用ansj_seg5.1.6 使用DicLibrary.insertOrCreate("dish", "酸汤鱼", "userDefine", 10000)添加自定义字典。当在命令行中直接使用DicAnalysis.parse("酸汤鱼大份")时能够分词得到 “酸汤鱼|大|份”。但是将分词过程放在rdd中处理时sc.textFile("").map(e=>DicAnalysis.parse(e))时得到的分词结果变成了“酸|汤|鱼|大|份”。 — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe. 试了一下parse的时候指定词典sc.textFile("").map(e=>DicAnalysis.parse(e, DicLibrary.get("dish")))，自定义的字典还是没起作用，分词结果还是“酸|汤|鱼|大|份”。然后了一下把字典加载过程放到rdd的map中， sc.textFile("").map(e=>{ DicLibrary.insertOrCreate("dish", "酸汤鱼", "userDefine", 10000) DicAnalysis.parse(e)}) 这样分词结果就正确了，程序的速度就慢了，每次map都要加载一次字典 — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#742?email_source=notifications&email_token=AAJKKO2PZAJRYYKLRFS44WLQ42ETTA5CNFSM4KEREPBKYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEIOXC3I#issuecomment-572354925>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AAJKKO4LCEO2XUU6XJ7WEDDQ42ETTANCNFSM4KEREPBA>.

spark的rdd中分词结果 使用的自定义字典不生效

spark的rdd中分词结果使用的自定义字典不生效