RangeError: Maximum call stack size exceeded

Question

peakji opened this issue 11 years ago · comments

Hi! 感谢开源这么棒的分词工具供大家学习〜

我今天尝试生成了一个70万词的字典，loadDict没有问题，但随便doSegment一个短语后，直接报错栈爆了...

LEI Zongmin · Answer 1 · Thu May 02 2013 15:40:05 GMT+0800 (China Standard Time)

能贴详细的出错堆栈信息上来么？

Yichao 'Peak' Ji · Answer 2 · Thu May 02 2013 20:46:45 GMT+0800 (China Standard Time)

感谢回复~
出错起始在DictTokenizer.js的getChunks。字典很大时，290行处var chunks = getChunks(wordpos, nextcur);的递归太深了。

报错信息如下：

/lib/module/DictTokenizer.js:282
  for (var i in words) {
                ^
RangeError: Maximum call stack size exceeded

LEI Zongmin · Answer 3 · Thu May 02 2013 22:19:00 GMT+0800 (China Standard Time)

能否发一份你生成的“ 70万词的字典 ”以及你 测试用的文本 到我的邮箱？这样我也方便调试
邮箱： leizongmin@gmail.com

Yichao 'Peak' Ji · Answer 4 · Thu May 02 2013 22:32:55 GMT+0800 (China Standard Time)

测试用的就是项目里的test.js，后来随便试了几个都不行，估计与输入关系不大。
字典是我随便从搜狗语料库切的一堆无意义词，只是用来做效率测试~ 可以从这里下载：http://www.sogou.com/labs/dl/c.html (gmail附件容量太小发不了...)

Yichao 'Peak' Ji · Answer 5 · Sun May 05 2013 22:42:57 GMT+0800 (China Standard Time)

我测试了下，目前字典的极限大小应该是25w词。要突破这个限制估计必须改动逻辑了

LEI Zongmin · Answer 6 · Mon May 06 2013 11:50:01 GMT+0800 (China Standard Time)

我随便生成100W+的无意义词，测试也没有出错呐。
求 你测试用的文本 以及词典

你就发个25W词的（能引起出错就行，25W估计也就10M空间）
还有具体的测试文本

Yichao 'Peak' Ji · Answer 7 · Mon May 06 2013 12:44:34 GMT+0800 (China Standard Time)

辛苦啦！我生成了一份小一点的字典，我这边同样出错。见邮箱附件~
测试用的就是项目里的test.js，无改动。

如有什么我能帮忙的请一定告诉我;-)

LEI Zongmin · Answer 8 · Mon May 06 2013 13:13:38 GMT+0800 (China Standard Time)

Bug已修复。
是由于你的字典文件中有一个空白的词条|0x00000008|900000，导致分出的单词中有一个是空白的，于是在getChunks()函数中就不断地嵌套调用。

LEI Zongmin · Answer 9 · Mon May 06 2013 13:15:21 GMT+0800 (China Standard Time)

这个问题与“ 词库的极限容量 ”无关

Yichao 'Peak' Ji · Answer 10 · Mon May 06 2013 13:24:17 GMT+0800 (China Standard Time)

原来是这样！哈哈我丢人了=___=

LEI Zongmin · Answer 11 · Mon May 06 2013 13:29:34 GMT+0800 (China Standard Time)

你也木神马丢人的，这是node-segment的一个Bu个，应该是我觉得惭愧。

可能是你在转换词库的过程中，有些特殊字符（或者GBK编码神马的）转成UTF8后就变成了空白字符导致的。
我一开始就问你要你的词库，早给我就早解决嘛。

Yichao 'Peak' Ji · Answer 12 · Mon May 06 2013 13:47:45 GMT+0800 (China Standard Time)

嗯嗯，一开始我是想测试效率，词都弄成了很长的无意义回文词和子串，于是字典巨大...
刚才我看了，确实是我的词典生成脚本的问题。

性能很赞，分词效果不错！学习啦〜