standford parser出现的新问题

maggie0300

初级会员
我用stanford parser对2000篇文章进行parse,开始我把每500篇合成一个文档进行parse.第一和第二个500篇的合成文档的速度,大概是3800多个句子,用时20小时。但现在我再去处理第三个合成的500篇时,就提示
*** WARNING!! OUT OF MEMORY! THERE WAS NOT ENOUGH ***
*** MEMORY TO RUN ALL PARSERS. EITHER GIVE THE ***
*** JVM MORE MEMORY, SET THE MAXIMUM SENTENCE ***
*** LENGTH WITH -maxLength, OR PERHAPS YOU ARE ***
*** HAPPY TO HAVE THE PARSER FALL BACK TO USING
** *A SIMPLER PARSER FOR VERY LONG SENTENCES.

Exception in thread "main" java.lang.RuntimeException: CANNOT EVEN CREATE ARRAYS
OF ORIGINAL SIZE!!
这样的错误,我再减少文档的文章数,从500到19,仍然有相同的错误提示。请问大家知道是什么原因吗?要怎么样解决?我这三次parse之间间隔了一段时间,并不是连续运行的。多谢了!
 
回复: standford parser出现的新问题

试一下完全重新运行parser,有些程序不能“错上加错”。如果完全退出parser后再运行,还是发现处理少量的文本又出错,可能是文本中有不支持的字符。
 
Back
顶部