后 后来者 2011-01-11 #1 请问,用语料库研修班的软件corpus processing tookit 标注词性,文本需用什么格式? anisi 的文本格式怎么不显示啊?用这个软件标注词性准确率怎么样?谢谢回答!
xujiajin 管理员 Staff member 2011-01-11 #2 回复: corpus processing tookit ANSI肯定是没问题,有可能是你的文本不合法,比如其中有中文,或全角字符等等。 其中的tagger应该是treetagger,所以尽可使用。
后 后来者 2011-01-18 #3 回复: corpus processing tookit 许老师, 我在整理文本保存时,屏幕上出现“xx txt.可能包含与纯文本格式不兼容的功能。是否保存为这种格式?”这样的文字,是不是你说的问题? 那如何找出非法格式并去掉呢?
回复: corpus processing tookit 许老师, 我在整理文本保存时,屏幕上出现“xx txt.可能包含与纯文本格式不兼容的功能。是否保存为这种格式?”这样的文字,是不是你说的问题? 那如何找出非法格式并去掉呢?
xujiajin 管理员 Staff member 2011-01-18 #4 回复: corpus processing tookit 论坛上有很多高手,你发一个文本上来,大家帮你看看。否则你说文本有问题,大家也不知道怎么回事。
xujiajin 管理员 Staff member 2011-01-19 #6 回复: corpus processing tookit <TEXT> <HEAD><TOPIC>1</TOPIC><LANGUAGE>ARABIC</LANGUAGE><LEVEL>7</LEVEL></HEAD> <BODY> </BODY> </TEXT> 你标注时应该将这些先去掉,标注完再加上去。
回复: corpus processing tookit <TEXT> <HEAD><TOPIC>1</TOPIC><LANGUAGE>ARABIC</LANGUAGE><LEVEL>7</LEVEL></HEAD> <BODY> </BODY> </TEXT> 你标注时应该将这些先去掉,标注完再加上去。
后 后来者 2011-01-22 #9 回复: corpus processing tookit 许老师,我用的是corpus-processing-toolkit.exe的POS tagger, 我曾经试过,可以tokenize, segment, ,POS tag,现在怎么不行了呢?谢谢!
回复: corpus processing tookit 许老师,我用的是corpus-processing-toolkit.exe的POS tagger, 我曾经试过,可以tokenize, segment, ,POS tag,现在怎么不行了呢?谢谢!
后 后来者 2011-01-22 #10 回复: corpus processing tookit 许老师, 我试了treetagger,标注后的文件'xx.out'在打开时显示‘无法打开此文件’,还要下载OUT file tool? 谢谢!
后 后来者 2011-01-23 #12 回复: corpus processing tookit 许老师,好像原来标注好的文本是xx pos.现在怎么成了xx.out? 和使用的电脑版本有关吗?我现在用的是window 07,过去用的是XP
xujiajin 管理员 Staff member 2011-01-23 #13 回复: corpus processing tookit 你出现的问题,可能跟Win7系统有关。因为原因不详,目前也没有解决办,建议在XP系统下操作试试。
后 后来者 2011-01-24 #14 回复: corpus processing toolkit 好的,另外, 使用corpus-processing-tooklkit.exe和使用treetagger 都可以吗?没有什么不同吗?记得参加培训班时只听您讲过前一种。不过后一种也挺好操作。谢谢回答
回复: corpus processing toolkit 好的,另外, 使用corpus-processing-tooklkit.exe和使用treetagger 都可以吗?没有什么不同吗?记得参加培训班时只听您讲过前一种。不过后一种也挺好操作。谢谢回答