corpus processing tookit

请问,用语料库研修班的软件corpus processing tookit 标注词性,文本需用什么格式? anisi 的文本格式怎么不显示啊?用这个软件标注词性准确率怎么样?谢谢回答!
 

xujiajin

管理员
Staff member
回复: corpus processing tookit

ANSI肯定是没问题,有可能是你的文本不合法,比如其中有中文,或全角字符等等。
其中的tagger应该是treetagger,所以尽可使用。
 
回复: corpus processing tookit

许老师, 我在整理文本保存时,屏幕上出现“xx txt.可能包含与纯文本格式不兼容的功能。是否保存为这种格式?”这样的文字,是不是你说的问题? 那如何找出非法格式并去掉呢?
 

xujiajin

管理员
Staff member
回复: corpus processing tookit

论坛上有很多高手,你发一个文本上来,大家帮你看看。否则你说文本有问题,大家也不知道怎么回事。
 

xujiajin

管理员
Staff member
回复: corpus processing tookit

<TEXT>
<HEAD><TOPIC>1</TOPIC><LANGUAGE>ARABIC</LANGUAGE><LEVEL>7</LEVEL></HEAD>
<BODY>
</BODY>
</TEXT>

你标注时应该将这些先去掉,标注完再加上去。
 

xujiajin

管理员
Staff member
回复: corpus processing tookit

我看了,没发现其他问题。
你用Treetagger试了吗?
 
回复: corpus processing tookit

许老师,我用的是corpus-processing-toolkit.exe的POS tagger, 我曾经试过,可以tokenize, segment, ,POS tag,现在怎么不行了呢?谢谢!
 
回复: corpus processing tookit

许老师, 我试了treetagger,标注后的文件'xx.out'在打开时显示‘无法打开此文件’,还要下载OUT file tool? 谢谢!
 
回复: corpus processing tookit

许老师,好像原来标注好的文本是xx pos.现在怎么成了xx.out? 和使用的电脑版本有关吗?我现在用的是window 07,过去用的是XP
 

xujiajin

管理员
Staff member
回复: corpus processing tookit

你出现的问题,可能跟Win7系统有关。因为原因不详,目前也没有解决办,建议在XP系统下操作试试。
 
回复: corpus processing toolkit

好的,另外, 使用corpus-processing-tooklkit.exe和使用treetagger 都可以吗?没有什么不同吗?记得参加培训班时只听您讲过前一种。不过后一种也挺好操作。谢谢回答
 
顶部