MyTxtSegTagTool汉语分词和词性标注工具

#3
回复: SegTag汉语分词和词性标注工具

许博,不知要如何处理才能使用,请指教!出现下列情况:
“应用程序正常初始化失败。请单击‘确定’,终止应用程序。”
 
#4
回复: SegTag汉语分词和词性标注工具

谢谢许博士分享!
xp sp3运行正常,非常好用。可选择是否标注词性、是否启用专名识别、编码方式选择,还可以批处理!
楼上的可能是电脑少了什么程序、插件之类,譬如.Net框架,可以安装试试。
 
#7
回复: SegTag汉语分词和词性标注工具

有个好用的segtag来自Mandel SHI之手。“基于隐马尔科夫模型的分词标注程序,使用PASCAL语言编写-Hidden Markov Model-based sub-word tagging procedures, using the PASCAL language”
 
#11
回复: SegTag汉语分词和词性标注工具

我现在还在用这个做古汉语的切词和标注,切词的结果还不错,标注结果几乎无法使用。可能因为原软件是基于现代汉语训练语料的,对于无法识别的词就逐字断开,由于古汉语(尤其是先秦)几乎是单字成词,因此正好可以用。只是这个词性标注,有老师建议联系原软件作者,修改赋码集。不知道这个可行不?
 

xujiajin

管理员
Staff member
#12
回复: SegTag汉语分词和词性标注工具

不要对于古汉语词性自动标注报太大希望。
这不是软件作者的事,这根本是个语言学问题,汉语的词类还没有探讨清楚,古汉语的词类更不用说了。

目前我们谈论汉语词类都是削足适履的做法,拿印欧语的鞋,套汉语的脚。
 
#13
回复: SegTag汉语分词和词性标注工具

同意12#的看法:“拿印欧语的鞋,套汉语的脚。”这是徐通锵老先生的观点,我一直为这个观点而激动。希望“字本位”思想别因徐老过世而销声匿迹。反正我会坚持的。
 
#14
回复: SegTag汉语分词和词性标注工具

不要对于古汉语词性自动标注报太大希望。
这不是软件作者的事,这根本是个语言学问题,汉语的词类还没有探讨清楚,古汉语的词类更不用说了。

目前我们谈论汉语词类都是削足适履的做法,拿印欧语的鞋,套汉语的脚。

也许许博士说的对,很长一段时间内,古汉语的标注只能手工进行。最近听沈家煊老师的几场讲座,也一直在讲要摆脱印欧语眼光。是的,词类在语言学界一直都没有讨论清楚;所以,其实非常感激标注软件的作者们,他们很不容易。

但是该怎么办呢?语料 库在古汉语研究中该如何应用呢?真的好难
 

xujiajin

管理员
Staff member
#15
回复: SegTag汉语分词和词性标注工具

也许许博士说的对,很长一段时间内,古汉语的标注只能手工进行。最近听沈家煊老师的几场讲座,也一直在讲要摆脱印欧语眼光。是的,词类在语言学界一直都没有讨论清楚;所以,其实非常感激标注软件的作者们,他们很不容易。

但是该怎么办呢?语料 库在古汉语研究中该如何应用呢?真的好难
第一,不分词,汉语语料一样可以用。
第二,你可以采取分字(字间加空格)的方法。
 
#16
回复: SegTag汉语分词和词性标注工具

第一,不分词,汉语语料一样可以用。
第二,你可以采取分字(字间加空格)的方法。
谢谢许博士的建议!对,我应该换一个角度思考,不能纠结于一个我自己无法解决的问题。
 
#19
回复: MyTxtSegTagTool汉语分词和词性标注工具

请问哪里有汉语的词性赋码集呢?很多软件如ICTCLAS,运行后只能看到附码后的text,但是找不到各个汉语词性的含义啊,看上去一头雾水!汉语的赋码集和英语的应该不一样吧?哪位前辈回答一下吧!先行谢过啦!\(^o^)/~
 
顶部