是否有软件自动标注四字词组?

oscar3

高级会员
有一个问题,不知道有没有这样的软件可以自动识别并标注汉语四字词组?
 
回复: 是否有软件自动标注四字词组?

ICTCLAS tags them as "i" (idiom)
 
回复: 是否有软件自动标注四字词组?

使用ACWT中提供的东北大学分词器进行标注,也能得到附码为“/i”的习语。
 
自动标注四字词组小结

前面提问四字词组自动标注,得到了xiaoz和chrisyang的回答。尤其是xiaoz的回答让oscar3找到了解决问题的方法。方法是通过汉语分词标注软件的进行,一般i标注的是四字成语,还不能完全涵盖所有的四字词组,通过观察标注语料,发现“l”可以标注出很多非成语四字词组,尽管其中有少量三字,或者多于四字的临时组合,但是,四字词组为绝大多数,通过手工剔除非四字组合,应该不是很大的问题。
 
回复: 是否有软件自动标注四字词组?

使用海量分词工具进行分词附码,可以得到附码分别为“/i”的成语和“/l”的习语。并且,该工具还可让使用者根据自己的实际研究目的添加词典。
 
回复: 是否有软件自动标注四字词组?

使用ICTCLAS、东北大学分词器、或者海量分词工具等工具进行分词赋码后只能得到这些分词工具词典里已有的短语或成语,对于分词工具中没有收集的短语则无能为力。要拿到全部可能的四字短语,可以考虑使用N-gram工具来自动提取。下面的链接里有几个免费的n-gram工具。不过,由于这些工具都是为处理英文文本开发的,要处理中文文本,注意先要把汉语文本每个汉字前加空格。

http://www.corpus4u.org/showthread.php?t=3489
 
回复: 是否有软件自动标注四字词组?

使用ICTCLAS、东北大学分词器、或者海量分词工具等工具进行分词赋码后只能得到这些分词工具词典里已有的短语或成语,对于分词工具中没有收集的短语则无能为力。要拿到全部可能的四字短语,可以考虑使用N-gram工具来自动提取。下面的链接里有几个免费的n-gram工具。不过,由于这些工具都是为处理英文文本开发的,要处理中文文本,注意先要把汉语文本每个汉字前加空格。

http://www.corpus4u.org/showthread.php?t=3489

谢谢laohong再次出手相助,提出有益的建议。以上小结中提到提取四字词组的方法的确并非滴水不漏。但是,用N-gram(4-gram)的办法提取四字词组可能会带出大量不符合要求的四字组合(非四字词组),手工剔除的工作量会比较大。当然,我还没有做这个实验,做完实验再来向大家汇报。
 
Back
顶部