[推荐]聚类词语表下载--澜科语言科技中心

报刊阅读课的取材通常可分为两种:利用现成的教材,往往是按话题或类别收集相关报刊杂志的文章,缺陷是更新太慢,内容陈旧,不能及时反映当前时事热点和社会发展状况。第二种随时现场取材,以近期甚至当天的报刊为材料,及时生鲜。但真正实现起来,特别是当希望电子备课、批量备课时,有较大难度,单凭手工操作,很难保证教学素材的时效性。

目前报刊阅读课素材的关键问题在于如何快速准确地获得相关话题聚类后的文章集合。所谓“相关主题的报刊文章”,指的就是与某一话题相关的同类文章,相当于网页的“同主题文章”或“相关链接”,因此,这一个问题也就是报刊语料的话题聚类。师生共同选择一个感兴趣的话题后,利用现成的分类语料库或语料采集软件应该能够即时获得该话题的相关文集语料。本质上,这是一个文本分类和聚类的问题。

已经构建了一个超大规模的分类语料库,分类后的语料库共100万个文件,约10亿字。分类主题层级最多为4级,如“科技_电脑_软件_操作系统”,大类15类,总共类目两百多个,小类具体到某个主题(话题),如“体育-运动会-奥运会”。

在此基础上,已经实现了一个层级多标记、自适应的文本分类系统。系统不仅可以完成上面所说的层级分类(244个),能为类目交叉的文本标记上多个类目名称,取得了92%以上的准确率和召回率。而且还能够根据用户需求,动态增加用户自定义的类目主题。同时,文本分类系统集成了主题词自动标引模块,能为文章自动标注上反映文章核心内容的主题词(以关键词表示),如一篇题为《万科处心积虑‘打’广州 已经获取大片土地储备》的文章,交给系统处理后,输出标引结果为“房地产、万科、土地储备”(约80%的专家认可率)。这一模块可以补充分类系统,提供非常细致的主题的文本聚类功能。

话题词簇根据其在该话题领域中的流通程度或使用频率可划分为两类:

A.描述该话题所必须的、常见的词语,我们称之为话题通用词。例如:垒球的话题通用词可能包括“球员、球队、比赛、得分、教练、手套、安打、垒……”。

B.该话题领域专用的词语,我们称之为话题术语词。例如:垒球的话题术语词可能包括“安全打、安全上垒、二垒、二垒打、后摆投球法、绕环投球法、牺牲打、正面投球法……”。

报刊新闻有很多与该新闻话题相关的领域词(该话题领域的词),有的甚至是该领域的术语。虽然报刊阅读课可能并不要求学生完全掌握,但我们还是希望该话题领域中最基本、最常用的那些词语能为学生掌握,以后他们遇到相同话题时就能基本进行阅读,而那些话题领域性太强的术语可以作为阅读课的背景知识为学生了解即可。

因此,如何按照话题聚集该领域的相关词语,并根据其领域流通度(领域使用频率)划分话题通用词和话题术语词是该问题的核心。实际上,该问题又可分为两个子问题:

A:话题词语聚类;B:话题词语分级

实际上,这也是一个词语聚类的问题,我们已经很好地解决了(举例的话题及其词簇词语就是来自我们自动聚类的词表)。

利用上述计算技术,正在进行报刊阅读课的平面和电子教材编写。
 
三楼有这个网站上自己开发的词语切分系统么?能否传一个上来看一下?谢谢!这个团队基于语料库建设的各项汉语研究和考试项目开发很不错!
 
Back
顶部