语料库语言学是20世纪80年代才崭露头角的一门交叉学科,它研究自然语言文本的采集、存储、加工和统计分析,目的是凭借大规模语料库提供的客观翔实的语言证据来从事语言学研究和指导自然语言信息处理系统的开发。随着互联网的爆炸式增长,中文语料库的规模也随之剧增。语言学的研究面临着各类复杂的海量数据,亟需采用信息化的手段,自动分析相关的语言数据,从而更好地研究并开发使用的自然语言信息处理系统。
LJCorpus中文语料库分析软件是一套专门针对中文生语料库的加工、抽取、统计与翻译全自动的综合语料分析系统,应用了领先的汉语词法分析技术、新词发现技术、统计挖掘技术以及词语翻译对齐技术,目前,东北师范大学中文系已经成功应用该软件对新加坡的语言进行了分析,极大提高了研究的效率。
LJCorpus中文语料库分析软件的四大功能主要包括:
1. 新词发现:
从给定的大规模文本文件集合中,挖掘出内涵的新词语列表,可以用于用户专业词典的编撰。识别出的新词结果还可以进一步编辑标注,编辑好的新词词典,可以作为专业知识库导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化情况。
2. 分词标注:
对生语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。
3. 统计分析
针对切分标注结果,系统可以自动地进行统计分析,分析结果包括:一元词频统计(统计结果可以按照词频、词语两种方式排序;并给出具体的一元概率)、二元词语转移概率统计(统计两个词左右连接的频次即概率)。
4. 术语翻译
针对常用的术语,系统会自动给出相应的英文解释。
相关链接:LJCorpus中文语料库分析软件使用手册
软件下载:http://www.lingjoin.com/LJCorpus.html
LJCorpus中文语料库分析软件是一套专门针对中文生语料库的加工、抽取、统计与翻译全自动的综合语料分析系统,应用了领先的汉语词法分析技术、新词发现技术、统计挖掘技术以及词语翻译对齐技术,目前,东北师范大学中文系已经成功应用该软件对新加坡的语言进行了分析,极大提高了研究的效率。
LJCorpus中文语料库分析软件的四大功能主要包括:
1. 新词发现:
从给定的大规模文本文件集合中,挖掘出内涵的新词语列表,可以用于用户专业词典的编撰。识别出的新词结果还可以进一步编辑标注,编辑好的新词词典,可以作为专业知识库导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化情况。
2. 分词标注:
对生语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。
3. 统计分析
针对切分标注结果,系统可以自动地进行统计分析,分析结果包括:一元词频统计(统计结果可以按照词频、词语两种方式排序;并给出具体的一元概率)、二元词语转移概率统计(统计两个词左右连接的频次即概率)。
4. 术语翻译
针对常用的术语,系统会自动给出相应的英文解释。
相关链接:LJCorpus中文语料库分析软件使用手册
软件下载:http://www.lingjoin.com/LJCorpus.html