回复: 08外研社暑期语料库研修班光盘内容
梁茂成教授有相关的介绍文章会在《外语电化教学》上发表:
“文本分析工具PatCount在外语教学与研究中的应用”
PatCount是由北京外国语大学中国外语教育研究中心语言工程研究室最近开发的一种免费文本分析工具。由于这种工具合理地利用了功能强大的正则表达式引擎,可以根据使用者的需要,对大量文本中的词汇、句法甚至语篇层面上的多种语言特征进行有效的分析和统计,因而在外语教学和研究领域具有广阔的应用前景。本文主要介绍这种文本分析工具的基本功能,并对该软件在外语教学和研究领域的应用进行简要说明。
PatCount合理地利用了当代自然语言处理领域的模式匹配技术,汲取了词汇分析软件Range的部分特点,并在此基础上把词汇层面的分析扩展到句法层面的分析(如本文介绍的被动语态、进行时态等),极大地提高了文本分析的效率,且其模式的可编辑性使得该工具可以满足外语教学和研究中的多种需要。PatCount是中介语对比分析方法和计算机辅助错误分析方法的强大助手,对于推动语料库研究方法的发展具有十分重要的意义。此外,PatCount支持汉语,这使得它具有更大的潜在应用前景。
许注:PatCount = Pattern Counting tool
RANGE BNC版所用基础词表是基于1千万的BNC口语语料库的
‘These fourteen basewrd lists are the ones made using family frequency figures from the 10 million token spoken section of the British National Corpus (BNC). Basewrd15 is an ever-growing list of proper nouns. Basewrd16 is a list containing four headwords which include most interjections, exclamations, hesitation procedure etc which are common in spoken English. The first 14 lists each contain exactly 1000 word families’.