我们实验室正在做一个与英语口语考试相关的项目。现在使用的语料是实验室自己采集和标注的。有300个音频,每个1分钟多,总时长5个多小时。任务是朗读文本,受试是初中三年级学生。
因为研究的需要,要总结错误类型和易犯错误的单词。(通常,我们都在音素级来考虑这个问题,比如/ae/容易发错,或者/n/,/l/混淆。但是,现在需要从单词级别来考虑这个问题。)
我听了朗读音频,有的读得很一般,有的甚至很难听出是英文。我根据speech error analysis常用的一些定义,总结了8个错误类型,如substituition (比如有的孩子所有以p开头的单词,像protect, problem, possible都读成people,或者哼哼唧唧一带而过);Insertation (读的过程中插入一个单词或者un, er等);Deletion(漏读了一个或者几个单词)等等。根据标注的语料,这些错误类型基本上可以概括在非音素级别产生的错误。但是,现在需要解决的问题是,什么样的单词容易产生这样的错误?什么原因导致产生了这些错误?
根据我目前粗浅的认识,我大概想到了以下几个方面:
1.频率相对低的词:比如the和Atlantic,后者容易出问题;-frequency
2.后学习的词:比如publish,假设他初一就学到了,即使publish词频低一些,发音难一些,但是还是可以读对。 -pre-emption
我觉得这两点和语言学习本身有关,也是usage-based model所提到的两点核心概念。不过通常先学高频词后低频,可能frequency也可以代表学习顺序了。
3. 词长,音节数:心理语言学有一些speech production的研究说,词长对言语产出有影响,词长的可能也容易读错。(一般低频词比较长,不过也不一定)
4.含有易犯错误因素的单词,比如/ae/发不对,那么pat应该读不对了
根据这些因素,采用回归分析可以得到哪些单词比较容易读错。
大家觉得这些点够不够呢?理由够充分么?还有没有其他因素呢?
因为研究的需要,要总结错误类型和易犯错误的单词。(通常,我们都在音素级来考虑这个问题,比如/ae/容易发错,或者/n/,/l/混淆。但是,现在需要从单词级别来考虑这个问题。)
我听了朗读音频,有的读得很一般,有的甚至很难听出是英文。我根据speech error analysis常用的一些定义,总结了8个错误类型,如substituition (比如有的孩子所有以p开头的单词,像protect, problem, possible都读成people,或者哼哼唧唧一带而过);Insertation (读的过程中插入一个单词或者un, er等);Deletion(漏读了一个或者几个单词)等等。根据标注的语料,这些错误类型基本上可以概括在非音素级别产生的错误。但是,现在需要解决的问题是,什么样的单词容易产生这样的错误?什么原因导致产生了这些错误?
根据我目前粗浅的认识,我大概想到了以下几个方面:
1.频率相对低的词:比如the和Atlantic,后者容易出问题;-frequency
2.后学习的词:比如publish,假设他初一就学到了,即使publish词频低一些,发音难一些,但是还是可以读对。 -pre-emption
我觉得这两点和语言学习本身有关,也是usage-based model所提到的两点核心概念。不过通常先学高频词后低频,可能frequency也可以代表学习顺序了。
3. 词长,音节数:心理语言学有一些speech production的研究说,词长对言语产出有影响,词长的可能也容易读错。(一般低频词比较长,不过也不一定)
4.含有易犯错误因素的单词,比如/ae/发不对,那么pat应该读不对了
根据这些因素,采用回归分析可以得到哪些单词比较容易读错。
大家觉得这些点够不够呢?理由够充分么?还有没有其他因素呢?