求助自建语料库步骤

回复: AntConc的另类技巧与Word VBA的小小编程

谢谢李老师,您是高手。

再问下您,关于标准类符形符比,AntConc是否有办法统计?

如果我调查一个文本中直接引语的数量,是否可以用“”+空格的方法在AntConc中统计出来。

谢谢:)

平均词长和平均句子可以用Office Word来统计。平均词长是每个词的字母数量,平均句长是每个句子的单词数量或字母数量。你看我的一个视频就知道Word 2003或Word 2007怎么能统计一个txt或doc文件的句子数量从而被你直接或间接计算出平均词长和平均句长了。
http://v.youku.com/v_show/id_XMjQwMDA4NTg0.html?f=5427313

其中的关键代码是……

Sub 句子总量()
MsgBox ActiveDocument.Sentences.Count
End Sub

Sub 单词总量()
MsgBox ActiveDocument.Words.Count
End Sub

Sub 平均句长的单词版()
MsgBox ActiveDocument.Words.Count / ActiveDocument.Sentences.Count
End Sub

你在Microsoft Word中点“字数统计”,就能看到的“字符数(计空格)”和“字符数(不计空格)”的相差的数量就是空格的数量。所以,单词总量除以“字符数(不计空格)”就是平均每个词的字母数量。

AntConc也能间接计算“句子总量”与“陈述句总量”与“疑问句总量”与“感叹句总量”,其虽然不能统计平均词长,但它是免费且能统计单词总量而间接得到每个词含有的平均字母数量;AntConc虽然不能统计平均句长,但它可以检索“. ”,也就是你检索“句号+空格”的数量就几乎逼近句子总量(陈述句的数量)了,在此基础上你为了更加精确就检索“? ”,也就是“问号+空格”,把这个值跟前一个值加起来就得到句子总量(疑问句的数量)了。同时你检索上述两个值的时候,要注意选择主界面上的“Word”这个选项前面的小方框的勾勾,你应该不要勾上它或取消它,这样就把“问号+空格”当作一个字符串来检索,而不是当作一个word而前后自动加上空格来检索了。
 
回复: 求助自建语料库步骤

type和token的数量都被AntConc能直接统计啦,自己把两个值做个除法就得到“形符类符比”了吧。

“直接引语的数量”的计算过程与方法应该比较复杂,就像本自然段的双引号开头的这个片段也可以算作直接引语,也可以算作不是直接引语。因为,有些人可能认为或者需要把“句子形式的直接引语”才算做“一个直接引语”,另一些人可能认为或需要把“句子或短语或名词形式的片段“都算作直接引语。直接引语的”个数“不仅涉及到”句子或更小的语言单位可否计算为一个“的问题,直接引语的”个数“也涉及到”同一个句子中的不连续的针对同一个人的直接引语是否都整体上计算为一个“。有些时候,我们只是希望凸显一些字眼,也用双引号来包裹住”关键字眼“。

快速观察一下这些网址的网页(直接查看有双引号的网页,注意有些直接引语是单引号哟!):
http://edition.cnn.com/2012/05/21/world/meast/yemen-violence/index.html
http://www.gaystarnews.com/article/gay-suicides-should-be-counted-say-campaigners
http://articles.cnn.com/2012-05-19/...kes-bombings-security-forces?_s=PM:MIDDLEEAST
http://www.foxnews.com/us/2012/07/1...o-200m-fraud-in-suicide-note-prosecutor-says/

有些直接引语的一个连续的片段就包含了多个完整的句子呢,这种片段算是”一个直接引语“?

所以,人工判断也挺复杂的。用AntConc来粗略估计算是”土办法“了,我推荐:用AntConc检索”逗号+双引号“,如果你发现有单引号进行直接引语的”包裹“,你就也检索”逗号+单引号“。

双引号或单引号所标识的直接引语,有些是一个句子中的不连续片段,有些是一个句子中的连续片段,人工审视都费劲呢……
 
回复: 求助自建语料库步骤

李老师您好,我刚接触语料库,现在想分析英语教材里的搭配,要算T值或者MI值,请问AntConc可以实现这些功能吗?谢谢您!
 
回复: 求助自建语料库步骤

李老师您好!能不能再请教您一个问题?

"《综合教程》前四册是为高等院校英语专业一、二年级学生编写的英语基础课教材。本文通过使用语料库检索工具AntConc 3.2.2w 2008版本,以Coxhead的570个学术语词族(AWL)作为匹配对象,检索出《综合教程》第二册单元一共有7个动词不曾在国内高中阶段的教材和大纲出现过,它们分别是:assure,define,establish,integrate,restrain,suspend和sustain。"

这段话里的匹配对象是什么意思?您能看出这个用antconc是怎么实现的吗?
 
Back
顶部