大家帮帮忙,看我下一步该怎么办,实在进行不下去了

我想考查两套英语教材每册的单词在每册的课文中的复现率。现在已经有了课文语料库和单词语料库。然后我把每册的单词做成一个wordlist词表,再把每册的课文作成wordlist词表,然后只需要用wordsmith里wordlist中的detailed consistency功能就可以对比这两个词表,得出单词在课文中的出现次数。
但是这存在一个问题,因为单词表中的单词全部都是原形,而课文中的单词不可能都是原形,有很多曲折变化。
所以我想到了两种方法,第一就是把课文中的所有曲折变化全部归为原形,就是lemmatization. 但是,在wordsmith中实现不了,因为wordsmith有这样一个“缺点”:当语料库中没有那个原形的词出现的时候,而只出现了它的曲折变化词的时候,wordsmith无法对这个词进行lemmatization. 比如说,如果有abandon,abandons,abandoning,abandoned,那么可以得出结果abandon出现4次。但如果只有abandons,abandoning,abandoned,而没有abandon, 那么wordsmith就把它们看成三个不同的词了。这个缺点在ANTCONC中不存在,它可以进行很好的lemmatization,但是好像ANTCONC又无法作wordlist中的detailed consistency, 所以哦我很郁闷。
然后我就想了第二种办法,就是既然我不能把课文进行削尾处理,那么我就把单词表丰富了也行啊。我就想把它丰富成各种曲折变化的形势。然后放入课文中考查复线率。但是这种方法貌似很笨。
ANTCONC中有没有对比两个词表的功能呢?就是类似于wordlist中的detailed consistency功能,有的话就太好了,但是我找不到阿。
各位学长和老师们帮帮忙,据你们所知,ANTCONC中有没有对比两个词表的功能呢?就是类似于wordlist中的detailed consistency功能,有的话就太好了,但是我找不到阿。

不知道各位C友还有没有更好的办法?我相信众人的智慧怎么也胜过我这个臭皮匠拉。
 
回复: 大家帮帮忙,看我下一步该怎么办,实在进行不下去了

我的愚见:
如果像你希望的东西出现,那是好,如果不是的话,我可能会这样做:
削尾后的课文wordlist 放在text 文本,作为小语料,再用WordSmith去检索,*s/*ing/*ed
看都是什么词没被削,然后手动....如此这般......
可能这个方法笨,要试试吗?
 
回复: 大家帮帮忙,看我下一步该怎么办,实在进行不下去了

我的愚见:
如果像你希望的东西出现,那是好,如果不是的话,我可能会这样做:
削尾后的课文wordlist 放在text 文本,作为小语料,再用WordSmith去检索,*s/*ing/*ed
看都是什么词没被削,然后手动....如此这般......
可能这个方法笨,要试试吗?

谢谢你,我现在用的方法里有你说的这一步。呵呵,我是被一位高人指点后看了本《EXCEL在语言研究中的应用》一书,这本书很好呢。我是先用ANTCONC做出削尾后的词表,然后按你说的把没削的进行手动削尾,然后把它和生词表放到EXCEL中用公式进行比对的,也很方便简洁。:)
 
回复: 大家帮帮忙,看我下一步该怎么办,实在进行不下去了

谢谢你,我现在用的方法里有你说的这一步。呵呵,我是被一位高人指点后看了本《EXCEL在语言研究中的应用》一书,这本书很好呢。我是先用ANTCONC做出削尾后的词表,然后按你说的把没削的进行手动削尾,然后把它和生词表放到EXCEL中用公式进行比对的,也很方便简洁。:)
没有被削的都是那些词?数量多吗?我很好奇,哪些词会有这种情况,你对比的是什么教材?
 
回复: 大家帮帮忙,看我下一步该怎么办,实在进行不下去了

没有被削的都是那些词?数量多吗?我很好奇,哪些词会有这种情况,你对比的是什么教材?
呵呵,谢谢你的关注。
现在我总是在想出更好的点子然后推翻前一步所做的这么一个过程中。。最近又把前一步推翻了。因为我都用ANTCONC做完了才发现,它和WORDSMITH比起来,准确率真的比较低。同样的词在WORDSMITH中出现20次,但是ANTCONC的结果却是16次,不知道问题出在哪里了。
我决定还是用WORDSMITH,呵呵。而且现在已经把它的问题解决了,(就是那个head的问题,在我前面提到过)。
我做的是比较《新编英语教程》和,《现代大学英语精读》。你也做这方面吗?
 
回复: 大家帮帮忙,看我下一步该怎么办,实在进行不下去了

你可以完成你的目的"两套英语教材每册的单词在每册的课文中的复现率",那么结论将会是??
A教材比B教材好?
我的意思不是贬低,而是觉得可以再干大点,这样的意义可能会更好
 
回复: 大家帮帮忙,看我下一步该怎么办,实在进行不下去了

你可以完成你的目的"两套英语教材每册的单词在每册的课文中的复现率",那么结论将会是??
A教材比B教材好?
我的意思不是贬低,而是觉得可以再干大点,这样的意义可能会更好
恩,对呀。我的目的不是仅此这个,我的研究是基于语料库的对比两套英语专业教材。里面涉及了很多方面,生词的复现率只是其中词汇部分的一个小方面。
 
回复: 大家帮帮忙,看我下一步该怎么办,实在进行不下去了

恩,对呀。我的目的不是仅此这个,我的研究是基于语料库的对比两套英语专业教材。里面涉及了很多方面,生词的复现率只是其中词汇部分的一个小方面。
期待中...请一定要告诉我结论...
另外,请问你的语料是自建的还是怎样获得的呢?:D我好奇的事太多,你现在做到什么层次了呢
 
回复: 大家帮帮忙,看我下一步该怎么办,实在进行不下去了

期待中...请一定要告诉我结论...
另外,请问你的语料是自建的还是怎样获得的呢?:D我好奇的事太多,你现在做到什么层次了呢
好的,等做好了一定和你分享!现在才在做里面的用语料库分析的部分,做完了还要手动分析两套教材中的很多项目,任务还很艰巨啊! :)
语料都是我自己建的啊,费了老大劲了,网上下载+扫描校对。
不知道你现在在做的是什么项目呢?难道和我的差不多?
 
回复: 大家帮帮忙,看我下一步该怎么办,实在进行不下去了

好的,等做好了一定和你分享!现在才在做里面的用语料库分析的部分,做完了还要手动分析两套教材中的很多项目,任务还很艰巨啊! :)
语料都是我自己建的啊,费了老大劲了,网上下载+扫描校对。
不知道你现在在做的是什么项目呢?难道和我的差不多?
以前做过,不过据我所知没<现代>的语料,所以问问,要不我看看我有什么你想要的,我们互相分享一下?
 
回复: 大家帮帮忙,看我下一步该怎么办,实在进行不下去了

以前做过,不过据我所知没<现代>的语料,所以问问,要不我看看我有什么你想要的,我们互相分享一下?
呵呵,你有《新编英语教程》的语料吗?我在网上找过了没有啊,我是自己整理出来的。不知道你的教材语料库里都包括教材哪些方面?
 
回复: 大家帮帮忙,看我下一步该怎么办,实在进行不下去了

你好,我现在在写在职研究生的毕业论文,想研究非英语专业英语教材中的词语搭配研究。我想把课文中的搭配与BNC对比研究,看这套教材是否给学生提供了真实的语境材料,你觉得这样的研究有意义吗?你能给我些指导吗?
 
回复: 大家帮帮忙,看我下一步该怎么办,实在进行不下去了

你好,我现在在写在职研究生的毕业论文,想研究非英语专业英语教材中的词语搭配研究。我想把课文中的搭配与BNC对比研究,看这套教材是否给学生提供了真实的语境材料,你觉得这样的研究有意义吗?你能给我些指导吗?

这样的研究没有意义。教材与BNC肯定是有差距的,不允许编教材时有差距吗?真实的语境又是什么样的呢?不同的教材有不同的出发点、目的和角度,很难有什么统一的标准。
 
回复: 大家帮帮忙,看我下一步该怎么办,实在进行不下去了

楼上说得有理。
 
回复: 大家帮帮忙,看我下一步该怎么办,实在进行不下去了

你好,我现在在写在职研究生的毕业论文,想研究非英语专业英语教材中的词语搭配研究。我想把课文中的搭配与BNC对比研究,看这套教材是否给学生提供了真实的语境材料,你觉得这样的研究有意义吗?你能给我些指导吗?
建议读读这方面的文献,看看人家是怎样做到有意义的,再加上,搭配,你准备做所有搭配吗?太不切实际了
 
回复: 大家帮帮忙,看我下一步该怎么办,实在进行不下去了

求助!!请问谁有CLEC?或者知道如何获得?
在线检索的界面太简单,看不到原文,连子库的名字都不能看全。也不能进行其他处理。本人手上有一个,好像不全。
 
回复: 大家帮帮忙,看我下一步该怎么办,实在进行不下去了

不好意思,没有账户激活的邮件,没有激活账户,所以不能发帖。也不知道如何快速联系管理员,只好采用上面这种方式了!
 
回复: 大家帮帮忙,看我下一步该怎么办,实在进行不下去了

CLEC很便宜的,可以去买一个,或者学校图书馆有,或者同学同事有。Corpus4U不传播有版权的材料。
 
Re: 回复: 大家帮帮忙,看我下一步该怎么办,实在进行不下去了

谢谢你,我现在用的方法里有你说的这一步。呵呵,我是被一位高人指点后看了本《EXCEL在语言研究中的应用》一书,这本书很好呢。我是先用ANTCONC做出削尾后的词表,然后按你说的把没削的进行手动削尾,然后把它和生词表放到EXCEL中用公式进行比对的,也很方便简洁。:)
请问下,搂主是在Excel里面对比2个,或者多个wordlist吧?您说的公式,能大概说一下方法吗?
也就是说不用wordsmith了,只用Excel是吗?
谢谢您的回答
我的研究和您的研究有点类似,现在也是被wordsmith 的lemma 困住了。
 
Back
顶部