求助!怎样把单词表中的单词丰富为它的曲折变化形式?

请问大家,怎样把单词表中的单词丰富为它的曲折变化形式?
比如说一个单词work, 把它丰富为work,works, worked, working这样的基本形式。
用什么软件可以办到呢?
 
回复: 求助!怎样把单词表中的单词丰富为它的曲折变化形式?

lemmatizer

仔细看才发觉你要做的是lemmatizer的反向操作。看来电子版词典如LONGMAN,COLLINS COBUILD比较接近。
 
回复: 求助!怎样把单词表中的单词丰富为它的曲折变化形式?

lemmatizer

仔细看才发觉你要做的是lemmatizer的反向操作。看来电子版词典如LONGMAN,COLLINS COBUILD比较接近。

您是说这些词典的在线版可以做到?它们可以批量的转化吗?
 
回复: 求助!怎样把单词表中的单词丰富为它的曲折变化形式?

lemmatizer

仔细看才发觉你要做的是lemmatizer的反向操作。看来电子版词典如LONGMAN,COLLINS COBUILD比较接近。

我的意思是你在电子词典中查一个词,相关的词形就是自然出来了。
 
回复: 求助!怎样把单词表中的单词丰富为它的曲折变化形式?

谢谢,这个表对我很有用处,谢谢你。
不过我还要再想办法,因为我要转化的是两套教材的生词表,一个一个去对应的话不太现实,我再想想有没有什么程序或者别的软件可以做到。
不知道您还有什么好的建议吗?:)
 
回复: 求助!怎样把单词表中的单词丰富为它的曲折变化形式?

谢谢,这个表对我很有用处,谢谢你。
不过我还要再想办法,因为我要转化的是两套教材的生词表,一个一个去对应的话不太现实,我再想想有没有什么程序或者别的软件可以做到。
不知道您还有什么好的建议吗?:)

啥意思?
检索教材中出现了什么词?哪些词?如果是,用ANTCONC。
 
回复: 求助!怎样把单词表中的单词丰富为它的曲折变化形式?

可能我没有说明白我到底想做的是什么。
我想要做的是这样的:考查两套英语教材每册的单词在每册的课文中的复现率。现在已经有了课文语料库和单词语料库。然后我把每册的单词做成一个wordlist词表,再把每册的课文作成wordlist词表,然后只需要用wordsmith里wordlist中的detailed consistency功能就可以对比这两个词表,得出单词在课文中的出现次数。
但是这存在一个问题,因为单词表中的单词全部都是原形,而课文中的单词不可能都是原形,有很多曲折变化。
所以我想到了两种方法,第一就是把课文中的所有曲折变化全部归为原形,就是lemmatization. 但是,在wordsmith中实现不了,因为wordsmith有这样一个“缺点”:当语料库中没有那个原形的词出现的时候,而只出现了它的曲折变化词的时候,wordsmith无法对这个词进行lemmatization. 比如说,如果有abandon,abandons,abandoning,abandoned,那么可以得出结果abandon出现4次。但如果只有abandons,abandoning,abandoned,而没有abandon, 那么wordsmith就把它们看成三个不同的词了。这个缺点在ANTCONC中不存在,它可以进行很好的lemmatization,但是好像ANTCONC又无法作wordlist中的detailed consistency, 所以哦我很郁闷。
然后我就想了第二种办法,就是既然我不能把课文进行削尾处理,那么我就把单词表丰富了也行啊。我就想把它丰富成各种曲折变化的形势。然后放入课文中考查复线率。但是这种方法貌似很笨。
ANTCONC中有没有对比两个词表的功能呢?就是类似于wordlist中的detailed consistency功能,有的话就太好了,但是我找不到阿。
 
回复: 求助!怎样把单词表中的单词丰富为它的曲折变化形式?

你都说了detailed consistency功能,最简单的那就用WST。WST是有词目归并的功能的。或者看郑泽芝的《EXCEL在语言研究中的应用》(南京大学出版社)一书,直接用词表在EXCEL对比,里面有跟你做的几乎一模一样的研究。
 
回复: 求助!怎样把单词表中的单词丰富为它的曲折变化形式?

你都说了detailed consistency功能,最简单的那就用WST。WST是有词目归并的功能的。或者看郑泽芝的《EXCEL在语言研究中的应用》(南京大学出版社)一书,直接用词表在EXCEL对比,里面有跟你做的几乎一模一样的研究。
很感谢 seanxpq 的宝贵建议,我会马上买到这本书仔细去读的。:)
 
回复: 求助!怎样把单词表中的单词丰富为它的曲折变化形式?

http://www.lextutor.ca/familizer/
我想这个也许对你有用
它能丰富你的词形。输入work:出现work worked worker workers working workings works workman workmen workable unworkable

你好,谢谢你的建议,但是这个网站我原来登过,是许老师在别的帖子上给的网站。 但是这个好是好,可是它给出的形式太多了,已经超出了基本的曲折变化形式。呵呵,不过还是谢谢你哦~
 
回复: 求助!怎样把单词表中的单词丰富为它的曲折变化形式?

huan870224你好,我现在也在做一个类似的研究,是考察大纲中规定的词汇有多少出现在要评估的教材中,我现在也遇到了跟你相似lemmatization的问题,你的问题解决了吗,是怎么解决的啊?
 
回复: 求助!怎样把单词表中的单词丰富为它的曲折变化形式?

可以试试这种方法: 在 Windows 下使用 Unix 的 grep 和 tr 两个命令来操作, 需要的材料是你的词表 (这里假定名为 wordlist.txt; 必须是纯文本格式, 而且里面的每个词占一行) 和本贴附件中的 elemma.txt (就是学者 Yasumasa Someya 编制的那个 lemmatization 词表)。

步骤如下:

1. 在 C 盘下建立一个文件夹, 命名为 berk, 然后把附件中的 grep.exe 和 tr.exe 解压, 放到此文件夹中。

2. 把你的词表文件 wordlist.txt 和那个 elemma.txt 也放在 berk 文件中。

3. 准备好了之后就可以做了。点 "开始" -> "运行", 输入 cmd, 在出现的命令窗口中输入: cd\berk, 回车。然后输入以下指令 (也可参见附件中的截图):

grep -wf wordlist.txt < elemma.txt | tr " -> " '\n' | tr -s '\n' '\n' > mylist.txt

4. 生成的 mylist.txt 应该就是你要的。

特别需要注意输入的指令中的标点及空格。如果结果有错误, 请检查输入的指令 (可利用上下键来查看输入过的指令)。
 

附件

  • berk.rar
    184 KB · 浏览: 23
  • lemma.jpg
    lemma.jpg
    31 KB · 浏览: 8
Last edited:
回复: 求助!怎样把单词表中的单词丰富为它的曲折变化形式?

[FONT=宋体]可以试试这种方法[/FONT]: [FONT=宋体]在[/FONT] Windows [FONT=宋体]下使用[/FONT] Unix [FONT=宋体]的[/FONT] grep [FONT=宋体]和[/FONT] tr [FONT=宋体]两个命令来操作[/FONT], [FONT=宋体]需要的材料是你的词表[/FONT] ([FONT=宋体]这里假定名为[/FONT] wordlist.txt; [FONT=宋体]必须是纯文本格式[/FONT], [FONT=宋体]而且里面的每个词占一行[/FONT]) [FONT=宋体]和本贴附件中的[/FONT] elemma.txt ([FONT=宋体]就是学者[/FONT] Yasumasa Someya [FONT=宋体]编制的那个[/FONT] lemmatization [FONT=宋体]词表[/FONT])[FONT=宋体]。[/FONT]

[FONT=宋体]步骤如下[/FONT]:

1. [FONT=宋体]在[/FONT] C [FONT=宋体]盘下建立一个文件夹[/FONT], [FONT=宋体]命名为[/FONT] berk, [FONT=宋体]然后把附件中的[/FONT] grep.exe [FONT=宋体]和[/FONT] tr.exe [FONT=宋体]解压[/FONT], [FONT=宋体]放到此文件夹中。[/FONT]

2. [FONT=宋体]把你的词表文件[/FONT] wordlist.txt [FONT=宋体]和那个[/FONT] elemma.txt [FONT=宋体]也放在[/FONT] berk [FONT=宋体]文件中。[/FONT]

3. [FONT=宋体]准备好了之后就可以做了。点[/FONT] "[FONT=宋体]开始[/FONT]" -> "[FONT=宋体]运行[/FONT]", [FONT=宋体]输入[/FONT] cmd, [FONT=宋体]在出现的命令窗口中输入[/FONT]: cd\berk, [FONT=宋体]回车。然后输入以下指令[/FONT] ([FONT=宋体]也可参见附件中的截图[/FONT]):

grep -wf wordlist.txt < elemma.txt | tr " -> " '\n' | tr -s '\n' '\n' > mylist.txt

4. [FONT=宋体]生成的[/FONT] mylist.txt [FONT=宋体]应该就是你要的。[/FONT]


但是上述所讲的grep.exe [FONT=宋体]和
tr.exe 有密码,根本就打不开。[/FONT]
 
Back
顶部