请教:compare 2 wordlists遇到的问题

在使用wordsmith 5.0 执行compare 2 wordlists 时,出现了下面图片中标出的现象,自己不明白怎么回事,请教一下各位老师:
1 词表中部分词会出现两次,但是所显示在原词表及参考词表中的频率和比例均一致,唯独keyness不用,且相差很大(如下面截图中的CHINA一词)。为什么会有这种情况?
2 我原来的理解就是凡是keyness显示是正的,就代表该词在原词表中出现的比率比其在参考词表中出现的要大。但看比较后的结果看有些是相反的Keyness显示是正的。想请教一下老师:这个keyness是怎么计算的?
B2`O~P@{D(UO]M2C6I0EHXT.jpg
 

附件

  • 问题附图.jpg
    问题附图.jpg
    64.9 KB · 浏览: 1
Last edited:
回复: 请教:compare 2 wordlists遇到的问题

你在做keyword list, 结果中出现了很多is, for, has ,as, from ,by成为keyword, 关键值那么大。确实很奇怪。检查下步骤,别把observed list和reference list位置设置颠倒了。能告知你observed list和reference list 各自大小吗?各是什么方面的语料?
你再试下,也可以把2个lists贴上(如果不保密的话),都试试。
Keyness是WSmith自己算出来的,它取决于keyword在observed corpus和 reference corpus中的频数和百分比。
 
回复: 请教:compare 2 wordlists遇到的问题

谢谢您关注并帮助我解决。
我是收集了两本经济类杂志的文章,一本为美国的,一本为中国的(英文发行),然后生成了对应的两个wordlist,没有做keyword。然后以中国杂志的词表作为observed wordlist,以美国的作为reference wordlist。之后执行的操作仅仅是这两个词表的比较。所以词表中出现的词会跟keyword 词表中显示的不一样。
 
回复: 请教:compare 2 wordlists遇到的问题

谢谢您关注并帮助我解决。
我是收集了两本经济类杂志的文章,一本为美国的,一本为中国的(英文发行),然后生成了对应的两个wordlist,没有做keyword。然后以中国杂志的词表作为observed wordlist,以美国的作为reference wordlist。之后执行的操作仅仅是这两个词表的比较。所以词表中出现的词会跟keyword 词表中显示的不一样。
WSmith是在两个list中做的keyword list. keywordlist中的词是observed list中表达主题或内容的keyword。
你找了“2本”...文章,你的2种语料各有多少?太少有可能影响keywordlist.
再者,你比较中美经济类报道,同质的内容,keyword是中国语境下商务(经济)英语的典型表达,很鲜明的中国特色。
如果你拿中国部分同异质内容区比较,获取的keyword可能会多一点。
你的研究很好。不知LZ的研究目的是什么?
 
回复: 请教:compare 2 wordlists遇到的问题

WSmith是在两个list中做的keyword list. keywordlist中的词是observed list中表达主题或内容的keyword。
你找了“2本”...文章,你的2种语料各有多少?太少有可能影响keywordlist.
再者,你比较中美经济类报道,同质的内容,keyword是中国语境下商务(经济)英语的典型表达,很鲜明的中国特色。
如果你拿中国部分同异质内容区比较,获取的keyword可能会多一点。
你的研究很好。不知LZ的研究目的是什么?

两个期刊均为学术期刊,预计各收集四年的,这样国内的期刊文章词数在一百万左右,外文期刊文章由于发行刊数少,四年可达到80万左右。现在才开始做,之前是用50%的语料生成的list。我打算是在比较wordlist之后希望发现一些用词上intreresting的点,然后寻求合适的理论去解释。我选的期刊应该是您所说的异质内容的,我本身也是不想做内容方面的研究。目前才开始进行[/QUOTE]
 
Back
顶部