使用ws4检索时的怪现象,大家碰到过吗?

hancunxin

Moderator
昨天,我用WS4检索一自建语料库corpus3,批量检索自由类词汇(FREE,FREEDOM,LIBERTY),得到393个concordances,以及三词词簇24个,
其中排在第一的三词词簇是FREEDOM DEMOCRACY AND,频率13。当我想扩展语境观察时,重新在corpus3中检索FREEDOM DEMOCRACY AND却发现找不到记录。真是怪事?大家遇到过这种情况吗?另外还发现,三词词簇的频率与实际在语料库中检索到的频率不一。比如,排名第二的三词词簇WHOLE AND FREE频率13,在语料库中检索得到的频率却是12.请看附件检索示意图。附件里还有自建语料库corpus3及我的批量检索TXT文件,大家如果有WS4的话,不妨试试看。
 

附件

  • 检索示意图.doc
    1.1 MB · 浏览: 20
  • corpus3以及批量检索txt.rar
    165.3 KB · 浏览: 4
回复: 使用ws4检索时的怪现象,大家碰到过吗?

1. “重新在corpus3中检索FREEDOM DEMOCRACY AND却发现找不到记录。”
原文中显示的是“freedom, democracy, and”,中间有两个逗号,而你检索时把逗号给漏掉了,所以无法对应。

2. “三词词簇的频率与实际在语料库中检索到的频率不一。”
原因同第一个问题。原文中有12个“whole and free”,有1个“whole, and free”,你只检索了“whole and free”。
 
回复: 使用ws4检索时的怪现象,大家碰到过吗?

个人认为,“三词词簇的频率与实际在语料库中检索到的频率不一”这个问题中最值得注意的倒不是“whole and free”(和“whole, and free”)频率的问题,而是词簇 “FREEDOM DEMOCRACY AND”频率为13的问题。因为“freedom, democracy, and”在原文中只出现了8次,而做出的三词词簇中其频率为13,这中间的差异实在是太大了。
 
回复: 使用ws4检索时的怪现象,大家碰到过吗?

我按照LZ提供的数据从头做了一下,要得出“三词词簇24个,其中排在第一的三词词簇是FREEDOM DEMOCRACY AND,频率13”这个结论,Cluster功能中使用的必须是默认设置,即“Words in Cluster:3-3,Minimum Freq. 5, Horizons: 5L-5R”。可这儿有个问题:既然已经有确定的检索词,又确定了三词词簇,为什么要将计算时的语境跨距设定为5L-5R呢?我觉得将语境跨距设定为2L-2R,即以检索词为中心左右各两个词的范围才是正确的。
 
回复: 使用ws4检索时的怪现象,大家碰到过吗?

Cluster设置:Words in Cluster:3-3,Minimum Freq. 5, Horizons: 2L-2R”后的结果:
N Cluster Freq. Length
1 WHOLE AND FREE 13 4
2 OF FREEDOM AND 9 4
3 FREEDOM DEMOCRACY AND 8 4
4 FREEDOM AND DEMOCRACY 6 4
5 OF FREEDOM IN 6 4
6 FREEDOM FOR THE 6 4
7 FREE MARKET ECONOMY 6 4
8 CAUSE OF FREEDOM 6 4
9 AND ECONOMIC LIBERTY 6 4
10 DEMOCRACY AND FREEDOM 6 4
11 A FREE MARKET 5 4
12 THE FREE MARKET 5 4
13 TO FREEDOM AND 5 4
14 PEACE AND FREEDOM 5 4
15 FREE MARKETS AND 5 4
16 FREE AND FAIR 5 4
17 AND FREEDOM AND 5 4
 

附件

  • 001.jpg
    001.jpg
    45.2 KB · 浏览: 1
回复: 使用ws4检索时的怪现象,大家碰到过吗?

和1楼所提供的三词词簇列表相比,5楼的三词词簇列表有两个明显的特点:第一,表中的任何一个词簇都包含了LZ所提供的12个检索词中的某一个;第二,表中词簇的频率和实际语料中的频率是对应的。
 
回复: 使用ws4检索时的怪现象,大家碰到过吗?

非常感谢chrisyang的耐心解答!我基本弄清是怎么回事了,主要是检索设置的问题。我反思了一下我的问题主要是:1.以为词簇统计会避开被标点分割的词语。2.以为默认跨距-5/+5就可以。 不过我还有一个问题不太清楚。怎么样排除像freedom,democracy,and 这种被标点分割的三词词簇?
 
Last edited:
回复: 使用ws4检索时的怪现象,大家碰到过吗?

Clusters are sought within these limits: default: 5 words left and right of the search word, but up to 25 left and 25 right allowed. The default is for clusters to be three words in length and you can choose how many of each must be found for the results to be worth displaying (say 3 as a minimum frequency).

以上是从ws4的帮助文件中concordance目录下的clusters中找到的信息。大意是:concordance下的词簇计算默认跨距是-5/+5,默认的词簇长度为3。 这样的默认是不是本身就有问题呢?也就是既然默认词簇长度为3,那么跨距就应该是-2/+2,而不应该是-5/+5? 如果默认跨距是-5/+5,那么默认的词簇长度就应该是6,而不是3。
 
回复: 使用ws4检索时的怪现象,大家碰到过吗?

#7:怎么样排除像freedom,democracy,and 这种被标点分割的三词词簇?

我记得在WST3中,像“freedom,democracy,and ”应该不会被分析为词簇的,因为WST3中词簇的分析会在诸如“,.!?:”等标点符号处停止的。在wst4中好像不是这样的,如#5所提供wst4做出的三词词簇中“freedom democracy and”有8个,但实际上在原文中是“freedoem, democracy,and”。
 
回复: 使用ws4检索时的怪现象,大家碰到过吗?

#7:怎么样排除像freedom,democracy,and 这种被标点分割的三词词簇?

我记得在WST3中,像“freedom,democracy,and ”应该不会被分析为词簇的,因为WST3中词簇的分析会在诸如“,.!?:”等标点符号处停止的。在wst4中好像不是这样的,如#5所提供wst4做出的三词词簇中“freedom democracy and”有8个,但实际上在原文中是8个“freedoem, democracy,and”。个人感觉WST3和WST4对cluster的定义和计算都有差异。同样在都在默认设置下,用WST3做clusters更可信些。
 
回复: 使用ws4检索时的怪现象,大家碰到过吗?

请教一下,如何用WS4或其它索引工具做出单词带POS码的wordlist?所用语料库经过POS编码过的。以下是我设想的结果模式。
比如Reagan_NP0 120 意思是专有名词Reagan 出现了120次。

Word Freq. % Texts
Reagan_NP0 120
relationship_NN1 24
bringing_VVG 23
are_VBB 24
 
回复: 使用ws4检索时的怪现象,大家碰到过吗?

#7:怎么样排除像freedom,democracy,and 这种被标点分割的三词词簇?

我记得在WST3中,像“freedom,democracy,and ”应该不会被分析为词簇的,因为WST3中词簇的分析会在诸如“,.!?:”等标点符号处停止的。在wst4中好像不是这样的,如#5所提供wst4做出的三词词簇中“freedom democracy and”有8个,但实际上在原文中是8个“freedoem, democracy,and”。个人感觉WST3和WST4对cluster的定义和计算都有差异。同样在都在默认设置下,用WST3做clusters更可信些。

我按照chrisyang的建议用WS3做了,果然是这样。像freedom,democracy,and 这样被逗号隔开的三词词簇都不见了。
 

附件

  • 图1.doc
    100.5 KB · 浏览: 2
回复: 使用ws4检索时的怪现象,大家碰到过吗?

#11 如何用WS4或其它索引工具做出单词带POS码(word_tag)的wordlist?

在AntConc 3.3.1w中调入文本后再做如下设置后运行Wordlist功能即可:Global Settings-->Token Definition-->User-defined Token Class一栏方框里的那一行字母最后边加上“_”这个符号,然后再check方框上方的“Use Edited Definition”-->Apply。结果如下图。
 

附件

  • w_pos.jpg
    w_pos.jpg
    52.4 KB · 浏览: 2
回复: 使用ws4检索时的怪现象,大家碰到过吗?

#11 如何用WS4或其它索引工具做出单词带POS码(word_tag)的wordlist?

在AntConc 3.3.1w中调入文本后再做如下设置后运行Wordlist功能即可:Global Settings-->Token Definition-->User-defined Token Class一栏方框里的那一行字母最后边加上“_”这个符号,然后再check方框上方的“Use Edited Definition”-->Apply。结果如下图。

Christyang, 太棒了,谢谢指点!
 
Back
顶部