一篇基于WECCL的研究

谢谢提供,文章探讨的话题也牵涉到我想知道的统计问题,可惜没有说明。比如:

表4.高、低年级学生使用疑问句的标准频数比较
1年级 3年级 频数差异
特殊疑问句 168 113 55 *
一般疑问句 104 50 54 *
选择疑问句 24 9 15 *
附加疑问句 16 2 14 *
总计 312 174 138 *  
* =P<0 05

这些显著差异是通过什么手段检验得出的?
 
回复:一篇基于WECCL的研究

以下是引用 asan822006-4-3 19:09:22 的发言:
大学生英语议论文中疑问句式使用的特征
王立非 张岩
解放军外国语学院学报06 1

文章已读,是篇好文章,不过有两点疑问,求证于各位同仁。
1. 当做句子的频数比较,用卡方检验时,column2 输入的应该是TOKENS 还句子的总数呢?
2006040423071757.jpg


2. 下图中,根据我的计算,what 和How 在 0.05水平上都不具有显著差异。

2006040423093280.jpg



大家算算试试,数据都是标准化后,基数100,000。
 
what 和 how 的卡方检验,我是这样做的,有什么错误的地方请大家批评指正!!!

(what)
Column1 Column2 Sum
Row1 51 100000 100051
Row2 37 100000 100037
Sum 88 200000 200088
Chi-square: χ2= 2.226293169
Probability:0.05 Critical value:3.841455338
(卡方值2.226小于3.84临界值,故在0.05水平没有显著差异)




(how )

Column1 Column2 Sum
Row1 42 100000 100042
Row2 30 100000 100030
Sum 72 200000 200072
Chi-square: χ2=1.999280266
Probability:0.05 Critical value:3.841455338
(卡方值1.999小于3.84临界值,故在0.05水平没有显著差异)

[本贴已被 作者 于 2006年04月04日 23时24分18秒 编辑过]
 
我的卡方检验的结果:

What:

Chi-Square(a) 2.227
df 1
Asymp. Sig. .136
p = .136 大于0.05
没有显著差异


How:

Chi-Square(a) 2.000
df 1
Asymp. Sig. .157
p= .157 大于0.05
没有显著差异

结果和韩的一致
 
我的spss中输入数据的方法借用了下面书中的例子的方法(见296页)

卢纹岱,2002,spss for windows统计分析,电子工业出版社。

我的数据(how)请下载看(因为不能上传spss格式文件,我转成了excel格式)。

关于hanchunxin方法,我不清楚,为什么column2用100000,我以为表格中给出的频数实际上是10万水平上的标准数。请指教。http://forum.corpus4u.org/upload/forum/2006040423592343.xls


[本贴已被 作者 于 2006年04月04日 23时59分27秒 编辑过]
 
Chi square and LL tests automatically take account of differences in sample sizes. Proportional data such as those used above should be avoided.

Also some of the frequencies in the above tables are too low to produce reliable results. When a cell in a contingency table has an EXPECTED value of less than 5 (SPSS gives an warning below the result table), I would recommend Fisher's Exact test, also available in SPSS.
 
回复:一篇基于WECCL的研究

以下是引用 dinooja2006-4-4 23:54:10 的发言:
我的spss中输入数据的方法借用了下面书中的例子的方法(见296页)

卢纹岱,2002,spss for windows统计分析,电子工业出版社。

我的数据(how)请下载看(因为不能上传spss格式文件,我转成了excel格式)。

关于hanchunxin方法,我不清楚,为什么column2用100000,我以为表格中给出的频数实际上是10万水平上的标准数。请指教。http://forum.corpus4u.org/upload/forum/2006040423592343.xls


[本贴已被 作者 于 2006年04月04日 23时59分27秒 编辑过]


我所做的卡方检验是利用dzhiger以前发布一个卡方检验器,至于为什么是100,000,请参考原文的标注1。
注释:
1。文中表格中的频数均经过标准化处理,基数为100000
 
回复:一篇基于WECCL的研究

以下是引用 dinooja2006-4-4 23:54:10 的发言:
我的spss中输入数据的方法借用了下面书中的例子的方法(见296页)

卢纹岱,2002,spss for windows统计分析,电子工业出版社。

我的数据(how)请下载看(因为不能上传spss格式文件,我转成了excel格式)。


dinooja,
卢纹岱,2002,spss for windows统计分析,电子工业出版社。

这本书你是在哪买的呀?



[本贴已被 作者 于 2006年04月05日 09时07分06秒 编辑过]
 
回复:一篇基于WECCL的研究

以下是引用 xiaoz2006-4-5 0:17:36 的发言:
Chi square and LL tests automatically take account of differences in sample sizes. Proportional data such as those used above should be avoided.

Also some of the frequencies in the above tables are too low to produce reliable results. When a cell in a contingency table has an EXPECTED value of less than 5 (SPSS gives an warning below the result table), I would recommend Fisher's Exact test, also available in SPSS.

Dr. Xiao, Could you give some help about the following one?
如果检验四类疑问句之间有没有差异(包括两两比较),应该如何操作?另外,如果再加入语言水平(如1年级,3年级)这个因素,想看四类疑问句之间的差别在两组学习者之间是否一致,又该如何处理?也就是下面这种分布:

频数差异
特殊疑问句 一般疑问句 选择疑问句 附加疑问句
1年级 168 104 24 16
3年级 113 50 9 2
 
回复:一篇基于WECCL的研究

以下是引用 hancunxin2006-4-5 9:00:39 的发言:
dinooja,
卢纹岱,2002,spss for windows统计分析,电子工业出版社。

这本书你是在哪买的呀?




华科大主校区对面,车站旁的书店里买的。
 
回复:一篇基于WECCL的研究

We need to know the how large your corpus is as significance level can be affected by sample size. We also need to know the raw frequencies (not normalised frequencies) for pairwise comparison.

Dr. Xiao, Could you give some help about the following one?
如果检验四类疑问句之间有没有差异(包括两两比较),应该如何操作?另外,如果再加入语言水平(如1年级,3年级)这个因素,想看四类疑问句之间的差别在两组学习者之间是否一致,又该如何处理?也就是下面这种分布:

频数差异
特殊疑问句 一般疑问句 选择疑问句 附加疑问句
1年级 168 104 24 16
3年级 113 50 9 2
 
回复:一篇基于WECCL的研究

以下是引用 dinooja2006-4-5 11:34:05 的发言:
以下是引用 hancunxin2006-4-5 9:00:39 的发言:
dinooja,
卢纹岱,2002,spss for windows统计分析,电子工业出版社。

这本书你是在哪买的呀?




华科大主校区对面,车站旁的书店里买的。

好的,谢谢!
 
回复:一篇基于WECCL的研究

以下是引用 xiaoz2006-4-5 19:22:05 的发言:
We need to know the how large your corpus is as significance level can be affected by sample size. We also need to know the raw frequencies (not normalised frequencies) for pairwise comparison.

Sorry for not making the question clear. The case I used here is just for better discussion. What I am interested in is how to deal with such type of pairwise conparison concerning nominal variables with more than 2 levels. Therefore, we may suppose that those frequencies are all raw frequencies retrieved out of a 200,000-token corpus.


A1 A2 A3
B1 168 104 24
B2 113 50 9
 
Back
顶部