以下是引用 asan82 在 2006-4-3 19:09:22 的发言:
大学生英语议论文中疑问句式使用的特征
王立非 张岩
解放军外国语学院学报06 1
文章已读,是篇好文章,不过有两点疑问,求证于各位同仁。
1. 当做句子的频数比较,用卡方检验时,column2 输入的应该是TOKENS 还句子的总数呢?
2. 下图中,根据我的计算,what 和How 在 0.05水平上都不具有显著差异。
大家算算试试,数据都是标准化后,基数100,000。
以下是引用 dinooja 在 2006-4-4 23:54:10 的发言:
我的spss中输入数据的方法借用了下面书中的例子的方法(见296页)
卢纹岱,2002,spss for windows统计分析,电子工业出版社。
我的数据(how)请下载看(因为不能上传spss格式文件,我转成了excel格式)。
关于hanchunxin方法,我不清楚,为什么column2用100000,我以为表格中给出的频数实际上是10万水平上的标准数。请指教。http://forum.corpus4u.org/upload/forum/2006040423592343.xls
[本贴已被 作者 于 2006年04月04日 23时59分27秒 编辑过]
以下是引用 dinooja 在 2006-4-4 23:54:10 的发言:
我的spss中输入数据的方法借用了下面书中的例子的方法(见296页)
卢纹岱,2002,spss for windows统计分析,电子工业出版社。
我的数据(how)请下载看(因为不能上传spss格式文件,我转成了excel格式)。
dinooja,
卢纹岱,2002,spss for windows统计分析,电子工业出版社。
这本书你是在哪买的呀?
[本贴已被 作者 于 2006年04月05日 09时07分06秒 编辑过]
以下是引用 xiaoz 在 2006-4-5 0:17:36 的发言:
Chi square and LL tests automatically take account of differences in sample sizes. Proportional data such as those used above should be avoided.
Also some of the frequencies in the above tables are too low to produce reliable results. When a cell in a contingency table has an EXPECTED value of less than 5 (SPSS gives an warning below the result table), I would recommend Fisher's Exact test, also available in SPSS.
以下是引用 hancunxin 在 2006-4-5 9:00:39 的发言:
dinooja,
卢纹岱,2002,spss for windows统计分析,电子工业出版社。
这本书你是在哪买的呀?
华科大主校区对面,车站旁的书店里买的。
Dr. Xiao, Could you give some help about the following one?
如果检验四类疑问句之间有没有差异(包括两两比较),应该如何操作?另外,如果再加入语言水平(如1年级,3年级)这个因素,想看四类疑问句之间的差别在两组学习者之间是否一致,又该如何处理?也就是下面这种分布:
频数差异
特殊疑问句 一般疑问句 选择疑问句 附加疑问句
1年级 168 104 24 16
3年级 113 50 9 2
以下是引用 dinooja 在 2006-4-5 11:34:05 的发言:
以下是引用 hancunxin 在 2006-4-5 9:00:39 的发言:
dinooja,
卢纹岱,2002,spss for windows统计分析,电子工业出版社。
这本书你是在哪买的呀?
华科大主校区对面,车站旁的书店里买的。
好的,谢谢!
以下是引用 xiaoz 在 2006-4-5 19:22:05 的发言:
We need to know the how large your corpus is as significance level can be affected by sample size. We also need to know the raw frequencies (not normalised frequencies) for pairwise comparison.
Sorry for not making the question clear. The case I used here is just for better discussion. What I am interested in is how to deal with such type of pairwise conparison concerning nominal variables with more than 2 levels. Therefore, we may suppose that those frequencies are all raw frequencies retrieved out of a 200,000-token corpus.
A1 A2 A3
B1 168 104 24
B2 113 50 9