回复: 如何解读Readability Analyzer中的数据(有Readability_Analyzer_Readme下载)
Reading ease只是判断文本难易度的粗略标准,不要寄希望它做终极判断。
不过,有趣的是,我们在测试了100多个语言变量(包括readability,词汇难度、语言结构、各种语法结构,还有语义属性等)后,我们发现其中预测能力最高的变量之一就是readbility score。
这个让我们不得不思考,有时候,我们费了很多时间,做了严密的研究设计,得出的结论只不过跟我们的直觉和常识是一样的。
换句话说,一些看似简单的东西,有时确实有很强的解释能力。
“the与ski的长度一样,但难度肯定不同”。这个不错,但文章不是由这么一个单词组成的。前面也有人用个别句子来反驳,句子短不一定就难。单独看都没有错。
但readbility看的是整个篇章,或n篇文章或整个语料库。
从大量语料的统计概率来看,似乎不能否认平均句长和平均句长越长,难度越大的一般常识。
另外,如果你看到有关readability formula创制的最早文献的话,你会发现,这是公式的得来不是坐在家里想出来的。基本上都是由专家对文本难度打分,然后用不同公式变量通过多元回归得来的公式。时间关系,先说到这,以后有空还可以再讨论。
Reading ease只是判断文本难易度的粗略标准,不要寄希望它做终极判断。
不过,有趣的是,我们在测试了100多个语言变量(包括readability,词汇难度、语言结构、各种语法结构,还有语义属性等)后,我们发现其中预测能力最高的变量之一就是readbility score。
这个让我们不得不思考,有时候,我们费了很多时间,做了严密的研究设计,得出的结论只不过跟我们的直觉和常识是一样的。
换句话说,一些看似简单的东西,有时确实有很强的解释能力。
“the与ski的长度一样,但难度肯定不同”。这个不错,但文章不是由这么一个单词组成的。前面也有人用个别句子来反驳,句子短不一定就难。单独看都没有错。
但readbility看的是整个篇章,或n篇文章或整个语料库。
从大量语料的统计概率来看,似乎不能否认平均句长和平均句长越长,难度越大的一般常识。
另外,如果你看到有关readability formula创制的最早文献的话,你会发现,这是公式的得来不是坐在家里想出来的。基本上都是由专家对文本难度打分,然后用不同公式变量通过多元回归得来的公式。时间关系,先说到这,以后有空还可以再讨论。