如何解读Readability Analyzer中的数据（有Readability_Analyzer_Readme下载）

xujiajin · 2009-11-10

回复: 如何解读Readability Analyzer中的数据（有Readability_Analyzer_Readme下载）

Reading ease只是判断文本难易度的粗略标准，不要寄希望它做终极判断。

不过，有趣的是，我们在测试了100多个语言变量（包括readability，词汇难度、语言结构、各种语法结构，还有语义属性等）后，我们发现其中预测能力最高的变量之一就是readbility score。

这个让我们不得不思考，有时候，我们费了很多时间，做了严密的研究设计，得出的结论只不过跟我们的直觉和常识是一样的。

换句话说，一些看似简单的东西，有时确实有很强的解释能力。

“the与ski的长度一样，但难度肯定不同”。这个不错，但文章不是由这么一个单词组成的。前面也有人用个别句子来反驳，句子短不一定就难。单独看都没有错。

但readbility看的是整个篇章，或n篇文章或整个语料库。

从大量语料的统计概率来看，似乎不能否认平均句长和平均句长越长，难度越大的一般常识。

另外，如果你看到有关readability formula创制的最早文献的话，你会发现，这是公式的得来不是坐在家里想出来的。基本上都是由专家对文本难度打分，然后用不同公式变量通过多元回归得来的公式。时间关系，先说到这，以后有空还可以再讨论。

Xing Fukun · 2009-11-10

回复: 如何解读Readability Analyzer中的数据（有Readability_Analyzer_Readme下载）

Reading ease只是判断文本难易度的粗略标准，不要寄希望它做终极判断。
(1)既然要让机器判断当然越与实际符合越好了，否则就没有必要弄出上百个公式来，看来大家还是希望自动测量的结果更精确些。当然机器做完，还是给人用，需要人的鉴别筛选，就像搜索引擎返回大量结果，我们还是要继续再挑，不过我们希望机器返回的结果越符合我们的预期越好。

不过，有趣的是，我们在测试了100多个语言变量（包括readability，词汇难度、语言结构、各种语法结构，还有语义属性等）后，我们发现其中预测能力最高的变量之一就是readbility score。
（2）这些测试能够在一定程度上说明“词汇难度、语言结构、各种语法结构，还有语义属性等”这些因素不如“readbility score”因素有效，其原因可能有多种，如语法结构分析不准（自动句法分析的性能还不够可靠），词汇难度不够精细（如果只用像Nationa词表这样的等级词表恐怕效果就是一般），语义属性就更不能寄予太多期望了。但是这些测试不能说明：不存在比“readbility score”更有效的测量因素。

这个让我们不得不思考，有时候，我们费了很多时间，做了严密的研究设计，得出的结论只不过跟我们的直觉和常识是一样的。
（3）所以我们还要继续费时间，继续思考

换句话说，一些看似简单的东西，有时确实有很强的解释能力。
（4）前提是没有发现更有效的东西
给许博士个建议，您可以查看有关使用语言模型（language model）测量易读性的文献(CMU的几位学者)。

xujiajin · 2009-11-10

回复: 如何解读Readability Analyzer中的数据（有Readability_Analyzer_Readme下载）

作者 Xing Fukun:
（4）前提是没有发现更有效的东西
给许博士个建议，您可以查看有关使用语言模型（language model）测量易读性的文献(CMU的几位学者)。

语法特征，我是基于词性赋码进行的，赋码准确率和检索命中率应有保证。我没有用parsing。有关语义特征部分，我用到了差不多20多个潜在语义分析的特征值。不是一般意义上的简单语义标注。因为文章正在写（数据已经做完了），等好了以后再跟大家分享。

等我有空了再去找找你说的CMU的相关算法。

有一个思考，拿来跟大家讨论，在我做了100多个特征的测试之后，我突然觉得未必越复杂的算法越能得出好的结果。这似乎告诉我们，在实际中，根据不同目的，我们很可能不必舍近求远，非要经过很复杂运算，去分析文章难度。换句话说，文章难度是个既难又简单的问题。往往一些核心特征就足以判定文章难易了。

另外，若你对相关建模信息有所了解，在这里给我们提一下要点，我想对我的学习会有所帮助。可以按图索骥。

xujiajin · 2009-11-10

回复: 如何解读Readability Analyzer中的数据（有Readability_Analyzer_Readme下载）

关于Nation的词表，确切的说是Michael West (1953)和Coxhead（1998）的词表，为什么大家一直在用？这个问题本身就值得思考。

50年前的词表为什么大家还在用，我的一个解释是50年间，英语单词大家庭里（有人说5万，有人说15万，还听说过50万词的）排在前2000词族的词可能变化很小。

当然，Paul Nation自己也在思考相关问题，因此他编制出了Range BNC词表。另外，Ken Hyland 和Tse最近对Coxhead（1998）也提出质疑和改进。
很多东西都在发展中。都值得我们去关注。

Xing Fukun · 2009-11-10

回复: 如何解读Readability Analyzer中的数据（有Readability_Analyzer_Readme下载）

有一个思考，拿来跟大家讨论，在我做了100多个特征的测试之后，我突然觉得未必越复杂的算法越能得出好的结果。这似乎告诉我们，在实际中，根据不同目的，我们很可能不必舍近求远，非要经过很复杂运算，去分析文章难度。换句话说，文章难度是个既难又简单的问题。往往一些核心特征就足以判定文章难易了。
（1）这个问题要看你的特征与算法是否更具有一般性和适用性，能否解决一些关系易读性但没有被前人解决的问题，当然任何事情都是越简单越好（奥坎姆剃刀哈），但是粗疏不等于简单。例如词长、句长的模型就不能解决语序给易读性带来的问题，不知您的算法中是否能解决。

另外，若你对相关建模信息有所了解，在这里给我吗提一下要点，我想对我的学习会有所帮助。可以按图索骥。
（2）Kevyn Collins-Thompson and Jamie Callan. 2005.Predicting reading difficulty with statistical language models. Journal of the American Society for Information Science and Technology, 56(13). pp. 1448-1462

xujiajin · 2009-11-10

回复: 如何解读Readability Analyzer中的数据（有Readability_Analyzer_Readme下载）

谢谢及时反馈。

lt0806 · 2009-11-10

回复: 如何解读Readability Analyzer中的数据（有Readability_Analyzer_Readme下载）

作者 xujiajin:
从大量语料的统计概率来看，似乎不能否认平均句长和平均句长越长，难度越大的一般常识。

很同意！基于语料的分析就是基于统计概率而言的，做到完全的精确也是不可能的，世界上也跟本不存在完全精确的东西。概率就是probablity,不是preciseness.

Xing Fukun · 2009-11-10

回复: 如何解读Readability Analyzer中的数据（有Readability_Analyzer_Readme下载）

作者 lt0806:
很同意！基于语料的分析就是基于统计概率而言的，做到完全的精确也是不可能的，世界上也跟本不存在完全精确的东西。概率就是probablity,不是preciseness.

任何事情都是向着真理的逼近，你不可能到达真理，但你要尽可能离他越来越近。概率的问题同样是这个道理，为什么不找到更好的概率逼近呢，为什么不让自己的模型更有广泛性呢？这些问题都不是简单地用“不存在完全精确的东西”而可以躲避的事情。

williamJia · 2009-11-10

回复: 如何解读Readability Analyzer中的数据（有Readability_Analyzer_Readme下载）

只破坏不构建是没有意义的！
影响文章难度的因素有很多，这个问题的背后还有一个问题，就是人们对什么是可读性readability的理解也是不尽相同的，不同的模型往往基于不同的理解，侧重点各不相同，它们会从不同的侧面反映出语言的特点，到目前为止似乎还没有什么绝对的标准。

可以参考的标准有：
1）基于单词的物理特征：如音节、词长、句长等
2）基于统计信息：单词频率信息、词块统计信息、短语数量及频率信息等
3）基于语义和语法的：各类语法现象数量、单词义项数量等
4）基于参照系：跟标准样本的比较
5）各项指标的综合
6）其他标准

综合对比各类指标Flesch Reading Ease对于普通文本（不包含诗歌等特殊文本）难度的统计还是很有参考价值的！它统计的前提是：文本是正确的、常规的。对于垃圾文本的统计是无意义的（garbage in, garbage out），如：Mat a cat on sat a。因为你的前提搞错了！

Xing Fukun · 2009-11-10

回复: 如何解读Readability Analyzer中的数据（有Readability_Analyzer_Readme下载）

作者 williamJia:
只破坏不构建是没有意义的！
影响文章难度的因素有很多，这个问题的背后还有一个问题，就是人们对什么是可读性readability的理解也是不尽相同的，不同的模型往往基于不同的理解，侧重点各不相同，它们会从不同的侧面反映出语言的特点，到目前为止似乎还没有什么绝对的标准。

可以参考的标准有：
1）基于单词的物理特征：如音节、词长、句长等
2）基于统计信息：单词频率信息、词块统计信息、短语数量及频率信息等
3）基于语义和语法的：各类语法现象数量、单词义项数量等
4）基于参照系：跟标准样本的比较
5）各项指标的综合
6）其他标准

这个批评蛮严厉的，接受！
（1）发现问题所在才有解决的思路和动力，这是科学前行的前提；
（2）利用语言模型解决词长、句长的一些局限性的建议我已经提出，但这种方法也有局限，还要继续反思完善，但可以解决一些目前没解决的问题；
（3）学术的纯粹的批评非常有利于学术发展，能破能立最好了！

xujiajin · 2009-11-10

回复: 如何解读Readability Analyzer中的数据（有Readability_Analyzer_Readme下载）

作者 Xing Fukun:
任何事情都是向着真理的逼近，你不可能到达真理，但你要尽可能离他越来越近。概率的问题同样是这个道理，为什么不找到更好的概率逼近呢，为什么不让自己的模型更有广泛性呢？这些问题都不是简单地用“不存在完全精确的东西”而可以躲避的事情。

这个问题已经讨论得够深入了。我最后谈一点感受。以下此贴不再继续。有问题可重开贴。

我同意WilliamJia关于不同算法源于不同认识的观点。

再有，世界上有唯一正确的真理吗？其实，连有没有真理我们都不知道。我们都在向着一个假想敌在逼近。

在向着你的真理逼近时，走到尽头突然发现，原来是上帝，那个上帝还是个真人扮演的。

有没有想过？如果没有真理怎么办？那你怎么逼近啊？

概率论是一个很好的观点。我们不知道有没有唯一正确的东西，但我们知道最有可能会发生什么。period

如何解读Readability Analyzer中的数据（有Readability_Analyzer_Readme下载）

xujiajin

管理员

Xing Fukun

xujiajin

管理员

xujiajin

管理员

Xing Fukun

xujiajin

管理员

lt0806

Xing Fukun

williamJia

开放语料库项目

Xing Fukun

xujiajin

管理员