如何解读Readability Analyzer中的数据(有Readability_Analyzer_Readme下载)

状态
主题已关闭, 停止回复.
回复: 如何解读Readability Analyzer中的数据(有Readability_Analyzer_Readme下载)

Reading ease只是判断文本难易度的粗略标准,不要寄希望它做终极判断。

不过,有趣的是,我们在测试了100多个语言变量(包括readability,词汇难度、语言结构、各种语法结构,还有语义属性等)后,我们发现其中预测能力最高的变量之一就是readbility score。

这个让我们不得不思考,有时候,我们费了很多时间,做了严密的研究设计,得出的结论只不过跟我们的直觉和常识是一样的。

换句话说,一些看似简单的东西,有时确实有很强的解释能力。

“the与ski的长度一样,但难度肯定不同”。这个不错,但文章不是由这么一个单词组成的。前面也有人用个别句子来反驳,句子短不一定就难。单独看都没有错。

但readbility看的是整个篇章,或n篇文章或整个语料库。

从大量语料的统计概率来看,似乎不能否认平均句长和平均句长越长,难度越大的一般常识。

另外,如果你看到有关readability formula创制的最早文献的话,你会发现,这是公式的得来不是坐在家里想出来的。基本上都是由专家对文本难度打分,然后用不同公式变量通过多元回归得来的公式。时间关系,先说到这,以后有空还可以再讨论。
 
回复: 如何解读Readability Analyzer中的数据(有Readability_Analyzer_Readme下载)

Reading ease只是判断文本难易度的粗略标准,不要寄希望它做终极判断。
(1)既然要让机器判断当然越与实际符合越好了,否则就没有必要弄出上百个公式来,看来大家还是希望自动测量的结果更精确些。当然机器做完,还是给人用,需要人的鉴别筛选,就像搜索引擎返回大量结果,我们还是要继续再挑,不过我们希望机器返回的结果越符合我们的预期越好。


不过,有趣的是,我们在测试了100多个语言变量(包括readability,词汇难度、语言结构、各种语法结构,还有语义属性等)后,我们发现其中预测能力最高的变量之一就是readbility score。
(2)这些测试能够在一定程度上说明“词汇难度、语言结构、各种语法结构,还有语义属性等”这些因素不如“readbility score”因素有效,其原因可能有多种,如语法结构分析不准(自动句法分析的性能还不够可靠),词汇难度不够精细(如果只用像Nationa词表这样的等级词表恐怕效果就是一般),语义属性就更不能寄予太多期望了。但是这些测试不能说明:不存在比“readbility score”更有效的测量因素。

这个让我们不得不思考,有时候,我们费了很多时间,做了严密的研究设计,得出的结论只不过跟我们的直觉和常识是一样的。
(3)所以我们还要继续费时间,继续思考

换句话说,一些看似简单的东西,有时确实有很强的解释能力。
(4)前提是没有发现更有效的东西
给许博士个建议,您可以查看有关使用语言模型(language model)测量易读性的文献(CMU的几位学者)。
 
回复: 如何解读Readability Analyzer中的数据(有Readability_Analyzer_Readme下载)

(4)前提是没有发现更有效的东西
给许博士个建议,您可以查看有关使用语言模型(language model)测量易读性的文献(CMU的几位学者)。

语法特征,我是基于词性赋码进行的,赋码准确率和检索命中率应有保证。我没有用parsing。有关语义特征部分,我用到了差不多20多个潜在语义分析的特征值。不是一般意义上的简单语义标注。因为文章正在写(数据已经做完了),等好了以后再跟大家分享。

等我有空了再去找找你说的CMU的相关算法。

有一个思考,拿来跟大家讨论,在我做了100多个特征的测试之后,我突然觉得未必越复杂的算法越能得出好的结果。这似乎告诉我们,在实际中,根据不同目的,我们很可能不必舍近求远,非要经过很复杂运算,去分析文章难度。换句话说,文章难度是个既难又简单的问题。往往一些核心特征就足以判定文章难易了。

另外,若你对相关建模信息有所了解,在这里给我们提一下要点,我想对我的学习会有所帮助。可以按图索骥。
 
回复: 如何解读Readability Analyzer中的数据(有Readability_Analyzer_Readme下载)

关于Nation的词表,确切的说是Michael West (1953)和Coxhead(1998)的词表,为什么大家一直在用?这个问题本身就值得思考。

50年前的词表为什么大家还在用,我的一个解释是50年间,英语单词大家庭里(有人说5万,有人说15万,还听说过50万词的)排在前2000词族的词可能变化很小。

当然,Paul Nation自己也在思考相关问题,因此他编制出了Range BNC词表。另外,Ken Hyland 和Tse最近对Coxhead(1998)也提出质疑和改进。
很多东西都在发展中。都值得我们去关注。
 
回复: 如何解读Readability Analyzer中的数据(有Readability_Analyzer_Readme下载)

有一个思考,拿来跟大家讨论,在我做了100多个特征的测试之后,我突然觉得未必越复杂的算法越能得出好的结果。这似乎告诉我们,在实际中,根据不同目的,我们很可能不必舍近求远,非要经过很复杂运算,去分析文章难度。换句话说,文章难度是个既难又简单的问题。往往一些核心特征就足以判定文章难易了。
(1)这个问题要看你的特征与算法是否更具有一般性和适用性,能否解决一些关系易读性但没有被前人解决的问题,当然任何事情都是越简单越好(奥坎姆剃刀哈),但是粗疏不等于简单。例如词长、句长的模型就不能解决语序给易读性带来的问题,不知您的算法中是否能解决。

另外,若你对相关建模信息有所了解,在这里给我吗提一下要点,我想对我的学习会有所帮助。可以按图索骥。
(2)Kevyn Collins-Thompson and Jamie Callan. 2005.Predicting reading difficulty with statistical language models. Journal of the American Society for Information Science and Technology, 56(13). pp. 1448-1462
 
回复: 如何解读Readability Analyzer中的数据(有Readability_Analyzer_Readme下载)

谢谢及时反馈。
 
回复: 如何解读Readability Analyzer中的数据(有Readability_Analyzer_Readme下载)

从大量语料的统计概率来看,似乎不能否认平均句长和平均句长越长,难度越大的一般常识。

很同意!基于语料的分析就是基于统计概率而言的,做到完全的精确也是不可能的,世界上也跟本不存在完全精确的东西。概率就是probablity,不是preciseness.
 
回复: 如何解读Readability Analyzer中的数据(有Readability_Analyzer_Readme下载)

很同意!基于语料的分析就是基于统计概率而言的,做到完全的精确也是不可能的,世界上也跟本不存在完全精确的东西。概率就是probablity,不是preciseness.
任何事情都是向着真理的逼近,你不可能到达真理,但你要尽可能离他越来越近。概率的问题同样是这个道理,为什么不找到更好的概率逼近呢,为什么不让自己的模型更有广泛性呢?这些问题都不是简单地用“不存在完全精确的东西”而可以躲避的事情。
 
回复: 如何解读Readability Analyzer中的数据(有Readability_Analyzer_Readme下载)

只破坏不构建是没有意义的!
影响文章难度的因素有很多,这个问题的背后还有一个问题,就是人们对什么是可读性readability的理解也是不尽相同的,不同的模型往往基于不同的理解,侧重点各不相同,它们会从不同的侧面反映出语言的特点,到目前为止似乎还没有什么绝对的标准。

可以参考的标准有:
1)基于单词的物理特征:如音节、词长、句长等
2)基于统计信息:单词频率信息、词块统计信息、短语数量及频率信息等
3)基于语义和语法的:各类语法现象数量、单词义项数量等
4)基于参照系:跟标准样本的比较
5)各项指标的综合
6)其他标准

综合对比各类指标Flesch Reading Ease对于普通文本(不包含诗歌等特殊文本)难度的统计还是很有参考价值的!它统计的前提是:文本是正确的、常规的。对于垃圾文本的统计是无意义的(garbage in, garbage out),如:Mat a cat on sat a。 因为你的前提搞错了!
 
回复: 如何解读Readability Analyzer中的数据(有Readability_Analyzer_Readme下载)

只破坏不构建是没有意义的!
影响文章难度的因素有很多,这个问题的背后还有一个问题,就是人们对什么是可读性readability的理解也是不尽相同的,不同的模型往往基于不同的理解,侧重点各不相同,它们会从不同的侧面反映出语言的特点,到目前为止似乎还没有什么绝对的标准。

可以参考的标准有:
1)基于单词的物理特征:如音节、词长、句长等
2)基于统计信息:单词频率信息、词块统计信息、短语数量及频率信息等
3)基于语义和语法的:各类语法现象数量、单词义项数量等
4)基于参照系:跟标准样本的比较
5)各项指标的综合
6)其他标准
这个批评蛮严厉的,接受!
(1)发现问题所在才有解决的思路和动力,这是科学前行的前提;
(2)利用语言模型解决词长、句长的一些局限性的建议我已经提出,但这种方法也有局限,还要继续反思完善,但可以解决一些目前没解决的问题;
(3)学术的纯粹的批评非常有利于学术发展,能破能立最好了!
 
回复: 如何解读Readability Analyzer中的数据(有Readability_Analyzer_Readme下载)

任何事情都是向着真理的逼近,你不可能到达真理,但你要尽可能离他越来越近。概率的问题同样是这个道理,为什么不找到更好的概率逼近呢,为什么不让自己的模型更有广泛性呢?这些问题都不是简单地用“不存在完全精确的东西”而可以躲避的事情。

这个问题已经讨论得够深入了。我最后谈一点感受。以下此贴不再继续。有问题可重开贴。

我同意WilliamJia关于不同算法源于不同认识的观点。

再有,世界上有唯一正确的真理吗?其实,连有没有真理我们都不知道。我们都在向着一个假想敌在逼近。

在向着你的真理逼近时,走到尽头突然发现,原来是上帝,那个上帝还是个真人扮演的。

有没有想过?如果没有真理怎么办?那你怎么逼近啊?

概率论是一个很好的观点。我们不知道有没有唯一正确的东西,但我们知道最有可能会发生什么。period
 
状态
主题已关闭, 停止回复.
Back
顶部