关于Readability_Analyzer_1.0.6统计数据不一的问题

本人用Readability_Analyzer_1.0.6做数据分析,想求整个小型语料库的数据结果,我用FileJoin文本合并工具将47篇小文本整合,结果分析出来的数据和单独分析的数据平均值差别还不小,请问是不是不能整合以后分析?
 
回复: 关于Readability_Analyzer_1.0.6统计数据不一的问题

貌似很怪。这不是我们特意安排的。

你把具体数据报一下看看。

不知你说的是哪一项,无法诊断。里面有10几项指标。
 
回复: 关于Readability_Analyzer_1.0.6统计数据不一的问题

谢谢许博!
Tokens 前面的所有数据都不同,好在Tokens还是一样,最奇怪的是,那个sentences整合之后的显示居然才20,这个数据不知道怎么回事
 
回复: 关于Readability_Analyzer_1.0.6统计数据不一的问题

初步诊断:
问题出在FileJoin。

如果说tokens数是一样的,可见合并后,单词数这些“有形”的东西的数目是对的,没有少。根据你的报告,是句子数少了非常多。

token之前的计算公式因涉及到sentence数,所以在文本处理中常见的一个问题,断行,就来了。
【提醒:这个问题在Scott Piao的MLCT里也存在。有网友用MLCT做ANSI->Unicode转换时也应意识到断行问题。】

这有点像我们在用Notepad(记事本)碰到的“自动换行(Word wrap)”一样。
如果没有wrap word的话,那么句子就会非常长,一直要拖动滚动条才能看到句末。因此,就碰到了你说的句子数少的问题。

我会再研究研究。
 
回复: 关于Readability_Analyzer_1.0.6统计数据不一的问题

方便的话,你把合并后的文档,发给我看看。

看来问题还是出在你合并后的文档上。
 
回复: 关于Readability_Analyzer_1.0.6统计数据不一的问题

你的文本是不是做过手脚啊?应该经过反复替换几次以后的结果吧(赋码-去码)。标点不对劲。

英文的标点应该是紧挨着最后一个单词的,系统判断一个句子的结束也是依据这个的。而在你的文本里,

this very day , wars have never ended .

butchered and no soul alive .

world , what should we do ?

都是这样的问题。

你再用你原始的文本试一下,句子数肯定会大大多于你的这个文本。
 
回复: 关于Readability_Analyzer_1.0.6统计数据不一的问题

上次在研修班的时候,梁教授反复强调可以通过赋码去码的过程,清理文本,比手工清理的还干净。这样一来就在所有的标点之前都有空格。我在论坛上请教,告知我没有影响的。我需要通过替换,把空格去掉吗?
如果用以前的原始文本,我需要逐一核实清理文本吗?
BTW,我想补充一点的是,我的单个文本,也全是这样有空格的文本。两边结果都是空格之下的结果
 
回复: 关于Readability_Analyzer_1.0.6统计数据不一的问题

你可以有一个测试的方法。我的初步判断是FileJoin的问题。还是原来的推测,FileJoin合并的文本,内容上不会有问题,因此做语料检索没有问题,但可能“行”的判断上有问题。

想验证这一点,你可以讲两个文本手工贴到一起,再跟单个文本计算的结果、FileJoin合并的这两个文本的结果去比对。

如果还得不到答案,那我这里也无解了。
 
回复: 关于Readability_Analyzer_1.0.6统计数据不一的问题

上次在研修班的时候,梁教授反复强调可以通过赋码去码的过程,清理文本,比手工清理的还干净。这样一来就在所有的标点之前都有空格。我在论坛上请教,告知我没有影响的。我需要通过替换,把空格去掉吗?
如.........

咱怎么就看不懂捏?;)这不太有点那个了...多走弯路了吗:rolleyes:? 真的会这么说吗? :p
你把未处理前的全部文本打个包送上来让俺看看,行不?

 
回复: 关于Readability_Analyzer_1.0.6统计数据不一的问题

Dr. Xu, thank you very much for sharing such a good tool.
But I met the same problem. i found the number of sentences generated by readability analyzer is not correct, as I can check manually. I used wordsmith 3, it is aslo not correct.
There should be no problems with the punctuation I think, wondering why.
 
回复: 关于Readability_Analyzer_1.0.6统计数据不一的问题

Can you check the word count with MS Word and see whether you get a good result?

Our word count, i.e. token definition, follows the that of MS Word, but it is different from WordSmith (all versions).

If you still have a different word count, upload your text for a good 'checkup'.

【工具】-【选项】-【拼写和语法】
 

附件

  • readability.jpg
    readability.jpg
    32.7 KB · 浏览: 88
回复: 关于Readability_Analyzer_1.0.6统计数据不一的问题

Sorry, I realise that you meant "sentence number".

Again use MS Word, the most accessible tool you have, to check "sentence number".

Check 显示可读性统计信息 according to the setting in the link below,after you have done grammar and spell in your document, and the sentence number will be displayed.

http://www.corpus4u.org/attachment.php?attachmentid=598&stc=1&thumb=1&d=1245664806

Upload your text here for a diagnosis if you like.
 
回复: 关于Readability_Analyzer_1.0.6统计数据不一的问题

Dr. Xu, thank you very much for sharing such a good tool.
But I met the same problem. i found the number of sentences generated by readability analyzer is not correct, as I can check manually. I used wordsmith 3, it is aslo not correct.
There should be no problems with the punctuation I think, wondering why.

It might not have to do with punctuations, but it can be caused by some 'invisible' line breaks, or carriage returns.
 
回复: 关于Readability_Analyzer_1.0.6统计数据不一的问题

非常感谢许博士。试了下Ms word 的这个功能,果然很好很强大。但是我需要平均句子长度, 所以还是Readability Analyser 更实用。
比较了一下,有些出入还较大。比如这篇,word 显示32句,readability 显示53句, 不知道文本有什么问题,麻烦您给分析分析,多谢!
 

附件

  • E1.doc
    35 KB · 浏览: 13
回复: 关于Readability_Analyzer_1.0.6统计数据不一的问题

非常感谢许博士。试了下Ms word 的这个功能,果然很好很强大。但是我需要平均句子长度, 所以还是Readability Analyser 更实用。
比较了一下,有些出入还较大。比如这篇,word 显示32句,readability 显示53句, 不知道文本有什么问题,麻烦您给分析分析,多谢!
在 "Averages" 栏下,MS Word 显示了各种平均数,附图中是你提供文本的数据,供参考。
 

附件

  • QQ截图未命名.jpg
    QQ截图未命名.jpg
    21.6 KB · 浏览: 53
回复: 关于Readability_Analyzer_1.0.6统计数据不一的问题

网上捡了一段显示readability的宏(宏来源于此),其计算结果有少许差别。另外,word对passive sentences的计算不知道依据的是什么参数,捡到的宏计算为0。
 

附件

  • readability.jpg
    readability.jpg
    11.4 KB · 浏览: 53
回复: 关于Readability_Analyzer_1.0.6统计数据不一的问题

网上捡了一段显示readability的宏(宏来源于此),其计算结果有少许差别。另外,word对passive sentences的计算不知道依据的是什么参数,捡到的宏计算为0。

很好,可供参考!WORD的passive的计算依据使用说明中未见到,但不会有新创,无非是"be/get + V-en"结构。
 
回复: 关于Readability_Analyzer_1.0.6统计数据不一的问题

在 "Averages" 栏下,MS Word 显示了各种平均数,附图中是你提供文本的数据,供参考。


谢谢xusun老师。再请教下哦,Ms word显示的ASL(705/32)和words per sentence数据不一,它们不是一个概念吗?
 
回复: 关于Readability_Analyzer_1.0.6统计数据不一的问题

谢谢xusun老师。再请教下哦,Ms word显示的ASL(705/32)和words per sentence数据不一,它们不是一个概念吗?

仅供参考,具体数据之间的关系,本人无解,呵呵。:p
 
Back
顶部