请问:用什么软件可以统计汉语句长

xiaoz

永远的超级管理员
Staff member
#4
回复: 请问:用什么软件可以统计汉语句长

The average (overall) sentence length in LCMC is 17 words per sentence, according to WordSmith 4.
 

附件

xujiajin

管理员
Staff member
#6
回复: 请问:用什么软件可以统计汉语句长

sure. But the corpus has to be unicodified (uft-16).
 

laohong

管理员
Staff member
#7
回复: 请问:用什么软件可以统计汉语句长

附件里是我的一个项目里的一点结果样本,请看是不是你想要的东西。

不过,在套用英语句长在文本分析中的应用,由于两种语言的差别,建议最好先把下面几个问题搞清楚:

1、如何定义汉语句子及其类别?

2、是否基于标点符号就可自动断句?

3、句长是应该基于词还是字数来计算?
例如,上面这个问句就有10个词15个字。

4、如果按词来计算句长,如何比较用不同分词器分词后的结果呢?
例如,有的分词器把“中国共产党”分成一个词,有的分成两个词,这样计算出来的句长就很难比较了。
 

附件

mayerniu

初级会员
#8
回复: 请问:用什么软件可以统计汉语句长

Thank you, Dr. Xiao, I have also known how to retrieve the data such as the average word length, sentence length, etc. Although it is not difficult to operate, what makes the greenhands puzzled are the steps of operation and the lack of instructions. That's why I always come to this forum to get some inspiration, because there so many kind and generous helpers!!
 
#10
回复: 请问:用什么软件可以统计汉语句长

洪博士所言极是,不同的定义往往会影响不同的句子数量。那么词匠4里面是怎么定义汉语句子的呢?找了一下没有结果,有人找到了么?谢谢告知!
 
#11
回复: 请问:用什么软件可以统计汉语句长

附件里是我的一个项目里的一点结果样本,请看是不是你想要的东西。

不过,在套用英语句长在文本分析中的应用,由于两种语言的差别,建议最好先把下面几个问题搞清楚:

[FONT=宋体]谢谢xiaoz[FONT=宋体]和[/FONT]laohong[FONT=宋体]的答复。[/FONT][/FONT]

laohong[FONT=宋体]的统计真全面,词和字都照顾到了,厉害。[/FONT]

laohong[FONT=宋体]说得很对,统计句子前,是有些问题要说清楚:[/FONT]
1.[FONT=宋体]用句号、分号、省略号和感叹号,来断句。只要句末出现了上述标点符号的任意一种,都把它看作一个句子。[/FONT]
2.[FONT=宋体]以字为单位来统计句长。[/FONT]
3.[FONT=宋体]期望的统计结果:要laohong[FONT=宋体]所示的具体分析,也要如我图所示的汇总。[/FONT][/FONT]

[FONT=宋体]谢谢![/FONT]
 
Last edited:

laohong

管理员
Staff member
#13
回复: 请问:用什么软件可以统计汉语句长

洪博士所言极是,不同的定义往往会影响不同的句子数量。那么词匠4里面是怎么定义汉语句子的呢?找了一下没有结果,有人找到了么?谢谢告知!
如果是分词过的文本(如肖教授的LCMC),句长是按词数计算的;如果是在字前加空格的分词法(分字),句长是按字数算的;如果既没有分词也没有分字,那就是把一个句子当成一个词来计算的。

不管是按词数还是按字数都有利弊,学界也有争论,这也就是为什么我的样本里尽量兼顾两种结果了。例如:

1a 中华人民共和国/老百姓/的/生活/水平/已经/改善/了/许多/。
1b 中华/人民共和国/老百姓/的/生活/水平/已经/改善/了/许多/。
1c 中华/人民/共和国/老百姓/的/生活/水平/已经/改善/了/许多/。
2 中国/老百姓/的/生活/水平/已经/改善/了/许多/。

根据词数来说,1b和1c都比1a和2多,但没有足够的理由可证明1b和1c句就比1a和2句语言复杂程度高,信息含量大。同样,根据字数来说,1a,1b和1c都比2句多,也没有足够的理由支持2句的信息含量小,语言复杂程度低。
 

wandong

初级会员
#16
回复: 请问:用什么软件可以统计汉语句长

定义句子确实是一个麻烦的问题,在做句法分析器的时候这个问题尤其令人头疼.在中文信息处理界.可能是以标号来作为一个句子的,如".?!"等.
 

xiaoz

永远的超级管理员
Staff member
#17
回复: 请问:用什么软件可以统计汉语句长

I use five sentential punctuation marks and paragraph marks:
。!?;:

定义句子确实是一个麻烦的问题,在做句法分析器的时候这个问题尤其令人头疼.在中文信息处理界.可能是以标号来作为一个句子的,如".?!"等.
 
#18
回复: 请问:用什么软件可以统计汉语句长

The average (overall) sentence length in LCMC is 17 words per sentence, according to WordSmith 4.
请教肖博士,您是怎么得到这个结果的?我也是用Wordsmith 5 处理lcmc 做出来的数据是41.59 是不是wordsmith 的设置出了什么问题?lcmc 也用wordsmith 转成了unicode 前面的帖子里提到不能用wordsmith 转 但是不转的话出来的词频表都是乱码 句长是36 我是用<s>和</s> 来定义句子的 谢谢!
 

qierflying

初级会员
#19
回复: 请问:用什么软件可以统计汉语句长

不考虑应用目的问题,句长一般按照词长计算。
要考虑的问题是标点符号是不是需要计入。
统计句长先进行分词,然后根据自己的要求编写统计工具。
 
顶部