单词平均长度用什么软件可以求出啊?

#1
各位老师好,本人语料库刚入门,遇到一些困难:做文体分析时,想分析单词平均长度,请问用什么软件可以测出啊?比如:就是给一个文本,如何能求出当中的单词平均长度啊!谢谢!:confused:
 

armstrong

高级会员
#2
回复: 单词平均长度用什么软件可以求出啊?

用word就可以办到。
方法是:在“工具”菜单下的“拼写和语法”下,点击“选项”后,勾上“显示可读性信息”,确定后,点击“全部忽略”,就会弹出“可读性信息”框,其中“average”中的最后一行就是单词的平均长度。
 
#3
回复: 单词平均长度用什么软件可以求出啊?

谢谢这位老师的解答。可是我的语料都是以很多个.txt保存的文件,有没有什么软件可以直接在txt上操作的呢?如果把这些个txt全部都转成word文档,那很繁琐啊。:confused:
再追问一下:Wordsmith 5.0 在哪里能够弄到? 要是买的话,在哪能买到呢? 我看很多人用这个软件, 究竟比 antconc 强大多少呢?

谢谢!
 

volfer

Moderator
#4
回复: 单词平均长度用什么软件可以求出啊?

可以用许家金老师开发的Readability Analyzer来做,其中的AWL为平均词长。见这个帖子:http://www.corpus4u.org/showthread.php?t=4826&highlight=readability+analyzer
wordsmith价格不清楚,至少要好几百,可能上千吧。如果只是做做初步的研究,算算collocates, MI/t值什么的,antconc绝对足够了,而且简便易携带,又不需要安装,还是很推荐的。
如果你想试用wordsmith,网上有许多试用版。
 

armstrong

高级会员
#5
回复: 单词平均长度用什么软件可以求出啊?

Wordsmith tools 可以办到,它处理文本文件. 是一款商业软件, 购买见:http://www.lexically.net/wordsmith/version5/index.html
antconc是一免费共享软件,功能基本够用,而且支持强大的正则表达式,目前Wordsmith tools 不支持正则表达式.遗憾的是antconc没有句长、词长处理功能。
搜索本坛,好象许博士开发了一软件可以计算句长、词长等数据,并且处理文本文件。
 
#6
回复: 单词平均长度用什么软件可以求出啊?

非常感谢楼上的老师给予的悉心指点,小弟感谢不尽。非常感谢!
 
#7
请问许博士:如何给单词长度赋码并且检索

我也使用了许博士的Analyzer非常强大,给出了不少有效信息。其中包括了楼主问的平均词长。

但是我想把每个长度的词语数目都统计清楚该怎么办啊?有没有赋码软件可以给单词长度赋码,然后在隐去赋码,利用AntConc来检索不就可以了么?
 
#9
回复: 单词平均长度用什么软件可以求出啊?

请问哪位知道用wordcloud制作汉语的“云”的具体操作办法?多谢了!
 
#11
回复: 请问许博士:如何给单词长度赋码并且检索

我也使用了许博士的Analyzer非常强大,给出了不少有效信息。其中包括了楼主问的平均词长。

但是我想把每个长度的词语数目都统计清楚该怎么办啊?有没有赋码软件可以给单词长度赋码,然后在隐去赋码,利用AntConc来检索不就可以了么?
我用的wsmith,只可以查到1-4个字母单词的数量,其余的都显示为demo limit, 请问大家是如何查到所有长度词语的数目啊?多谢!
 

李亮1975重庆

语料库快乐军政委
#12
小规模用Word 2003吧,大规模再加上AntConc了!

我们可以有这样的一个另类的非主流的计算公式哈:
平均词长=(字节总量-单词总量)/单词总量
平均词长=(字符总量-单词总量)/单词总量

理论基础是:高度普遍的规律为,每个单词后面都有一个空格或者这个空格是一个标点(例如:逗号或问号或感叹号或圆括号或单引号或双引号),所以,字节总量或字符总量不等于所有单词的累积长度,而需要扣除1。示例如下,假设我们有1个txt文件中仅仅包含了下面的内容而需要计算平均词长:

"I love you."

以上,平均词长为2.66(8个字母除以3,等于2.66),扣除3是因为两个空格和一个句号。这里,字节总量为11个,单词数量为3个,所以,(11-3)/3=2.66

小规模操作的情况下,可以在Office Word中操作,点菜单的“字数统计”而弹出的对话框来知道“单词总量”和“字节总量”,这里的“字节总量”就是“字数统计”对话框上的“字符数(包括空格)”。

拿到两个值而计算第三个值的时候,可以点“开始”菜单的“程序”的“附件”的“计算器”,这个小东东,是Windows XP和后续的Windows版本都自带的内置的。

大规模操作(很多txt文件甚至处于不同的很多文件夹之内)的情况下,用AntConc进行一系列txt文件的加载(用AntConc的菜单“File”的“Open File(s)”和“Open Dir”来一口气选中以及多次选中而加载了多个文件和不同文件夹中的多个txt文件),然后点“Word List”窗体页面的下面偏左“Start”按钮,少顷,就能实现单词总量的一口气计算与呈现,然后自己亲手在文件夹中一次性选中整个文件夹或所有txt文件,点右键,看“属性”而得知“字节总量(字符总量)”,这也是包括空格的。这样,就“妙手空空”地计算了“小规模的单个文件的平均词长”了,也冒了一小点麻烦而借助AntConc计算了它原本不能计算的“大规模的N个文件的平均词长”了。
 
顶部