关于中文语料库句长及词汇频率问题

#1
请教各位大师,

我在做中文的语料库,现遇到以下三个问题,急需大家帮忙:

1. 有可以测中文句长,或是平均句长的软件和方法吗?

2. 在测the most frequent word的时候,应该用什么软件?

3. 还有一个不明白的问题就是,需要做词汇密度的stardard deviation吗?

谢谢大家帮忙。
 
#3
回复: 关于中文语料库句长及词汇频率问题

首先声明俺不是大师,呵呵,新年快乐
问题1 可以用word 2003 中的可读性信息选项来进行测量
问题2中文的话,可以先经过分词后用antconc或者wordsmith 都可以进行测量,至于如何分词以及两种软件的使用请利用站内搜索功能进行检索
问题3首先要搞清楚sd 这个统计量的意义,而后再看是否要测,关键看你的研究问题是什么。
 
#4
回复: 关于中文语料库句长及词汇频率问题

首先声明俺不是大师,呵呵,新年快乐
问题1 可以用word 2003 中的可读性信息选项来进行测量
问题2中文的话,可以先经过分词后用antconc或者wordsmith 都可以进行测量,至于如何分词以及两种软件的使用请利用站内搜索功能进行检索
问题3首先要搞清楚sd 这个统计量的意义,而后再看是否要测,关键看你的研究问题是什么。
感谢楼上的回答,对我的论文很有帮助,在我看来,您就是大师了。新年快乐。;-)

关于第二个问题,我的语料已经做过分词,如何使用antconc检测词频呢?有没有别的软件可以使用呢?Keywords.exe?

再次感谢。
 
#5
回复: 关于中文语料库句长及词汇频率问题

感谢楼上的回答,对我的论文很有帮助,在我看来,您就是大师了。新年快乐。;-)

关于第二个问题,我的语料已经做过分词,如何使用antconc检测词频呢?有没有别的软件可以使用呢?Keywords.exe?

再次感谢。
针对第二个问题中检测词频,请具体参考antconc 的使用手册!这个软件似乎没有 wordsmith 中的 keywords的模块,但是也一样可以计算词频。
 

gshulun

初级会员
#6
回复: 关于中文语料库句长及词汇频率问题

如果已经分词,如果规模不是很大,我可以教你用不太复杂的方法自己免费计算(只要利用普通的office组件就行了。)

感谢楼上的回答,对我的论文很有帮助,在我看来,您就是大师了。新年快乐。;-)

关于第二个问题,我的语料已经做过分词,如何使用antconc检测词频呢?有没有别的软件可以使用呢?Keywords.exe?

再次感谢。
 

xusun575

高级会员
#7
回复: 关于中文语料库句长及词汇频率问题

如果已经分词,如果规模不是很大,我可以教你用不太复杂的方法自己免费计算(只要利用普通的office组件就行了。)
什么好方法?亮一下哈!:p
 

gshulun

初级会员
#8
回复: 关于中文语料库句长及词汇频率问题

简单说来是这样的:先把已经切词的语料转变成一词一行(这一点如果短的话,可以在WORD中做替换,比如把词的的间隔,一般是空格替换成回国符,长的话,可以在UltraEdit中进行,速度会快很多),然后把一词一行的文本文件导入到ACCESS的新表中,再使用其中现成的重复查询就可以获得每个词的重复出现次数即词的绝对频数。
如果大家有兴趣,我得空再整理一下,写得详细一点。
 

xusun575

高级会员
#9
回复: 关于中文语料库句长及词汇频率问题

...然后把一词一行的文本文件导入到ACCESS的新表中,...
如果大家有兴趣,我得空再整理一下,写得详细一点。
谢谢,简单实用.同时对你将txt文本导入access新表也很感兴趣. 我的问题是: 用指定符号间隔的多列文本如何导入access呢?这里先谢了!
 
#10
回复: 关于中文语料库句长及词汇频率问题

恐怕得先学学如何使用Access,这类问题在Access中很容易解决。其实,语料库的核心就是数据库。
 

gshulun

初级会员
#11
回复: 关于中文语料库句长及词汇频率问题

只要启动ACCESS,在新建表时选择从外部导入数据(2003与2007版本有一些不同)就可以根据提示一步步导入成功,指定分隔符号最好用Tab键即制表符,对于中文文本也可以使用普通空格。
具体在ftp://ftp.cs.sjtu.edu.cn/gshulun/%B7%A2%B1%ED%C2%DB%CE%C4my_published_papers/上有一篇文章《如何进行汉字频率统计》谈了字频统计的具体操作步骤,词频统计类似,而且可以更简单一下(就是在一字一行这一步时改为一词一行,把每个词的分隔符比如空格替换成回车符就行了)。(因为忙,今天才回复,请各位见谅。希望有机会继续跟大家交流语料库方面的心得。)

谢谢,简单实用.同时对你将txt文本导入access新表也很感兴趣. 我的问题是: 用指定符号间隔的多列文本如何导入access呢?这里先谢了!
 
顶部