新手请教语料库问题。求赐教。

毕业论文写基于语料库的中英报刊标题的语言特征差异。
自建了两个小语料库。收集完语料并输入txt里。约为各300条关于G20的英文标题。
请问。如果要得到缩略词的使用频率。完整句和省略句的使用频率。以及词长。类符。标题词长。区间范围内的高频词要怎么操作呢。
已下载了Go tagger, antconc, readability analyzer.
根据antconc的说明操作出来的数据是乱码的。这样的现象是txt里面的内容没处理好吗。
如果要得出以上数据。是否需要全部标注呢。
晚上看了一些文章还是没有明白。能麻烦知道的前辈赐教下吗。感激不尽!
 
回复: 新手请教语料库问题。求赐教。

这个马年新帖有点乱,尤其在中文标点的问题上。
缩略词可以使用正则查找,这个表示大写字母连续至少两次:[A-Z]{2,}(AntConc就行,但是G20不能匹配),查出绝对数量再手动计算频率;
标题用完整句的不多吧,想不到人工判读之外的办法;
后面几项统计要求不是很懂;
乱码应该是编码问题,把txt另存为unicode编码应该是AntConc支持的,里面的GlobalSettings - Language Encoding可以改为与之一致;
标注的话好像没必要,这里用到词性信息吗?
 
回复: 新手请教语料库问题。求赐教。

这个马年新帖有点乱,尤其在中文标点的问题上。
缩略词可以使用正则查找,这个表示大写字母连续至少两次:[A-Z]{2,}(AntConc就行,但是G20不能匹配),查出绝对数量再手动计算频率;
标题用完整句的不多吧,想不到人工判读之外的办法;
后面几项统计要求不是很懂;
乱码应该是编码问题,把txt另存为unicode编码应该是AntConc支持的,里面的GlobalSettings - Language Encoding可以改为与之一致;
标注的话好像没必要,这里用到词性信息吗?

用搜狗输入法打出的句号就变成了。这个神奇的符号.~马年快乐!十分感谢!
嗯呐,好像的确是没有用到词性信息.
后面几项就是为了对两个语料库在简短词方面有比较清楚的认识然后将两个语料库的类符数据,单个词长数据以及整个标题词长数据相对比.
谢谢你的回答!我先去实践一下你所说的几点看自己是否明白!谢谢!
 
可以问下去哪能下载Readability analyzer吗?我想用这个软件计算词长句长,却苦于下载不到,可否告知,谢谢你啦!
 
Back
顶部