自建一个小型的汉语语料库

大家好,我已经收集了几十篇汉语文章,是从Pdf格式转换成Text格式,还没做标注整理。请问
1.直接转换过来的Text文本需要做些其他什么处理呢?
2.里面出现的页码数字可否删除?
3. 我只需要概率和频率数据,以及一些关键词的搜索处理,还不需要句型处理,需要使用到什么工具呢?
去年参加了外研社的语料库基础课程研修班,初步了解了语料库,里面介绍的工具不知道能否运用在汉语方面。比如ANTCONC。

谢谢指教。
 
回复: 自建一个小型的汉语语料库

你首先需要对这些语料进行标注-》赋码然后就可以做成语料库了
如果想读取pdf,你可能需要了解tika,来读取pdf里面的文字。
 
Back
顶部