小 小其子 2013-05-05 #1 大家好,我已经收集了几十篇汉语文章,是从Pdf格式转换成Text格式,还没做标注整理。请问 1.直接转换过来的Text文本需要做些其他什么处理呢? 2.里面出现的页码数字可否删除? 3. 我只需要概率和频率数据,以及一些关键词的搜索处理,还不需要句型处理,需要使用到什么工具呢? 去年参加了外研社的语料库基础课程研修班,初步了解了语料库,里面介绍的工具不知道能否运用在汉语方面。比如ANTCONC。 谢谢指教。
大家好,我已经收集了几十篇汉语文章,是从Pdf格式转换成Text格式,还没做标注整理。请问 1.直接转换过来的Text文本需要做些其他什么处理呢? 2.里面出现的页码数字可否删除? 3. 我只需要概率和频率数据,以及一些关键词的搜索处理,还不需要句型处理,需要使用到什么工具呢? 去年参加了外研社的语料库基础课程研修班,初步了解了语料库,里面介绍的工具不知道能否运用在汉语方面。比如ANTCONC。 谢谢指教。
xujiajin 管理员 Staff member 2013-05-05 #2 回复: 自建一个小型的汉语语料库 汉语用BFSU PowerConc1.0beta20.zip检索比较方便 http://ishare.iask.sina.com.cn/f/35649470.html
小 小其子 2013-05-06 #3 回复: 自建一个小型的汉语语料库 作者 xujiajin: 汉语用BFSU PowerConc1.0beta20.zip检索比较方便 http://ishare.iask.sina.com.cn/f/35649470.html Click to expand... 非常感谢许老师,去年有幸听了你的课,受益匪浅!
回复: 自建一个小型的汉语语料库 作者 xujiajin: 汉语用BFSU PowerConc1.0beta20.zip检索比较方便 http://ishare.iask.sina.com.cn/f/35649470.html Click to expand... 非常感谢许老师,去年有幸听了你的课,受益匪浅!
X xizero00 2013-05-06 #4 回复: 自建一个小型的汉语语料库 你首先需要对这些语料进行标注-》赋码然后就可以做成语料库了 如果想读取pdf,你可能需要了解tika,来读取pdf里面的文字。