古汉语典籍的语料处理问题

Jacob_Chan · 2016-04-03

各位老师，你们好！学生想研究典籍英译方面的内容，因为古汉语和现代白话文处理不太一样，想请问老师们如何对古汉语（文言文）进行语料分析，怎么用语料软件处理一个典籍原本？

oscar3 · 2016-04-05

不知道你具体要做什么，比如，要提取什么的信息，要分析什么样的结构等等，所以，大家不太好帮你。

Jacob_Chan · 2016-04-05

作者 oscar3:
不知道你具体要做什么，比如，要提取什么的信息，要分析什么样的结构等等，所以，大家不太好帮你。

谢谢老师的回应。我想借助语料库做关于典籍翻译文体的研究，但是我初次接触语料库，对如何用各种软件分析语料都不了解。想请问老师，如果我想自建小型语料库，分析《古文观止》译本的词汇特征（类符形符比，句长之类，独特词的处理），显化隐化现象，以及译本中排比结构的翻译比较，可以借助哪些软件？另外怎么分析这些软件的得出的数据？

asking · 2016-05-04

古汉语语料处理首先需要分词，目前没有公开的古汉语分词软件，研究者自己开发的东西分词效果也不太好，需要人工校对。
只有分词之后才谈得上其它的分析问题。
建议楼主使用论坛上的工具先在汉字间添加空格，再使用文本处理器批量合成多字词，最后人工修改。

ArthurW · 2016-12-10

asking说得对，古汉语没有可用的分词工具，目前的主要方法是以字为单位字间加空格。不过古文中的字多义和歧义现象太多，不好计算TTR，勉强计算意义非常有限。
至于译文的排比结构与句式有关，要看定义为句子层面还是短语层面。如果是句层面可先做sentence split，然后再选择性地找某些排比结构。
另外估计你想将原文与译文相对照检索，这就需要对齐了。建议看下AntPConc软件

古汉语典籍的语料处理问题

Jacob_Chan

oscar3

高级会员

Jacob_Chan

asking

ArthurW