古汉语典籍的语料处理问题

本文由 Jacob_Chan2016-04-03 发表於 "汉语语料库" 讨论区

  1. 各位老师,你们好!学生想研究典籍英译方面的内容,因为古汉语和现代白话文处理不太一样,想请问老师们如何对古汉语(文言文)进行语料分析,怎么用语料软件处理一个典籍原本?
     
  2. oscar3

    oscar3 高级会员

    不知道你具体要做什么,比如,要提取什么的信息,要分析什么样的结构等等,所以,大家不太好帮你。
     
  3. 谢谢老师的回应。我想借助语料库做关于典籍翻译文体的研究,但是我初次接触语料库,对如何用各种软件分析语料都不了解。想请问老师,如果我想自建小型语料库,分析《古文观止》译本的词汇特征(类符形符比,句长之类,独特词的处理),显化隐化现象,以及译本中排比结构的翻译比较,可以借助哪些软件?另外怎么分析这些软件的得出的数据?
     
  4. 古汉语语料处理首先需要分词,目前没有公开的古汉语分词软件,研究者自己开发的东西分词效果也不太好,需要人工校对。
    只有分词之后才谈得上其它的分析问题。
    建议楼主使用论坛上的工具先在汉字间添加空格,再使用文本处理器批量合成多字词,最后人工修改。
     
  5. asking说得对,古汉语没有可用的分词工具,目前的主要方法是以字为单位字间加空格。不过古文中的字多义和歧义现象太多,不好计算TTR,勉强计算意义非常有限。
    至于译文的排比结构与句式有关,要看定义为句子层面还是短语层面。如果是句层面可先做sentence split,然后再选择性地找某些排比结构。
    另外估计你想将原文与译文相对照检索,这就需要对齐了。建议看下AntPConc软件