求助各位前辈中韩平行语料库建库问题

#1
我想建一个中韩双语平行语料库,实在是新手,问题很多,请问那些软件是支持韩语的
?有没有前辈建过韩语的语料库,非常希望请教~
 
#2
回复: 求助各位前辈中韩平行语料库建库问题

在建立一个语料库之前,你要有两个准备。首先,想好这个语料库的目的是什么。是用来进行一些语言现象的观察,还是说用于自然语言处理,还是用于翻译,等等。自然语言处理对标注的要求是极高的。用于辅助翻译的话,则对翻译质量有较高要求。如果只是语用,语法方面的观察和调查,那么就比较方便。文本质量上,一般只要保证基本正确就可以。标注方面,至少做到句子层面的对齐。

其次,最好要懂一门编程语言。推荐Python。

如果目前手里没有生语料,那么你第一步需要做的是去找中韩对译的资料。其中最方便的肯定是网络上现成的文本。就我的经验来看,东亚日报有比较稳定的中韩双语新闻。朝鲜日报也有一些。此外就是中国驻韩国的大使馆了。

如何从这些网站上下载?你可以自己一篇一篇的复制,然后分别存放。但这会非常枯燥。合适的办法是,用Python写爬虫脚本自己抓去,然后利用正则表达式抽取正文。当你学会这些技巧(两三个月应该差不多),就可以自己试着写一些自动对齐的脚本,把中韩文本分别分句,对齐。这个一般是没有现成的工具的。韩语不像英语。

这个环节为什么没有(或者很少有)现成的软件?因为信息抽取和自动对齐本身就不是一个简单的过程。没有软件能做到100%的正确率。另一方面,每个语料库都有自己的储存、整理标准,软件无法照顾到所有情况的。不过倒是有一些比较成熟的算法,可以用这些算法来写自己的软件。

查询方面,可以用Xujiajin老师的软件。名字是CUC_ParaConc。是一款很强大的支持Unicode的软件,真的很方便。也可以用专门的商业软件ParaConc。
 
#3
回复: 求助各位前辈中韩平行语料库建库问题

谢谢指点~~以后恐怕还得向你请教,我自己先试一试呵呵
 
顶部