小子虽然是专业硕士,但是心思一直在学术上。研一上学期一直在捉摸自然语言处理和机器翻译,发了篇论文;下学期发现自己在数学上是在是没法和工科、理科的比,决定退出更深层次的研究,偶然间在看书的时候发现了“计算风格学”的东西,恰逢当时杨绛书信拍卖事件出来了,我就想弄用计算风格学来研究以下保利要拍卖的这些书信到底是不是杨绛写的。然后看的资料就开始向语料库靠拢,后来彻底沉迷了。
因为我发现,以我的计算机能力,如果发挥最好水平,在语料库领域还算不错,而且加上语言学的学习背景,恰到好处。于是13年5月份决定自己做一个语料库,拿到了8000万汉字的英汉平行语料(篇章级,数量持续增加中),应该是全国第一个以译者为中心的翻译语料库。目前已经处理了1000万汉字/英文词的段对齐,10月初将完成100万的句对齐(实在没办法了,我领导的小团队只有10个人,还都是学生志愿者,效率并不高,主要程序员还在考研,遇到的技术问题要推迟解决),预计在11-12月发布网页版(敬请期待),将支持输入句子搜索相似句子(如输入‘i eat food.’--->'it kills Bill','he loved Penny','Mom told me.')、类似于Google翻译的准确度不高的基于词典的词对齐(准确度真的很低)等功能。
相关的论文也在撰写,专注在译者风格上,有非常多有意思的发现。除了翻译研究,其他的语言研究也没有问题。
不知道,以我这样的能力,去考上海交大的博士生可以不?
初试是不是和这些内容没有关系?考官应该不会对专业硕士持偏见吧?
有需要试用pilot corpus的吗(60万字句对齐)?
因为我发现,以我的计算机能力,如果发挥最好水平,在语料库领域还算不错,而且加上语言学的学习背景,恰到好处。于是13年5月份决定自己做一个语料库,拿到了8000万汉字的英汉平行语料(篇章级,数量持续增加中),应该是全国第一个以译者为中心的翻译语料库。目前已经处理了1000万汉字/英文词的段对齐,10月初将完成100万的句对齐(实在没办法了,我领导的小团队只有10个人,还都是学生志愿者,效率并不高,主要程序员还在考研,遇到的技术问题要推迟解决),预计在11-12月发布网页版(敬请期待),将支持输入句子搜索相似句子(如输入‘i eat food.’--->'it kills Bill','he loved Penny','Mom told me.')、类似于Google翻译的准确度不高的基于词典的词对齐(准确度真的很低)等功能。
相关的论文也在撰写,专注在译者风格上,有非常多有意思的发现。除了翻译研究,其他的语言研究也没有问题。
不知道,以我这样的能力,去考上海交大的博士生可以不?
初试是不是和这些内容没有关系?考官应该不会对专业硕士持偏见吧?
有需要试用pilot corpus的吗(60万字句对齐)?