已报名北外语料库语言学。

本文由 t_risteros2014-10-12 发表於 "语言学考博" 讨论区

  1. 是考研。名字变了,参考书也变了。在淘宝上买了往年的真题,不知道还有没有参考价值?原来那本Jurafsky还需要看吗?
     
    Last edited: 2014-10-12
  2. 回复: 已报名北外语料库语言学。

    我先写点自己的认识。手上只有11-14年四年的真题,所以只能拿它们来分析。两门专业课——「计算语言基础」(11年叫做「基础英语(计算语言学)」)和「自然语言处理基础」,分开来说。

    1「计算语言基础」

    如同11年考卷的标题暗示的,这一科大致上还逃不出基础英语的范围。四年里,有一道分值100分的大题从未缺席,其形式是阅读一篇文章,然后翻译(50分)、转述(20分)以及总结大意(30分)。其中,文章的主题都与语言学相关;翻译的题量较大;转述从11年的用汉语转述变成了后三年的用简单的英语转述;总结大意则一律规定为500汉字。可以看出,这些题目需要一定的语言学知识,但关键还是考察英语基础。

    再来看另外50分。11年和12年都考了30分的填空题,13、14年则用这30分考了考名词解释。填空题的形式是在一篇文章中填一些常见搭配的词组,较为基础。要解释的名词则都紧紧关系语料库。我认为填空题并不考察「计算语言」相关的内容,又较为容易,所以不会再出。

    最后20分最为特殊。11年和13年都是给出一个concordance的截图,让答题者从中归纳总结,区别在于11年的单词是「caused」,13年的是「cause」(包括了词形变化)。12年的这20分给在了一道十分特殊的题目上,一共三十句话和三十个空,每三句要求用同样的词填入,使句子通顺。14年呢,则是给出了「account」一词的collocational analysis,要求你描述这个词的用法,并要记住「你是在给一本学习者词典撰写内容」。

    我认为12年的这道题虽然不容易做,但也与「计算语言」关系不大。另三年的题目则直接用到了语料库,与考试主题关系密切。

    2 「自然语言处理基础」

    这一科就要难分析得多。除了每年都有的一道「描述你感兴趣的课题并给出解决方法」、「介绍你想做的语言处理项目」这样开放性的、价值50分的大题以外,其他题目并无什么总的规律,只能罗列一下都考过些什么:

    a 开放性题目。「描述你设想的语料库加工处理过程」、「介绍一种你熟悉的语言资源」。
    b 有限状态转移图。11年给出图写实例,13年给出正则表达式,要求画出状态转移图并且写出实例。
    c 正则表达式。除了上面提到的13年那道,14年给出要求和测试文本,写四个正则表达式。
    d 句法分析树。11年给出树写出各种符号,列出语法规则。14年给出一些概率数据,判断一句话应该理解成哪一棵树。12年给出一句话,要求用「某种语法体系」进行解释,也属于这一类。
    e 分词。给出一些概率,判断一串字符应该如何分词。
    f 比较一句话与另两句话的相似程度。
    g 给出了不合法的构词形式,说明原因。
    h 根据索引行总结词义。(与「计算语言基础」中的题目类似)
    i 罗列并解释一句话的几种歧义。
    j 像是名词解释的题。「指出「stemming」和「lemmatization」的区别及分别如何实现。」「试述你对「将互联网与语料库研究结合起来」的看法。」
    k 「汉语和英语各有哪些表示某人何时出生的表述模式?」
    l 给出一双语(平行?)语料库中的句对,总结规律。(英语和用罗马字写的日语……)

    因为这一科叫做「自然语言处理基础」,因此考察的内容不仅有语料库,更有nlp。但是改革以后,nlp消失了,不仅从名字里,也从参考书里。接下来再说说改名字和改参考书的事儿。

    3 二零一五(四?)

    我所知道的是,今年,本方向的名称从「计算语言学」改名「语料库语言学」,考试科目由「计算语言基础」「自然语言处理基础」改为「语言学基础」「语料库语言学」,而参考书目则去掉了Jurafsky的「Speech and Language Processing」(一本自然语言处理的综合性著作),加上了McEnery的「Corpus Linguistics: Method, Theory and Practice」(一本有关语料库各方面的总论)和Yule的「The Study of Language」(一本经典而常见的语言学导论),另外外研中心几位老师自己编写的《语料库应用教程》则没有变化;我所不知道的是,这一切意味着什么。因此我只能作一些猜测,而事实究竟如何只有等我12月底坐在考场拿到试卷才能知道。

    我坦白承认自己对无论计算语言学、自然语言处理还是语料库语言学都所知甚少,故不敢妄谈它们之间究竟有什么分别和联系。因为「语言学基础」这一科继承之前的「计算语言基础」,因此有一些确定无疑的结论总是可以得出的。但疑问就在于语料库的内容是否也会夹杂其中,对此我有两种看法:

    a 根据两门考试的名称,「语言学」、「语料库语言学」各自分工,则这一科应当考察普通语言学,与语料库无涉。
    b 根据考试的语言要求,这份英文试题对应两本英文的参考书,故试卷中也会包含语料库的内容。

    因此对这一科,结论就是:相比「计算语言基础」,变化不会太大。有100分的题目甚至不会改变题型;除此之外的题目会以何种方式出现,其中会考多少普通语言学或者语料库语言学的知识,无法确定。

    对于「语料库语言学」,我不知道有限状态机、句法分析树这些更偏nlp,并且指定教材中并不涉及的内容会不会再考。至于题型如何会怎么出题更不能确定。

    这个帖子的目的,其实就是表达上面这么一个疑惑,没想到也帮自己梳理了一遍真题。最后说一下自己的情况:跨专业应届考生。专业跨得非常之大,只希望考上的概率不会非常之小就好。算是求援,也算是求愿。

    以上。
     
    Last edited: 2014-10-13
  3. 回复: 已报名北外语料库语言学。

    感觉nlp部分全都不会啊,Good luck!
     
  4. 回复: 已报名北外语料库语言学。

    祝好运!
     
  5. 计算语言学可能更多从理论角度来说,NLP主要是从工程角度来说的。其实没啥差别,就是名字不一样。Corpus linguistics估计只能算是语言学下的一个分支?因为NLP的研究面宽很多,光是语言(指written language)的就还包括机器翻译,信息提取,sentiment analysis等等,语音方面的还有语音识别,语音合成等等。而corpus并不涉及这么多的东西。
     
  6. 回复: 已报名北外语料库语言学。

    考完一个月了,感觉已经什么都不记得了。

    感觉考得很差。「语料库语言学」那一科几乎是乱答的。果然没有考任何正则表达式、句法树这些简单的东西……
     
  7. 回复: 已报名北外语料库语言学。

    其实自动机和正则这些东西,编译原理里用得更多……
     
  8. 回复: Re: 已报名北外语料库语言学。

    确实。在 NLP 语境里,corpus 仅仅是个工具而已。

    但在 corpus 自己的语境里,NLP 也给我们提供了许多发展 corpus 的工具……