自建语料库的标注或赋码

各位大师,我正在自建一个语料库用于研究连接词的用法。我将连接词分成好几类进行检索。由于以前没有建库的经验,我想问,是用各种表达式(如用通配符和正则表达式)对每个连接词检索吗?用if,and, or等表达式进行可行吗,是不是需要计算机编程同学的帮助呢?
此外, 赋码工具一般是针对词法或句法的,这对于我的研究方向不一致,自己如何对其进行赋码呢?谢谢你们啦~:)
 
回复: 自建语料库的标注或赋码

这个不需要自建语料库,因为自建的不一定有说服力啊,有的建好的语料库也可以用啊,比如BNC等,甚至该语料库赋码都已经做过了,只需检索即可。也不需要学会什么编程,只需会是识别码所代表的意思就可以了,一看说明就能搞定。当然如果正则表达式学得好会效率很高的!
 
回复: 自建语料库的标注或赋码

用普通的本族语英语语料库,如Brown或者BNC在线检索,提取语料自己分析就可以,直接检索这些连接词就可以了。
 
Back
顶部