中英语料库对比问题

各位高手前辈好!最近想做一个关于中英文歌词语言中超常规搭配现象对比的研究。在准备小小的语料库的时候有个疑问,用什么来衡量这两个语料库的对应程度呢?是从语篇的数量上还是总字数上呢?例如,是说中英文各100首歌歌词还是中英文各3万字呢?谢谢解答!
 
回复: 中英语料库对比问题

各位高手前辈好!最近想做一个关于中英文歌词语言中超常规搭配现象对比的研究。在准备小小的语料库的时候有个疑问,用什么来衡量这两个语料库的对应程度呢?是从语篇的数量上还是总字数上呢?例如,是说中英文各100首歌歌词还是中英文各3万字呢?谢谢解答!
会不会没结论呢?中,你指的是哪中方言啊,只是普通话吗?普通话有台湾省的因素,如果他们的搭配有不同,能代表全中国吗?如果不能,你的选择是否很难找到较多歌词?英,你指哪国的英?泛指?全世界?我觉得这是很需要解决的问题,而不是数量的多少或字数的多少。
 

volfer

Moderator
回复: 中英语料库对比问题

100首肯定太少了。1000首差不多吧。正如leanne说的,如何选取有代表性的语料,是个问题。歌曲类型,歌手(不能全是一两个人的吧),年代,等等,都要考虑的。
 
回复: 中英语料库对比问题

中文仅限于普通话(包括台湾和香港歌手的普通话歌曲),英文也没有特别限定。因为找的歌词是从2000-10年中英文歌曲权威排行榜前10(剔除粤语歌)中选取的,因此应该具有一定的普遍性吧!
 
什么叫reference corpora

请教楼主一个小小的问题:什么叫reference corpora?使用条件是什么?即,何时可以为相互reference?
万分感谢。
 

volfer

Moderator
回复: 什么叫reference corpora

请教楼主一个小小的问题:什么叫reference corpora?使用条件是什么?即,何时可以为相互reference?
万分感谢。
reference corpus意为参照语料库,是针对你研究所选取的语料库(称为observed corpus观察语料库)作为参照的,其作用就如同一把尺子,提供相应的参照标准。例如LZ要研究歌词的语言特征,那么可以自己先建立一个英文歌词语料库,再选取一个通用语料库,如美国英语口语语料库,作为reference corpus。两相比较,如通过主题词表,就可以发现歌词与普通日常口语不同的显著语言特征。通常参照语料库与观察语料库应尽量保持一致。如后者为口语语料库,那么前者也必须是口语库。且通常前者的库容要比后者大些。
 
顶部