J Jinn_starr 2024-11-12 #1 我目前使用的是兰卡斯特大学的BNCweb,想了解某一话语标记词在性别,年龄,阶层上的使用差异,由于检索该词搜到的语料很多,我打算先抽样选取一些语料并排除其中的非话语标记,再研究这些语料的性别,年龄,阶层使用差异。请问我该如何做才能搜集到目标语料的性别,年龄,阶层信息?求教各位
我目前使用的是兰卡斯特大学的BNCweb,想了解某一话语标记词在性别,年龄,阶层上的使用差异,由于检索该词搜到的语料很多,我打算先抽样选取一些语料并排除其中的非话语标记,再研究这些语料的性别,年龄,阶层使用差异。请问我该如何做才能搜集到目标语料的性别,年龄,阶层信息?求教各位
J Jinn_starr 2024-11-13 #3 作者 xujiajin: 应该用restricted query可以筛选。 Click to expand... 我尝试了一下,搜出来的是在整个口语语料库中的所有有the node的语料及说话人信息,但是数据量比较大,而且我需要对语料进行筛选。所以我想先筛选语料,再查看筛选后的语料的说话人信息。我是不是需要下载我需要的语料,再导入建库进行筛选,这样操作就可行了?不知道还有没有其他更便捷的方式
作者 xujiajin: 应该用restricted query可以筛选。 Click to expand... 我尝试了一下,搜出来的是在整个口语语料库中的所有有the node的语料及说话人信息,但是数据量比较大,而且我需要对语料进行筛选。所以我想先筛选语料,再查看筛选后的语料的说话人信息。我是不是需要下载我需要的语料,再导入建库进行筛选,这样操作就可行了?不知道还有没有其他更便捷的方式