求教各位同仁 2014 BNC语料库

有两个问题想向大家请教:
1. 请问 British National Corpus 2014 Written 是否为开源资源?如果是的话,可以从哪里下载?
根据我目前搜集到的资料上显示 “Currently, BNC 2014 Written (which was actually released in 2021) is only available via the LancsBox X software”。我需要下载全部版本以便导入到 WordSmith Tool 进行分析。

2. 关于 British National Corpus 2014 Spoken,我已经下载了 XML 格式的版本。请问有什么简单的方法或者软件能够批量将 XML 格式转换为 TXT 格式吗?
 
兰卡斯特大学希望推广LancsBox,所以将BNC2014 Written打包在软件中了。BNC 2014 Spoken更像另外一个独立课题,提供了下载。
我刚写了小工具BFSU XML2TXT Converter,可以将BNC2014 spoken XML格式文件批量转换为TXT格式。请自行测试,以确保转换后的txt文本符合你的要求。另外这个工具是专为BNC2014 spoken写的,不见得都适用于其他XML格式文件转换。请周知。
请在下面网页链接上找到BFSU XML2TXT Converter ,并留意页面上有关杀毒软件报木马的提示。

我是用bnc2014spoken-xml文件夹的untagged文件夹xml文本做的测试。
 
Last edited:
Back
顶部