语料天涯CorporaAZ重新上线

你这个网页里面那些大语言模型搜集的还算比较全,那个TED平行语料库文件如果可以下载就好了,TED里面含有的现代语言的信息内容非常丰富。平行语料库还有几个比较容易获取的方式:1.用GetDict软件把mdx格式的词典文件把里面的数据解出来,再用EmEditor使用正则表达式把词典里面的双语对照的例句几分钟几乎全部可以提取出来,这种方式可以在几分钟到十几分钟时间内提取十几万到20几万数量的双语对照例句。 2.用雪人翻译软件把双语对照的文学作品或者其他作品制作成双语逐句对照的语料。这种方式就效率有点低了,不过算是在直接提取的那种方式之外手动制作的效率还算过得去的。雪人翻译软件在ChatGPT这些工具出来之后发现翻译软件没了市场就放开了收费模式,用户免费申请注册就可以使用。3.用ChatGPT这种工具制作。缴费用户能够一次处理的数据很多。免费用户每次处理的数据会有些限制。4.字幕网站上面有各种语种的字幕,可以用软件合并成双语字幕再转成双语对照的语料库,对于一些特别的视频文件(比如网上刚出现的视频),可以使用Whiper进行转字幕,也可以使用Subtitle Edit软件(安装完之后再装上Whisper模块)进行转字幕。个人电脑如果使用Whisper转字幕需要电脑的显卡配置比较高,如果显卡配置低转的时间会特别长。mdx格式的词典在网上有很多,https://forum.freemdict.com/ 这个网站上面有不少。双语对照的电子书在zlib网站上面非常非常多。
 
Back
顶部