请教各位老师,LOCNESS中有乱码

在论坛学习到了很多很有用的东西,根据seinewang提供的方法,最近得到了LOCNESS,在此表示感激,但我在合并文本的时候,发现从BRSUR1文档开始,出现了类似乱码的东西,混在单词中间,基本都是出现在一个单词中间,例如“l'閠at pur” “r関olt”“fr鑢e”“prol閠arien” 等等 数量不在少数。我很疑惑,这是Granger教授发给我的原始文本,我并未加任何改动,也没有转换格式,为什么会出现这些类似乱码的东西,我该怎么办,才能得到纯净的纯文本文档呢?
 
回复: 请教各位老师,LOCNESS中有乱码

可能是你电脑上的txt的格式-字体需要调整一下。可以尝试着选择times new roman或其他字体试试。
 
回复: 请教各位老师,LOCNESS中有乱码

在中文操作系统中如果用Notepad打开,法语等语言中的accented characters就会显示此类错误。可以用Word打开再另存为utf-8编码的纯文本就可以了。
 
回复: 请教各位老师,LOCNESS中有乱码

可能是你电脑上的txt的格式-字体需要调整一下。可以尝试着选择times new roman或其他字体试试。
谢谢,可是我试了,与字体无关,乱码依然存在
 
回复: 请教各位老师,LOCNESS中有乱码

在中文操作系统中如果用Notepad打开,法语等语言中的accented characters就会显示此类错误。可以用Word打开再另存为utf-8编码的纯文本就可以了。
谢谢肖博士,根据您的建议,我试了一下,结果汉字的乱码变成了一个“?”的符号……不知道原因究竟在哪
 
回复: 请教各位老师,LOCNESS中有乱码

我试了一下,可以的。先用Word打开文本,默认编码为Western European (Windows),从菜单中选择 另存为,选择 plain text 编码,再选择 Unicode (utf-8)保存文本。再用Notepad或检索工具打开时就不是乱码了。

谢谢肖博士,根据您的建议,我试了一下,结果汉字的乱码变成了一个“?”的符号……不知道原因究竟在哪
 
回复: 请教各位老师,LOCNESS中有乱码

我试了一下,可以的。先用Word打开文本,默认编码为Western European (Windows),从菜单中选择 另存为,选择 plain text 编码,再选择 Unicode (utf-8)保存文本。再用Notepad或检索工具打开时就不是乱码了。
谢谢肖博士,这次试了以后发现,用wordsmith做词表可以识别了。十分感谢您的耐心~
 
回复: 请教各位老师,LOCNESS中有乱码

您好,我的论文也是用语料库 进行分析的。 我有找到 locness 语料库。
但是我现在有个疑惑,Locness语料库的总词数是多少个。
因为 查看不同的参考文献, 里面对Locness的总词数描述都不太一致 : 95218 程晓棠; 181,817字符 李楠; 还有 170,000; 32万, 李茜 等等。


我自己的语料库 Locness 字数是183, 654; 字符数是892,983. 我使用的是 Antconc3.2.1检索软件。

不知道 大家那边要不要用到总词数,大家统计的总词数是多少。


谢谢各位啦!!:)
 
回复: 请教各位老师,LOCNESS中有乱码

LOCNESS的建成年代是什么时候呀?我这有这个语料库及其简介,但是没说什么时候建成的?

British pupils' A level essays: 60,209 words
British university students essays: 95,695 words
American university students' essays: 168,400 words

Total number of words: 324,304 words
https://www.uclouvain.be/en-cecl-locness.html

https://www.uclouvain.be/cps/ucl/doc/cecl/documents/LOCNESS.doc
 
Back
顶部