请教各位老师，LOCNESS中有乱码

Hannah楠 · 2012-12-18

在论坛学习到了很多很有用的东西，根据seinewang提供的方法，最近得到了LOCNESS,在此表示感激，但我在合并文本的时候，发现从BRSUR1文档开始，出现了类似乱码的东西，混在单词中间，基本都是出现在一个单词中间，例如“l'閠at pur” “r関olt”“fr鑢e”“prol閠arien” 等等数量不在少数。我很疑惑，这是Granger教授发给我的原始文本，我并未加任何改动，也没有转换格式，为什么会出现这些类似乱码的东西，我该怎么办，才能得到纯净的纯文本文档呢？

seanxpq · 2012-12-19

回复: 请教各位老师，LOCNESS中有乱码

可能是你电脑上的txt的格式-字体需要调整一下。可以尝试着选择times new roman或其他字体试试。

xiaoz · 2012-12-19

回复: 请教各位老师，LOCNESS中有乱码

在中文操作系统中如果用Notepad打开，法语等语言中的accented characters就会显示此类错误。可以用Word打开再另存为utf-8编码的纯文本就可以了。

Hannah楠 · 2012-12-20

回复: 请教各位老师，LOCNESS中有乱码

作者 seanxpq:
可能是你电脑上的txt的格式-字体需要调整一下。可以尝试着选择times new roman或其他字体试试。

谢谢，可是我试了，与字体无关，乱码依然存在

Hannah楠 · 2012-12-20

回复: 请教各位老师，LOCNESS中有乱码

作者 xiaoz:
在中文操作系统中如果用Notepad打开，法语等语言中的accented characters就会显示此类错误。可以用Word打开再另存为utf-8编码的纯文本就可以了。

谢谢肖博士，根据您的建议，我试了一下，结果汉字的乱码变成了一个“?”的符号……不知道原因究竟在哪

xiaoz · 2012-12-20

回复: 请教各位老师，LOCNESS中有乱码

我试了一下，可以的。先用Word打开文本，默认编码为Western European (Windows)，从菜单中选择另存为，选择 plain text 编码，再选择 Unicode （utf-8）保存文本。再用Notepad或检索工具打开时就不是乱码了。

作者 Hannah楠:
谢谢肖博士，根据您的建议，我试了一下，结果汉字的乱码变成了一个“?”的符号……不知道原因究竟在哪

Hannah楠 · 2012-12-21

回复: 请教各位老师，LOCNESS中有乱码

作者 xiaoz:
我试了一下，可以的。先用Word打开文本，默认编码为Western European (Windows)，从菜单中选择另存为，选择 plain text 编码，再选择 Unicode （utf-8）保存文本。再用Notepad或检索工具打开时就不是乱码了。

谢谢肖博士，这次试了以后发现，用wordsmith做词表可以识别了。十分感谢您的耐心~

Maria362 · 2012-12-24

回复: 请教各位老师，LOCNESS中有乱码

您好，我的论文也是用语料库进行分析的。我有找到 locness 语料库。
但是我现在有个疑惑，Locness语料库的总词数是多少个。
因为查看不同的参考文献，里面对Locness的总词数描述都不太一致： 95218 程晓棠； 181,817字符李楠；还有 170,000； 32万，李茜等等。

我自己的语料库 Locness 字数是183， 654；字符数是892,983. 我使用的是 Antconc3.2.1检索软件。

不知道大家那边要不要用到总词数，大家统计的总词数是多少。

谢谢各位啦！！

xujiajin · 2012-12-24

回复: 请教各位老师，LOCNESS中有乱码

British pupils' A level essays: 60,209 words
British university students essays: 95,695 words
American university students' essays: 168,400 words

Total number of words: 324,304 words
https://www.uclouvain.be/en-cecl-locness.html

https://www.uclouvain.be/cps/ucl/doc/cecl/documents/LOCNESS.doc

雨纱2011 · 2013-03-27

回复: 请教各位老师，LOCNESS中有乱码

LOCNESS的建成年代是什么时候呀？我这有这个语料库及其简介，但是没说什么时候建成的？

作者 xujiajin:
British pupils' A level essays: 60,209 words
British university students essays: 95,695 words
American university students' essays: 168,400 words

Total number of words: 324,304 words
https://www.uclouvain.be/en-cecl-locness.html

https://www.uclouvain.be/cps/ucl/doc/cecl/documents/LOCNESS.doc

请教各位老师，LOCNESS中有乱码

Hannah楠

seanxpq

corpus explorer

xiaoz

永远的超级管理员

Hannah楠

Hannah楠

xiaoz

永远的超级管理员

Hannah楠

Maria362

xujiajin

管理员

雨纱2011