怎样把BNC中的语料转为符合WORDSMITH要求的文件类型呢

我想用WORDSMITH 4.0 ,语料库是BNC(光盘版)的, WORDSMITH不是要求文件都是要UNICODE吗, 那应该怎么样把BNC中的语料转为符合WORDSMITH要求的文件类型呢? 谢谢各位:)
 
回复: 怎样把BNC中的语料转为符合WORDSMITH要求的文件类型呢

ws 可以直接检索BNC。
 
同意。WS检索BNC的时候,如果没有去码,就会保留附码,选ignore与否并不能消除这些码。论坛上有如何去码的办法,自己找吧。字母文字绝大多数都在unicode之列了,这个不用担心。
 
回复: 怎样把BNC中的语料转为符合WORDSMITH要求的文件类型呢

请介绍一下Brown和Lob语料库与BNC的异同之处,
前二者都没有赋码吗?
BNC都做了什么样的赋码或标注?
谢谢!
 
回复: 怎样把BNC中的语料转为符合WORDSMITH要求的文件类型呢

很全面,多谢了
 
回复: Re: 怎样把BNC中的语料转为符合WORDSMITH要求的文件类型呢

同意。WS检索BNC的时候,如果没有去码,就会保留附码,选ignore与否并不能消除这些码。论坛上有如何去码的办法,自己找吧。字母文字绝大多数都在unicode之列了,这个不用担心。

前一阵子听说把BNC中的附码去掉花了好大功夫,恐怕不是很轻易就可以做到的。如果有什么简便易行的方法,不妨说来听听,谢谢了。:)
 
Re: 回复: Re: 怎样把BNC中的语料转为符合WORDSMITH要求的文件类型呢

前一阵子听说把BNC中的附码去掉花了好大功夫,恐怕不是很轻易就可以做到的。如果有什么简便易行的方法,不妨说来听听,谢谢了。:)

You can take a look at the link http://www.corpus4u.org/showthread.php?t=1368
I tried as Dr. Xiao said there and it worked! All the tags including the header information are gone. The Perl program automatically generates the plain texts after you double click it. Good luck!
 
Back
顶部