关于wordsmith5.0中Text Converter功能的疑问

最近在用wordsmith5.0检索LCMC和UCLA时遇到一个难以理解的问题, 麻烦各位帮忙看看. 我先用text converter把一个个的XML文档转换成Unicode, 再用Concord检索. 但只有LCMC_A文档被转换成unicode后可以成功检索. LCMC中的其他文档和UCLA中的所有文档能够成功的被转换成unicode, 但之后没办法检索, 系统显示No Concordance Entries Found. 实在想不通是什么原因, 所有文档都是XML格式的, 按同一步骤处理, 为什么有的行有的不行呢. 还请各位高手帮忙想想问题出在哪里. 谢谢各位先了!!!
 
回复: 关于wordsmith5.0中Text Converter功能的疑问

Yes I have recently encountered the same problem. I believe there is a bug in Wordsmith 5.0 when it has been made to process native character encoding.

It can corrput your data if you allow WST 5.0 to convert your UTF8 Chinese data into Unicode - aways make of copy of your corpus before using it with WST!

Solution - answer no if WST asks your permission for conversion from UTF8 onto Unicode. Now even if your data is in native Chinese encoding, you can search it or make a wordlist using WST 5.0 - just don't let it do the conversion.
 
回复: 关于wordsmith5.0中Text Converter功能的疑问

非常谢谢两位的回复!
xiaoz的solution很妙. 我自己试的另一种方法是用notepad打开xml文档, 在notepad中将格式转变为UCS-2 Little Endian, 保存. 然后就可以用WST5.0进行任何检索或wordlist了.
 
回复: 关于wordsmith5.0中Text Converter功能的疑问

非常谢谢两位的回复!
xiaoz的solution很妙. 我自己试的另一种方法是用notepad打开xml文档, 在notepad中将格式转变为UCS-2 Little Endian, 保存. 然后就可以用WST5.0进行任何检索或wordlist了.

用Notepad能解决当然好,如果你有10篇、100篇文本也这样转存吗?
 
回复: 关于wordsmith5.0中Text Converter功能的疑问

的确, 这样只适用于少量的文档, 还是xiaoz的solution比较好.
 
Back
顶部