谢谢了,可以转换为unicode,不知道ws里对音节分割点怎么处理的?烦请指点。再次感谢!
WordSmith Tool 属于 concordancer,它只能检索,如果原始语料有标记,也可以对标记进行检索,但不能对原始语料进行切分和附码等工作。
不是 Dr. 叫我 Haiyang 好了。
1. WS Tool 5.0 已经出来了,查看 lexically.net,通过双币信用卡 (e.g. 招行的,中行的)可以直接购买,人民币还款。先可以尝试试用版,如有需要再考虑购买。
2. 我不懂藏文,你存为 UTF-8 试一试?
3. 汉语有分词和附码的软件(ICTCLAS),但藏文的不知道。
谢谢你这么快回复!UTF-8和UTF-16,还有UTF-32以及它们的BE和TE都试过了,字体也设置为Microsoft himalaya,但还是乱码;在检索框里输入藏文显示的都是“?”号,不知什么原因?
I think the problem is caused by the default encoding for your operating system (unless you are using a Tibetan version of Windows, for example). In Windows XP, for example, we can change the default encoding to Chinese even if I am using the English version of Windows. In the English version, the Chinese characters appear as questions marks. But when I set the default system encoding as Chinese, the problem disappeared. I think this should also solve your problem if you set the default encoding properly.
忙了一天,终于把藏文检索功能加到我的语料库了。网址:http://59.77.17.146/corpus_cn2.html。你可以检索“??”试试(或者随便一个藏文字母)。注意这个语料库才30K,可能找不到。纯粹是为你弄着玩玩。建议您采用firefox做浏览器,以得到居中对齐的效果,ie有bug。为了正确显示藏文,要求你的电脑装有Microsoft Himalaya字体。我在vista和xp用firefox浏览器都试了可以显示,效果还行。当然,肯定有不少问题(例如对齐问题),因为我不懂藏文。如果有什么问题,给我留言。
http://www.corpus4u.org/showthread.php?t=4217
我写的这个软件底层是用unicode实现的,用来检索中文,也许能检索藏文。因为藏文和中文都是unicode而且不用空格作为字的间隔。你可以把藏文发给我一点,我试一试。我的邮箱jyl_java#126#com(分别用@和.代替#)
既然antconc不行,用别的就是了。实在不行,你把语料库给我,我挂上去不就可以了?
藏文还有切词和附码问题,和汉文一样也没有空格标记,有个音节分隔符,也只是音节的分割而已,不能作为切词标记,这些怎么办好呢?请指点,再次感谢!
如果你能提供切词和标注的样本(需要有一定的量,如50万词以上),那么我可以为你解决切词标注问题。