求寻适合藏文检索的语料库软件

有谁知道,目前哪有适合藏文检索的语料库软件?Antconc怎样?word smith怎样?谢谢。
 
回复: 求寻适合藏文检索的语料库软件

谢谢了,可以转换为unicode,不知道ws里对音节分割点怎么处理的?烦请指点。再次感谢!
 
回复: 求寻适合藏文检索的语料库软件

谢谢了,可以转换为unicode,不知道ws里对音节分割点怎么处理的?烦请指点。再次感谢!

WordSmith Tool 属于 concordancer,它只能检索,如果原始语料有标记,也可以对标记进行检索,但不能对原始语料进行切分和附码等工作。
 
回复: 求寻适合藏文检索的语料库软件

WordSmith Tool 属于 concordancer,它只能检索,如果原始语料有标记,也可以对标记进行检索,但不能对原始语料进行切分和附码等工作。

Dr.Haiyang,您好。铁锟先生在我们学校讲座时曾提到你,很荣幸在这里能遇到你。
有两个问题需要请教:
1.ws Tool听说有5.0版本,是否属实?从哪里可以购买?
2.最近试了几次Antconc3.2.1w版本,但unicode编码的藏文怎么也无法显示,是什么原因呢?
3.有通用的有附码功能的软件吗?

谢谢!
 
回复: 求寻适合藏文检索的语料库软件

不是 Dr. 叫我 Haiyang 好了。

1. WS Tool 5.0 已经出来了,查看 lexically.net,通过双币信用卡 (e.g. 招行的,中行的)可以直接购买,人民币还款。先可以尝试试用版,如有需要再考虑购买。
2. 我不懂藏文,你存为 UTF-8 试一试?
3. 汉语有分词和附码的软件(ICTCLAS),但藏文的不知道。
 
回复: 求寻适合藏文检索的语料库软件

不是 Dr. 叫我 Haiyang 好了。

1. WS Tool 5.0 已经出来了,查看 lexically.net,通过双币信用卡 (e.g. 招行的,中行的)可以直接购买,人民币还款。先可以尝试试用版,如有需要再考虑购买。
2. 我不懂藏文,你存为 UTF-8 试一试?
3. 汉语有分词和附码的软件(ICTCLAS),但藏文的不知道。

谢谢你这么快回复!UTF-8和UTF-16,还有UTF-32以及它们的BE和TE都试过了,字体也设置为Microsoft himalaya,但还是乱码;在检索框里输入藏文显示的都是“?”号,不知什么原因?
 
回复: 求寻适合藏文检索的语料库软件

I think the problem is caused by the default encoding for your operating system (unless you are using a Tibetan version of Windows, for example). In Windows XP, for example, we can change the default encoding to Chinese even if I am using the English version of Windows. In the English version, the Chinese characters appear as questions marks. But when I set the default system encoding as Chinese, the problem disappeared. I think this should also solve your problem if you set the default encoding properly.

谢谢你这么快回复!UTF-8和UTF-16,还有UTF-32以及它们的BE和TE都试过了,字体也设置为Microsoft himalaya,但还是乱码;在检索框里输入藏文显示的都是“?”号,不知什么原因?
 
回复: 求寻适合藏文检索的语料库软件

I think the problem is caused by the default encoding for your operating system (unless you are using a Tibetan version of Windows, for example). In Windows XP, for example, we can change the default encoding to Chinese even if I am using the English version of Windows. In the English version, the Chinese characters appear as questions marks. But when I set the default system encoding as Chinese, the problem disappeared. I think this should also solve your problem if you set the default encoding properly.

谢谢您的提醒,我用的是xp系统,这里面本身不带藏文unicode,是我自己安装的,藏文unicode编码由系统自带的只有Windows Vista,很有可能是这个原因,明天我去试试,完了把结果告诉帮助我的人和大家,再次感谢!
 
回复: 求寻适合藏文检索的语料库软件

忙了一天,终于把藏文检索功能加到我的语料库了。网址:http://59.77.17.146/corpus_cn2.html。你可以检索“??”试试(或者随便一个藏文字母)。注意这个语料库才30K,可能找不到。纯粹是为你弄着玩玩。建议您采用firefox做浏览器,以得到居中对齐的效果,ie有bug。为了正确显示藏文,要求你的电脑装有Microsoft Himalaya字体。我在vista和xp用firefox浏览器都试了可以显示,效果还行。当然,肯定有不少问题(例如对齐问题),因为我不懂藏文。如果有什么问题,给我留言。
 
Last edited by a moderator:
回复: 求寻适合藏文检索的语料库软件

忙了一天,终于把藏文检索功能加到我的语料库了。网址:http://59.77.17.146/corpus_cn2.html。你可以检索“??”试试(或者随便一个藏文字母)。注意这个语料库才30K,可能找不到。纯粹是为你弄着玩玩。建议您采用firefox做浏览器,以得到居中对齐的效果,ie有bug。为了正确显示藏文,要求你的电脑装有Microsoft Himalaya字体。我在vista和xp用firefox浏览器都试了可以显示,效果还行。当然,肯定有不少问题(例如对齐问题),因为我不懂藏文。如果有什么问题,给我留言。

谢谢你,我试了一下,检索没问题,画面传送给你。另外,antconc在VISTA里我试了藏文还是不行,有没有办法解决?请指点。
 

附件

  • tibetanfind.jpg
    tibetanfind.jpg
    40.6 KB · 浏览: 11
回复: 求寻适合藏文检索的语料库软件

既然antconc不行,用别的就是了。实在不行,你把语料库给我,我挂上去不就可以了?
 
回复: 求寻适合藏文检索的语料库软件

http://www.corpus4u.org/showthread.php?t=4217
我写的这个软件底层是用unicode实现的,用来检索中文,也许能检索藏文。因为藏文和中文都是unicode而且不用空格作为字的间隔。你可以把藏文发给我一点,我试一试。我的邮箱jyl_java#126#com(分别用@和.代替#)
 
回复: 求寻适合藏文检索的语料库软件

http://www.corpus4u.org/showthread.php?t=4217
我写的这个软件底层是用unicode实现的,用来检索中文,也许能检索藏文。因为藏文和中文都是unicode而且不用空格作为字的间隔。你可以把藏文发给我一点,我试一试。我的邮箱jyl_java#126#com(分别用@和.代替#)

藏文语料已发到提供的邮箱里了,希望能测试成功,并将结果告知大家,不管怎样,都很感谢你。
 
回复: 求寻适合藏文检索的语料库软件

既然antconc不行,用别的就是了。实在不行,你把语料库给我,我挂上去不就可以了?

你那里检索的问题已经解决了,语料我可以提供,但藏文还有切词和附码问题,和汉文一样也没有空格标记,有个音节分隔符,也只是音节的分割而已,不能作为切词标记,这些怎么办好呢?请指点,再次感谢!
 
回复: 求寻适合藏文检索的语料库软件

藏文还有切词和附码问题,和汉文一样也没有空格标记,有个音节分隔符,也只是音节的分割而已,不能作为切词标记,这些怎么办好呢?请指点,再次感谢!

如果你能提供切词和标注的样本(需要有一定的量,如50万词以上),那么我可以为你解决切词标注问题。
 
回复: 求寻适合藏文检索的语料库软件

如果你能提供切词和标注的样本(需要有一定的量,如50万词以上),那么我可以为你解决切词标注问题。

看来藏文的的确滞后很多,目前我这里有比较规范的词有近6万,可能是最多的,你需要50万几年内无法办到。藏文尽管有很多词典,却和汉文的不一样,规范词很少,词典中包括词、短语、还有句子,真是麻烦,这块清理起来量很大,还在做。你需要50万词的确难办,至少需要多少才可以勉强够用呢?另外,训练语料的量应该是多少MB合适呢?
 
回复: 求寻适合藏文检索的语料库软件

6万也许可以试试。可以机器自动标注,然后你人工校对一下。这样滚雪球,也许马上就到50万甚至200万了。
 
Back
顶部