求寻适合藏文检索的语料库软件

gangtese · 2008-09-17

有谁知道，目前哪有适合藏文检索的语料库软件？Antconc怎样？word smith怎样？谢谢。

清风出袖 · 2008-09-17

如果你的藏文文本是unicode编码就可以ws进行检索。

gangtese · 2008-09-17

回复: 求寻适合藏文检索的语料库软件

谢谢了，可以转换为unicode,不知道ws里对音节分割点怎么处理的？烦请指点。再次感谢！

清风出袖 · 2008-09-18

不明白你所说的处理是什么意思？

Haiyang Ai · 2008-09-24

回复: 求寻适合藏文检索的语料库软件

作者 gangtese:
谢谢了，可以转换为unicode,不知道ws里对音节分割点怎么处理的？烦请指点。再次感谢！

WordSmith Tool 属于 concordancer，它只能检索，如果原始语料有标记，也可以对标记进行检索，但不能对原始语料进行切分和附码等工作。

gangtese · 2009-06-22

回复: 求寻适合藏文检索的语料库软件

作者 Haiyang:
WordSmith Tool 属于 concordancer，它只能检索，如果原始语料有标记，也可以对标记进行检索，但不能对原始语料进行切分和附码等工作。

Dr.Haiyang,您好。铁锟先生在我们学校讲座时曾提到你，很荣幸在这里能遇到你。
有两个问题需要请教：
1.ws Tool听说有5.0版本，是否属实？从哪里可以购买？
2.最近试了几次Antconc3.2.1w版本，但unicode编码的藏文怎么也无法显示，是什么原因呢？
3.有通用的有附码功能的软件吗？

谢谢！

Haiyang Ai · 2009-06-22

回复: 求寻适合藏文检索的语料库软件

不是 Dr. 叫我 Haiyang 好了。

1. WS Tool 5.0 已经出来了，查看 lexically.net，通过双币信用卡 (e.g. 招行的，中行的)可以直接购买，人民币还款。先可以尝试试用版，如有需要再考虑购买。
2. 我不懂藏文，你存为 UTF-8 试一试？
3. 汉语有分词和附码的软件(ICTCLAS)，但藏文的不知道。

gangtese · 2009-06-22

回复: 求寻适合藏文检索的语料库软件

作者 Haiyang:
不是 Dr. 叫我 Haiyang 好了。

1. WS Tool 5.0 已经出来了，查看 lexically.net，通过双币信用卡 (e.g. 招行的，中行的)可以直接购买，人民币还款。先可以尝试试用版，如有需要再考虑购买。
2. 我不懂藏文，你存为 UTF-8 试一试？
3. 汉语有分词和附码的软件(ICTCLAS)，但藏文的不知道。

谢谢你这么快回复！UTF-8和UTF-16，还有UTF-32以及它们的BE和TE都试过了，字体也设置为Microsoft himalaya,但还是乱码；在检索框里输入藏文显示的都是“？”号，不知什么原因？

xiaoz · 2009-06-22

回复: 求寻适合藏文检索的语料库软件

I think the problem is caused by the default encoding for your operating system (unless you are using a Tibetan version of Windows, for example). In Windows XP, for example, we can change the default encoding to Chinese even if I am using the English version of Windows. In the English version, the Chinese characters appear as questions marks. But when I set the default system encoding as Chinese, the problem disappeared. I think this should also solve your problem if you set the default encoding properly.

作者 gangtese:
谢谢你这么快回复！UTF-8和UTF-16，还有UTF-32以及它们的BE和TE都试过了，字体也设置为Microsoft himalaya,但还是乱码；在检索框里输入藏文显示的都是“？”号，不知什么原因？

gangtese · 2009-06-23

回复: 求寻适合藏文检索的语料库软件

作者 xiaoz:
I think the problem is caused by the default encoding for your operating system (unless you are using a Tibetan version of Windows, for example). In Windows XP, for example, we can change the default encoding to Chinese even if I am using the English version of Windows. In the English version, the Chinese characters appear as questions marks. But when I set the default system encoding as Chinese, the problem disappeared. I think this should also solve your problem if you set the default encoding properly.

谢谢您的提醒，我用的是xp系统，这里面本身不带藏文unicode，是我自己安装的，藏文unicode编码由系统自带的只有Windows Vista，很有可能是这个原因，明天我去试试，完了把结果告诉帮助我的人和大家，再次感谢！

mandel · 2009-06-23

回复: 求寻适合藏文检索的语料库软件

忙了一天，终于把藏文检索功能加到我的语料库了。网址：http://59.77.17.146/corpus_cn2.html。你可以检索“??”试试（或者随便一个藏文字母）。注意这个语料库才30K，可能找不到。纯粹是为你弄着玩玩。建议您采用firefox做浏览器，以得到居中对齐的效果，ie有bug。为了正确显示藏文，要求你的电脑装有Microsoft Himalaya字体。我在vista和xp用firefox浏览器都试了可以显示，效果还行。当然，肯定有不少问题（例如对齐问题），因为我不懂藏文。如果有什么问题，给我留言。

gangtese · 2009-07-04

回复: 求寻适合藏文检索的语料库软件

作者 mandel:
忙了一天，终于把藏文检索功能加到我的语料库了。网址：http://59.77.17.146/corpus_cn2.html。你可以检索“??”试试（或者随便一个藏文字母）。注意这个语料库才30K，可能找不到。纯粹是为你弄着玩玩。建议您采用firefox做浏览器，以得到居中对齐的效果，ie有bug。为了正确显示藏文，要求你的电脑装有Microsoft Himalaya字体。我在vista和xp用firefox浏览器都试了可以显示，效果还行。当然，肯定有不少问题（例如对齐问题），因为我不懂藏文。如果有什么问题，给我留言。

谢谢你，我试了一下，检索没问题，画面传送给你。另外，antconc在VISTA里我试了藏文还是不行，有没有办法解决？请指点。

gangtese · 2009-07-04

回复: 求寻适合藏文检索的语料库软件

对了，我用的是IE，特说明。

mandel · 2009-07-06

回复: 求寻适合藏文检索的语料库软件

既然antconc不行，用别的就是了。实在不行，你把语料库给我，我挂上去不就可以了？

williamJia · 2009-07-13

回复: 求寻适合藏文检索的语料库软件

http://www.corpus4u.org/showthread.php?t=4217
我写的这个软件底层是用unicode实现的，用来检索中文，也许能检索藏文。因为藏文和中文都是unicode而且不用空格作为字的间隔。你可以把藏文发给我一点，我试一试。我的邮箱jyl_java#126#com（分别用@和.代替#）

gangtese · 2009-07-19

回复: 求寻适合藏文检索的语料库软件

作者 williamJia:
http://www.corpus4u.org/showthread.php?t=4217
我写的这个软件底层是用unicode实现的，用来检索中文，也许能检索藏文。因为藏文和中文都是unicode而且不用空格作为字的间隔。你可以把藏文发给我一点，我试一试。我的邮箱jyl_java#126#com（分别用@和.代替#）

藏文语料已发到提供的邮箱里了，希望能测试成功，并将结果告知大家，不管怎样，都很感谢你。

gangtese · 2009-07-19

回复: 求寻适合藏文检索的语料库软件

作者 mandel:
既然antconc不行，用别的就是了。实在不行，你把语料库给我，我挂上去不就可以了？

你那里检索的问题已经解决了，语料我可以提供，但藏文还有切词和附码问题，和汉文一样也没有空格标记，有个音节分隔符，也只是音节的分割而已，不能作为切词标记，这些怎么办好呢？请指点，再次感谢！

mandel · 2009-07-19

回复: 求寻适合藏文检索的语料库软件

作者 gangtese:
藏文还有切词和附码问题，和汉文一样也没有空格标记，有个音节分隔符，也只是音节的分割而已，不能作为切词标记，这些怎么办好呢？请指点，再次感谢！

如果你能提供切词和标注的样本（需要有一定的量，如50万词以上），那么我可以为你解决切词标注问题。

gangtese · 2009-07-19

回复: 求寻适合藏文检索的语料库软件

作者 mandel:
如果你能提供切词和标注的样本（需要有一定的量，如50万词以上），那么我可以为你解决切词标注问题。

看来藏文的的确滞后很多，目前我这里有比较规范的词有近6万，可能是最多的，你需要50万几年内无法办到。藏文尽管有很多词典，却和汉文的不一样，规范词很少，词典中包括词、短语、还有句子，真是麻烦，这块清理起来量很大，还在做。你需要50万词的确难办，至少需要多少才可以勉强够用呢？另外，训练语料的量应该是多少MB合适呢？

mandel · 2009-07-20

回复: 求寻适合藏文检索的语料库软件

6万也许可以试试。可以机器自动标注，然后你人工校对一下。这样滚雪球，也许马上就到50万甚至200万了。

求寻适合藏文检索的语料库软件

gangtese

清风出袖

高级会员

gangtese

清风出袖

高级会员

Haiyang Ai

Administrator

gangtese

Haiyang Ai

Administrator

gangtese

xiaoz

永远的超级管理员

gangtese

mandel

gangtese

附件

gangtese

mandel

williamJia

开放语料库项目

gangtese

gangtese

mandel

gangtese

mandel