看一看我的语料库

xusun575 · 2009-07-20

回复: 看一看我的语料库

作者 mandel:
语料比较大，只能放弃人工对齐。

Great! Thank you!

wangliqun · 2009-07-24

回复: 看一看我的语料库

您好,我在日本读博士做中文的翻译后处理,希望能够得到您的语料库支持 Thank you.mailbox:wangliqun@ymail.com
您的500个数量限制的问题。我能否将我希望查询的词语，发邮件给您，您将结果传给我呀。泰希望得到您的支持了。
比如说查"做/v 。"或"做/v 。"或"做/v。"
另外我想把结果的统计写进我的论文里，不知道是否可以标明是来自您的语料库。

mandel · 2009-07-24

回复: 看一看我的语料库

作者 wangliqun:
比如说查"做/v 。"或"做/v 。"或"做/v。"
另外我想把结果的统计写进我的论文里，不知道是否可以标明是来自您的语料库。

已经给你发邮件了。

whhchl · 2009-08-07

回复: 看一看我的语料库

检索词居然是居中对齐，而且是变色显示，真乃神人也！！

singer · 2009-08-19

“炙手可热”的语料库

昨晚一陌生同学在qq群中问我，“在世界反法西斯战争中胜利60周年来临之际，二战成了影视文学创作中炙手可热的题材”中，习题集后附的参考答案中说炙手可热比喻气焰很盛，权势很大，通常形容人，所以选择炙手可热是错误的。于是我顺手检索了史博士的网站，发现这个词除了可以修饰人以外，也可以修饰别的名词，如炙手可热的商品，炙手可热的战争话题，炙手可热的抢手货，炙手可热的权力，炙手可热的学校，炙手可热的争夺对象，炙手可热的红豆事件等等。据此，完全可以说 XX是电影中炙手可热的题材，没有什么问题。感谢史博士无私的奉献！

lswhwxyh · 2009-10-19

回复: 看一看我的语料库

我现在有一道作业是关于98年1月《人民日报》的，你能把你的有关源代码发给我吗？
lzy863023@gmail.com
谢谢。

xusun575 · 2009-10-19

回复: 看一看我的语料库

作者 lswhwxyh:
我现在有一道作业是关于98年1月《人民日报》的，你能把你的有关源代码发给我吗？
lzy863023@gmail.com
谢谢。

原代码是别人的劳动成果，一般人是难以拉下脸面如此索要的。不知你是搞什么专业的，是计算机还是语料库语言学。如果是前者，你既然有了思想和有要求，为什么不自己开发一个？如果是后者，即使别人给了你原代码，你也难以读懂，何不和搞软件的联合起来，把你的思想变成成果呢？

lswhwxyh · 2009-10-19

回复: 看一看我的语料库

谢谢，我明白了。
我不懂规矩。

wulucie · 2009-10-28

回复: 看一看我的语料库

请问Mandel

concordance的对齐非常漂亮，请问是如何做到的呢，跟显示的字形有关吗？
谢谢

lt0806 · 2009-10-29

回复: 看一看我的语料库

作者 xusun575:
原代码是别人的劳动成果，一般人是难以拉下脸面如此索要的。不知你是搞什么专业的，是计算机还是语料库语言学。如果是前者，你既然有了思想和有要求，为什么不自己开发一个？如果是后者，即使别人给了你原代码，你也难以读懂，何不和搞软件的联合起来，把你的思想变成成果呢？

您真是太幽默了，语言有趣极了。

mandel · 2009-10-30

回复: 看一看我的语料库

作者 ciel65:
请问Mandel

concordance的对齐非常漂亮，请问是如何做到的呢，跟显示的字形有关吗？
谢谢

这个对齐是计算字符宽度，其实有些问题，只能处理汉字，对于汉字也没有做到完全居中对齐，因为没有去把那些宽度不是和汉字一样的字符一一找出来。更好的解决方案参见 http://59.77.17.146/rsearch.html，可处理世界上大多数语言。

wulucie · 2009-10-30

回复: 看一看我的语料库

作者 mandel:
这个对齐是计算字符宽度，其实有些问题，只能处理汉字，对于汉字也没有做到完全居中对齐，因为没有去把那些宽度不是和汉字一样的字符一一找出来。更好的解决方案参见 http://59.77.17.146/rsearch.html，可处理世界上大多数语言。

不好意思
再问个问题
能做到对齐也就是从源代码上去更改，也就是跟显示的字体没关系，对吗？
目前我在使用法国研发的Unitex，中文的Concordance无法对齐，照你的意思，应该是该软件的代码需做更改，才可以做到对齐？
如果语料库有中英文，数字混合，是否也得将半角的英文字母及数字或标点符号换成全角，如同汉字的全角，这样才可对齐？
计算机我不是很懂，问这个问题是希望找资料的方向没有错，如果确实是该软件的代码的问题。
谢谢

xujiajin · 2009-10-30

回复: 看一看我的语料库

还有一个通常的处理方法就是让显示结果以表格形式呈现。
表格三列，中间一列是检索项即可。
可以让检索结果中的检索项前后各加一个tab符。

mandel · 2009-10-31

回复: 看一看我的语料库

作者 xujiajin:
还有一个通常的处理方法就是让显示结果以表格形式呈现。
表格三列，中间一列是检索项即可。
可以让检索结果中的检索项前后各加一个tab符。

许博士说的正是我在rsearch.html里面做的，不过我没加tab.

chongchong · 2009-11-02

回复: 看一看我的语料库

作者 mandel:
看看我的语料库吧: 汉语的10多亿字：http://59.77.17.146/corpus_cn.html。还有英汉双语的暂时提供少量的：http://59.77.17.146/e.html。只能供内部研究学习使用。有兴趣使用或帮忙者请单独联系我。

很强大，学习了。提个小建议：
选择
Neon英汉双语语料库 (20万句)
FBIS新闻汉英双语语料库 (22万句)
搜索 have a dream ,结果中一些以a开头的单词中的a 也变色了，不知道就是这样的设计还是程序有点小问题

yuanzhxi · 2009-11-02

回复: 看一看我的语料库

试用一下，觉得很好！对其中双语语料库很感兴趣，不知能否发给我参考呢？我的邮箱：yuanzhxi@126.com
我也想做专题的平行语料库，到时也想向您请教哦！
万分感谢！

mandel · 2009-11-06

回复: 看一看我的语料库

作者 chongchong:
很强大，学习了。提个小建议：
选择
Neon英汉双语语料库 (20万句)
FBIS新闻汉英双语语料库 (22万句)
搜索 have a dream ,结果中一些以a开头的单词中的a 也变色了，不知道就是这样的设计还是程序有点小问题

是程序有bug. 最早的程序针对汉语检索而设计，没有充分考虑到英语的情况。现在已经修正。

xiaotian · 2009-11-07

回复: 看一看我的语料库

滚滚红尘多浮躁
茫茫语料有真人

感谢史博士的无私奉献

郭孝田

nadia-tang · 2009-11-07

回复: 看一看我的语料库

谢谢，收藏了。

wxsong · 2009-11-18

回复: 看一看我的语料库

很强大的语料库集合，谢谢史博士分享！！
提个小建议：
“汉英双语语料库”检索结果中的“行”往往很长，拉来拖去查看不太方便，不知能否限定行的宽度而设置自动分行？谢谢！

看一看我的语料库

xusun575

高级会员

wangliqun

mandel

whhchl

singer

普通会员

lswhwxyh

xusun575

高级会员

lswhwxyh

wulucie

lt0806

mandel

wulucie

xujiajin

管理员

mandel

chongchong

yuanzhxi

mandel

xiaotian

初级会员

nadia-tang

wxsong