mandel的最近内容

  1. M

    我很少来这里,有事?

    我很少来这里,有事?
  2. M

    生日及电子书

    好久没检查我的另一个邮箱,里面竟然收到corpus4u的生日祝贺,心里一阵感动。 最近做了一个电子书库,书籍基本都是从网络上下载,接近50000本。可惜里面和语言有关的很少,和语料库有关的基本没有。虽然比google的书库少,不过也可以作为大家茶余饭后的消遣去处。书籍和相关阅读软件网址:http://www.superfection.com/uread/
  3. M

    我做的“陕北民歌语料库”建设方案,第一次做,请大家给我指导 ,谢谢!

    回复: 我做的“陕北民歌语料库”建设方案,第一次做,请大家给我指导 ,谢谢! 有网站连接?
  4. M

    Mike Scott在Corpora List上关于名词修饰语POS标注问题的回答

    回复: Mike Scott在Corpora List上关于名词修饰语POS标注问题的回答 我看不出任何理由在此句中“包装”可以作为动词使用。语法上的可能性不等于正确。 你去查查语料库 “/m /q /n /a 的 /n” 结构的使用频率远远大于 “/m /q /v /a 的 /n” 的使用频率。如果频率不能说明问题,你可以通过句法变换:这本书包装精美,价钱却便宜。这里的包装难道解释成动词也能说明问题。
  5. M

    看一看我的语料库

    回复: 看一看我的语料库 是程序有bug. 最早的程序针对汉语检索而设计,没有充分考虑到英语的情况。现在已经修正。
  6. M

    看一看我的语料库

    回复: 看一看我的语料库 许博士说的正是我在rsearch.html里面做的,不过我没加tab.
  7. M

    看一看我的语料库

    回复: 看一看我的语料库 这个对齐是计算字符宽度,其实有些问题,只能处理汉字,对于汉字也没有做到完全居中对齐,因为没有去把那些宽度不是和汉字一样的字符一一找出来。更好的解决方案参见 http://59.77.17.146/rsearch.html,可处理世界上大多数语言。
  8. M

    10年后的BNC该不该退休?谁是继任者?

    回复: 10年后的BNC该不该退休?谁是继任者? WaC 的思路很好。 不是每年一个库,而是每月一个10亿单词以上的库。这在现在的技术下,只需一台3000元的破PC就可以办到了。 当然,Web库的质量,自然不能和BNC同日而语。
  9. M

    请问如何进入北大语料库找离合词的用法?多谢!

    回复: 请问如何进入北大语料库找离合词的用法?多谢! these errors are due to the second part of the Query RE. My original intension is to search the reverse uses of the splitable words such as: 我都忙的不可开交,你却游手好闲连个忙都不帮。 这忙不帮倒好,越帮越忙。 As is shown in the results, this use rarely occurs in the Readers' Digest Corpus.
  10. M

    请问如何进入北大语料库找离合词的用法?多谢!

    回复: 请问如何进入北大语料库找离合词的用法?多谢! click here for a first approximation of 帮忙: http://59.77.17.146/cgi-bin/rsearch.php?q=%E5%B8%AE%5B%5E%EF%BC%8C%5D%2B%E5%BF%99%7C%E5%BF%99%5B%5E%EF%BC%8C%5D%2B%E5%B8%AE&username=mandel1&corpus=duzhe
  11. M

    支持正规表达式的语料库联机检索

    回复: 支持正规表达式的语料库联机检索 “丘”的确出现15次,虽然只有7句。因为有些句子中“丘”出现多次。这不是bug,是你理解有误。
  12. M

    如何同时检索出句子中多个重复单词

    回复: 如何同时检索出句子中多个重复单词 是不是wordsmith的功能不够强大,老掉牙了的软件?不能换别的吗。
  13. M

    支持正规表达式的语料库联机检索

    回复: 支持正规表达式的语料库联机检索 已经增加了“允许公用”选项,可以发挥用户的共享精神。我做了一个论语双语语料的示范。请大家上传公用语料库的时候,要注意适当的命名,更要重视语料库的质量(也许以后要增加一个自建语料库的说明文档?这不工作量越来越大了嘛)。
  14. M

    如何同时检索出句子中多个重复单词

    回复: 如何同时检索出句子中多个重复单词 自己写个程序是最简单的办法。否则,你可以这样做: (.*\bthe\b){10} 查出句子中出现10个the的句子。如果有结果,增加到11,12,... 然后再反过来,一直降低到1就可以检索出所有句子而且结果是按照the的频率降序排列的(你要先合并结果)。对于汉语,用(.*的){10} 查出句子中出现10个“的”的句子。http://59.77.17.146/rsearch.html支持这种检索。但是,对于千万词级以上的语料库,这个过程是非常缓慢的。
  15. M

    支持正规表达式的语料库联机检索

    回复: 支持正规表达式的语料库联机检索 如果你愿意共享,我再增加一个选项:可以公用。只怕有人不一定愿意把自己的东西免费给别人用呢!
顶部