搜寻结果

  1. D

    Open corpus platform

    回复: Open corpus platform I think an open corpus platform is really a brilliant idea and effective instrument for all kinds of users, including both professional corpus researchers and many other users who can benefit from data and representative texts obtained from corpora such as language...
  2. D

    [详解]将Excel作为搭配词分析的工具

    回复: [详解]将Excel作为搭配词分析的工具 科研搞的不好,生活也出问题,不才惭愧惭愧呀。。。
  3. D

    [详解]将Excel作为搭配词分析的工具

    回复: [详解]将Excel作为搭配词分析的工具 好久好久没在这里发帖,来了发现这么多朋友对EXCEL作为语料库量化分析“演算纸”的窍门感兴趣,前一段时间对于这个“窍门”突然有了一种归纳性的认识:不管什么计算,必要的输入无外乎三类,常量,变量,算式,此外可以加入一些注解。比如#3那个图里,共用数据就是常量,搭配词数据就是变量,统计值那部分的单元格里实际上都是算式。又写了个简单的例子,PDF文件。
  4. D

    [+]关于"Excel用作语料库分析工具"的再次说明

    老早以前有一次摆弄SPSS的时候,突然觉得对搭配词作量化分析并不需要十分高端的工具,相对简单明了的Excel就可以完成任务。所以一时兴起,整出一套用Excel分析、统计词频数据的方法。后来发现颇有一些朋友对此感兴趣,并且一些朋友问我关于这种"工具"怎么使用的问题。今天又看了看当初发的一些帖子,觉得那时候说得还是不够清楚,想再解释一下。...
  5. D

    编程,我的看法

    回复: 编程,我的看法 Prolog很有意思,我正在琢磨。。。。 “基本上除了C以外的大多数语言都直接支持(像C++的stl,java,VBscript)”的确如此,不过某些语言处理文本的时候慢。
  6. D

    编程,我的看法

    回复: 编程,我的看法 [后续] 上次没写完,写的也不够清楚。这次争取说的更清楚一些。还是老话题,关于Visual...
  7. D

    编程,我的看法

    编程对于自然语言处理、语料库研究等领域而言是一门重要的技术。...
  8. D

    有关"正则表达式"的问题: 学习旧帖[CODE SNIPPET] VB.NET制作词频表"

    回复: 有关"正则表达式"的问题: 学习旧帖[CODE SNIPPET] VB.NET制作词频表" 正则表达式选项,区分大小写之类的,几个月没动过那些东西了,具体想不起来了,msdn里有解释。不过这个窍门并不在资料里说明的很显眼。9那个位置只是一个单一的flag的位置,多个选项怎么办?比如既要设置单行模式又要设置大小写敏感?很简单,把选项对应的常数加起来就行了。9就是某两个选项常数的和(想不起来了)。而且这个sum不会和其他的选项的组合相等。这真是个奇妙的技术。
  9. D

    [CODE SNIPPET] VB.NET制作词频表

    回复: [CODE SNIPPET] VB.NET制作词频表 正则表达式选项,区分大小写之类的,几个月没动过那些东西了,有些想不起来。不过这个窍门一定要知道,选项的位置只有一个所谓的flag,多个选项怎么办,比如既要设置单行模式又要设置大小写敏感?很简单,把选项对应的常数加起来就行了。9就是某两个选项常数的和。而且这个sum不会和其他的选项的组合相等。这真是个奇妙的技术。
  10. D

    求教有关Excel处理语料的问题

    回复: 求教有关Excel处理语料的问题 Nice to see you. Being busy with some other things in my life or simply being buzy at all, I haven't been here for quite a while. Now I am back, still can't be around here much though. But I just can't get my mind away from things in this field, though I am really not that...
  11. D

    自己动手开发NLP类型程序的朋友一定要看看这个项目

    http://www.proxem.com/Default.aspx?tabid=55 Antelope 0.8.5 was tested under Windows XP, Vista 32 bits and Vista 64 bits (in x86 mode). Antelope includes the following features: Multi-threading support (experimental), can be used on a Web server, All-new, ribbon-based, Graphical User...
  12. D

    [探讨] Google As a Corpus Tool

    回复: [探讨] Google As a Corpus Tool 论文里表格的格式乱了,可以看:http://blog.donews.com/dzhigner/archive/2008/05/11/1289013.aspx 此外,我认为目前在该领域里最为成功的项目是Internet corpora (http://corpus.leeds.ac.uk/internet.html)。基于“互联网作为语料库”概念的工具最终应该发展成象Google那种规模的东西,虽然作为商业项目来开发的话也许相当不划算。
  13. D

    [探讨] Google As a Corpus Tool

    回复: [探讨] Google As a Corpus Tool “互联网用作语料库”的原理与实践 摘要:“互联网用作语料库”是一种把互联网上的文本用作语料资源的新兴方法。互联网并非标准意义的语料库,但因包含庞大数量的文本而有具有不可忽视的实用价值。“互联网用作语料库”方法已广泛服务于语言数据挖掘以及语言学假设检验。目前已有数种专门化检索工具问世,同时直接应用通用型搜索引擎搜集语料是应用最广泛的方法。本文介绍“互联网用作语料库”的发展现状、基础理论、基本原理、应用策略与手段。 关键词:互联网用作语料库;语料库;检索;搜索引擎;Google...
  14. D

    Open corpus platform

    回复: Open corpus platform Is this an initiative? Has the platform been fully set up? I think this is a great idea and I sort of have been thinking about a similar thing. I think an efficient protocol design for input data is crucial. Data format, processing level and many other factors should be...
  15. D

    求教有关Excel处理语料的问题

    回复: 求教有关Excel处理语料的问题 那时设计了那个EXCEL工具也许没有说得很清楚。EXCEL和语料库的检索和采样是没什么关系的,只是一个用于计算的工具罢了,输入EXCEL的数据是频率数据,这个一般语料库检索软件都可以得出,对频率数据做统计分析时EXCEL就用得上了。之所以想到了EXCEL,是因为人们一直都在讨论SPSS,但几乎每台计算机上都有EXCEL(虽然大多是盗版)却足以满足词频统计之类的要求。
  16. D

    请问语料库是注重语言运用,而不是语言形式的说法对吗。

    回复: 请问语料库是注重语言运用,而不是语言形式的说法对吗。 这个论断是不对的。所谓注重语言运用中的运用,指的并不是“语用”(pragmatics)而是performance。所以把这个概念和语言形式对应在您这个论断里并不合适。语料库研究关注语言运用的说法指的是研究方法和思路方面的问题,而不是用语料库研究什么的问题。用语料库研究的基本思路就是让数据说话,从语言运用的实例数据中求得发现。至于用语料库可以研究什么,其实形式、语义、语用方面的语言问题都可以用语料库方法来研究。
  17. D

    Excel制作的MI, MI3, T-score, Z-score计算工具

    回复: Excel制作的MI, MI3, T-score, Z-score计算工具 hancunxin先生指出我做的这个表格只能计算5行,悔当初竟没注意到这个问题。表格有密码保护,取消了保护就可以修改或编辑。撤消保护的密码:dzhigner。 可以用这个表格作为一个模板,应用我在http://www.corpus4u.org/showthread.php?t=2096这个帖子里介绍的方法和一套VBA自定义函数。
  18. D

    关于计算搭配力z值的一点疑惑

    Z分值的本质是标准分,而标准分本质上就是用来打分排序的。也就是说z分值并不是假设检验方法,严格按其统计原理来看,仅算一个词语的z分值没什么意义。楼主提到的是算一个词的z分值,所以窃以为这个时候怎么选跨距都没有问题,但是比较多个词的搭配力时就一定要统一一个跨距,而从共现(尤其是按广义词语搭配标准)的角度考虑,词序不是唯一的。ab两词有可能是以ab顺序出现,也有可能是以ba顺序出现。因此2s+1的跨距只是一个比较宽泛的描述,完全可以灵活处理。如果b是节点词,比较a、c的搭配力,而a、c预期出现在b的左边,此时当然可以用s+1来作为统一跨距。
  19. D

    Visual Studio Express Edition

    向使用Visual Studio(Visual Basic、Visual C#等) 编程的朋友推荐免费的Visual Studio Express Edition。 Visual Studio Express Edition 首页:http://msdn.microsoft.com/vstudio/express/default.aspx 这个Express Edition 尤其适合初学使用 如果对其中某一语言感兴趣,也可以单独下载,比如 Visual Basic 2005 Express Edition
  20. D

    句对平行语料库

    回复:句对平行语料库 也可以把“广义词语搭配”的量化研究方法用于平行语料库的分析,可发现一些潜藏的跨语言的词语行为规律。。。
Back
顶部