dzhigner的最近内容

  1. D

    [原创讨论]计算机时代汉语的一大问题及对策建议

    回复: [原创讨论]计算机时代汉语的一大问题及对策建议 我认为这并不可行。。。 “我 认为 这 并 不 可行” 还是 “我 认为 这 并不 可行”? 需要建立一个标准,但是推广势必不容易,如果采用自动化方法,不还是当前的分词问题么?
  2. D

    《语料库语言学》杂志征稿启事

    回复: 《语料库语言学》杂志征稿启事 不是核心期刊吧?
  3. D

    关于样本体积大使用卡方检验是否准确的问题

    回复: 关于样本体积大使用卡方检验是否准确的问题 何为总体?何为样本?先把这些问题搞清楚。 至于数十万词的语料库算不算大样本,看你研究什么问题了。 如果你要调查的模式比较罕见,上亿词次语料库里也最多找到个把,样本还是不够大。 不过么,其实没必要这么较真,追逐“不明觉厉”的时髦方法比搞清实质重要,语言学界不就这么回事。
  4. D

    反正也搞不好了,索性发发牢骚

    反 我
  5. D

    Excel Recipe: 观察Zipf定律

    回复: Excel Recipe: 观察Zipf定律 冯志伟先生对Zipf定律的介绍:http://blog.sina.com.cn/s/blog_72d083c70102duho.html
  6. D

    Excel Recipe: 观察Zipf定律

    放假了,学习李亮博士,与大家共享知识。 这次做的是个Excel的Recipe,PDF与示例工作簿,个案选择了如何在Excel中做Zipf定律图像。很简单。有兴趣者不妨尝试一下,会发现Zipf定律是个很有趣、很奇妙的定律。
  7. D

    Windows下NLTK的安装和入门

    回复: Windows下NLTK的安装和入门 我没发现类似的问题哦。。可能还是编码没选对。。
  8. D

    求助:AntConc能不能实现为tags做个wordlist?

    回复: 求助:AntConc能不能实现为tags做个wordlist? RegExp
  9. D

    在线中文语料库总词频未知能否用总字频数变通算搭配强度

    回复: 在线中文语料库总词频未知能否用总字频数变通算搭配强度 将检索结果视为一个语料库,这个自己就可以统计了,未必一定要知道总词数。。。
  10. D

    计算节点词右侧的搭配词的Z值或MI值

    回复: 计算节点词右侧的搭配词的Z值或MI值 一直没看这个帖子,不知道现在说还晚不晚。 之前写“比如Z值既有比较经验频率与实测频率的算法,也有比较小文本内外相对频率的算法”这句话的时候不知道想什么来着。Z值就是比较小文本内外相对频率的算法,文献还真没有,我自己琢磨的,有一种统计检验叫单比例检验(1 proportion test),Z值算式(至少是《语料库语言学导论》中的公式)与这种检验完全一致,也最容易说的通,且“比例”和相对频率什么的都是一码事,其他标准分之类的解释Z值算法解释不通。
  11. D

    Windows下NLTK的安装和入门

    回复: 回覆: Windows下NLTK的安装和入门 我用gb2312编码的文件试过,貌似可以的。 试试这个:print some_Chinese_string.decode('gb2312', errors='ignore') 首行“#coding = UTF-8”仅对代码有效
  12. D

    计算节点词右侧的搭配词的Z值或MI值

    回复: 计算节点词右侧的搭配词的Z值或MI值 问题1:小文本算法的确因具体问题而异。搭配统计的实质无非是通过比较明确"共现次数是否大于偶然",所谓偶然,具体到计算方法,就是"经验频率/经验相对频率/经验概率“和”实测频率/实测相对频率/实测概率"无显著差异。经验频率就是节点词在整个文本中的相对频率,而小文本的作用,就是用来明确实测频率(或者说实测相对频率)的。因此,严格而言,如果只关心一侧,小文本就划一侧。 不过,各种具体算法也有细微差异,比如Z值既有比较经验频率与实测频率的算法,也有比较小文本内外相对频率的算法,需要搞清原理,酌情处理。...
  13. D

    VBA轻量语料库编程

    0. 语料库编程 往广义里谈,所谓语料库编程,有两层意思,其一是通过编程解决具体问题,其二是软件制作。有必要强调的是,编程只是软件制作需要的技术要件之一,并且不是所有的编程语言都适用于软件设计。 1. VBA性质、能力、优势劣势 VBA是微软VisualBasic的一个版本,专门用作嵌入Office等商业软件的脚本语言。 VBA的优点:...
  14. D

    asp和 ACCESS 结合,能把语料库上传到个人网站供人查询吗?

    回复: asp和 ACCESS 结合,能把语料库上传到个人网站供人查询吗? 用asp可以检索文本文件,小规模的语料库检索没必要用数据库。。。
  15. D

    tagger、SentenceTokenizer方面的几段Python代码

    回复: tagger、SentenceTokenizer方面的几段Python代码 是的。。。 现在迷上了Python,功能确实强大,易学,虽然比Perl慢一些,但是程序流程设计合理的话,效率还是很高的。
Back
顶部