搜寻结果

D
[原创讨论]计算机时代汉语的一大问题及对策建议

回复: [原创讨论]计算机时代汉语的一大问题及对策建议我认为这并不可行。。。 “我认为这并不可行” 还是 “我认为这并不可行”？需要建立一个标准，但是推广势必不容易，如果采用自动化方法，不还是当前的分词问题么？
- dzhigner
- Post #7
- 2015-03-30
- 论坛: 语料库与语言研究
D
《语料库语言学》杂志征稿启事

回复: 《语料库语言学》杂志征稿启事不是核心期刊吧？
- dzhigner
- Post #14
- 2015-03-13
- 论坛: 新闻和通知
D
关于样本体积大使用卡方检验是否准确的问题

回复: 关于样本体积大使用卡方检验是否准确的问题何为总体？何为样本？先把这些问题搞清楚。至于数十万词的语料库算不算大样本，看你研究什么问题了。如果你要调查的模式比较罕见，上亿词次语料库里也最多找到个把，样本还是不够大。不过么，其实没必要这么较真，追逐“不明觉厉”的时髦方法比搞清实质重要，语言学界不就这么回事。
- dzhigner
- Post #2
- 2015-01-30
- 论坛: 语料库语言学入门
D
反正也搞不好了，索性发发牢骚

反我
- dzhigner
- 主题
- 2014-09-18
- 回覆: 0
- 论坛: 自由天地
D
Excel Recipe: 观察Zipf定律

回复: Excel Recipe: 观察Zipf定律冯志伟先生对Zipf定律的介绍：http://blog.sina.com.cn/s/blog_72d083c70102duho.html
- dzhigner
- Post #3
- 2014-01-15
- 论坛: 编程与工具开发
D
Excel Recipe: 观察Zipf定律

放假了，学习李亮博士，与大家共享知识。这次做的是个Excel的Recipe，PDF与示例工作簿，个案选择了如何在Excel中做Zipf定律图像。很简单。有兴趣者不妨尝试一下，会发现Zipf定律是个很有趣、很奇妙的定律。
- dzhigner
- 主题
- 2014-01-15
- 回覆: 2
- 论坛: 编程与工具开发
D
Windows下NLTK的安装和入门

回复: Windows下NLTK的安装和入门我没发现类似的问题哦。。可能还是编码没选对。。
- dzhigner
- Post #5
- 2014-01-15
- 论坛: 编程与工具开发
D
求助：AntConc能不能实现为tags做个wordlist?

回复: 求助：AntConc能不能实现为tags做个wordlist? RegExp
- dzhigner
- Post #3
- 2014-01-05
- 论坛: 语料库检索
D
在线中文语料库总词频未知能否用总字频数变通算搭配强度

回复: 在线中文语料库总词频未知能否用总字频数变通算搭配强度将检索结果视为一个语料库，这个自己就可以统计了，未必一定要知道总词数。。。
- dzhigner
- Post #2
- 2013-12-23
- 论坛: 语料库语言学入门
D
计算节点词右侧的搭配词的Z值或MI值

回复: 计算节点词右侧的搭配词的Z值或MI值一直没看这个帖子，不知道现在说还晚不晚。之前写“比如Z值既有比较经验频率与实测频率的算法，也有比较小文本内外相对频率的算法”这句话的时候不知道想什么来着。Z值就是比较小文本内外相对频率的算法，文献还真没有，我自己琢磨的，有一种统计检验叫单比例检验(1 proportion test),Z值算式(至少是《语料库语言学导论》中的公式)与这种检验完全一致，也最容易说的通，且“比例”和相对频率什么的都是一码事，其他标准分之类的解释Z值算法解释不通。
- dzhigner
- Post #6
- 2013-12-23
- 论坛: 语料库语言学入门
D
Windows下NLTK的安装和入门

回复: 回覆: Windows下NLTK的安装和入门我用gb2312编码的文件试过，貌似可以的。试试这个：print some_Chinese_string.decode('gb2312', errors='ignore') 首行“#coding = UTF-8”仅对代码有效
- dzhigner
- Post #3
- 2013-12-23
- 论坛: 编程与工具开发
D
计算节点词右侧的搭配词的Z值或MI值

回复: 计算节点词右侧的搭配词的Z值或MI值问题1：小文本算法的确因具体问题而异。搭配统计的实质无非是通过比较明确"共现次数是否大于偶然"，所谓偶然，具体到计算方法，就是"经验频率/经验相对频率/经验概率“和”实测频率/实测相对频率/实测概率"无显著差异。经验频率就是节点词在整个文本中的相对频率，而小文本的作用，就是用来明确实测频率（或者说实测相对频率）的。因此，严格而言，如果只关心一侧，小文本就划一侧。不过，各种具体算法也有细微差异，比如Z值既有比较经验频率与实测频率的算法，也有比较小文本内外相对频率的算法，需要搞清原理，酌情处理。...
- dzhigner
- Post #3
- 2013-11-02
- 论坛: 语料库语言学入门
D
VBA轻量语料库编程

0. 语料库编程往广义里谈，所谓语料库编程，有两层意思，其一是通过编程解决具体问题，其二是软件制作。有必要强调的是，编程只是软件制作需要的技术要件之一，并且不是所有的编程语言都适用于软件设计。 1. VBA性质、能力、优势劣势 VBA是微软VisualBasic的一个版本，专门用作嵌入Office等商业软件的脚本语言。 VBA的优点：...
- dzhigner
- 主题
- 2013-07-08
- 回覆: 2
- 论坛: 编程与工具开发
D
asp和 ACCESS 结合，能把语料库上传到个人网站供人查询吗？

回复: asp和 ACCESS 结合，能把语料库上传到个人网站供人查询吗？用asp可以检索文本文件，小规模的语料库检索没必要用数据库。。。
- dzhigner
- Post #5
- 2013-07-07
- 论坛: 编程与工具开发
D
tagger、SentenceTokenizer方面的几段Python代码

回复: tagger、SentenceTokenizer方面的几段Python代码是的。。。现在迷上了Python，功能确实强大，易学，虽然比Perl慢一些，但是程序流程设计合理的话，效率还是很高的。
- dzhigner
- Post #13
- 2013-06-19
- 论坛: 编程与工具开发
D
关于词频的统计与分析的讨论

回复: 关于词频的统计与分析的讨论 11年看到这个帖子的时候，还不知道什么叫“长尾”，现在不一样了，对这个“长尾”我“研究”了两年多了，惭愧还没出成果。。。 “语料库越大，长尾现象越显著”，不过，相对而言，一次词的比例是在微弱减少。。。
- dzhigner
- Post #2
- 2013-06-18
- 论坛: 语料库与语言研究
D
tagger、SentenceTokenizer方面的几段Python代码

回复: tagger、SentenceTokenizer方面的几段Python代码频表、词元化处理： # -*- coding: utf8 -*- import time import re import string import os import collections def freqlist_l(files,pattern,lemmatizing=False): #缺省无词元化处理 files=files.split(';') #一次输入多个文件 for file in files: if not...
- dzhigner
- Post #9
- 2013-06-17
- 论坛: 编程与工具开发
D
tagger、SentenceTokenizer方面的几段Python代码

回复: tagger、SentenceTokenizer方面的几段Python代码总算知道怎么搞syntax highlighting了，再贴个代码：Python里操作TreeTagger，可以轻松控制输出格式。 # -*- coding: utf8 -*- import string import subprocess file="C:/apps/Samplex.txt" tokenizer_exe="C:/treetagger/tokenize.exe" tagger_exe="C:/treetagger/tree-tagger.exe"...
- dzhigner
- Post #8
- 2013-06-17
- 论坛: 编程与工具开发
D
tagger、SentenceTokenizer方面的几段Python代码

回复: tagger、SentenceTokenizer方面的几段Python代码忽略syntax highlighting 这个功能了，多谢Haiyang给编辑了。。
- dzhigner
- Post #7
- 2013-06-17
- 论坛: 编程与工具开发
D
【新工具】Treetagger在线版之无限制本地增强版 1.0

回复: 【新工具】Treetagger在线版之无限制本地增强版 1.0 的确如此，其实我关心的是另一方面的问题：各种编程语言在文本处理RAD（快速程序开发）方面性能易学之比。
- dzhigner
- Post #10
- 2013-06-17
- 论坛: 编程与工具开发

Home
搜索