Jimhu的最近内容

  1. J

    Yacsi: Another ICTCLAS 2012 GUI

    回复: Yacsi: Another ICTCLAS 2012 GUI Sorry it's a misunderstanding. There was a mess-up in my file folder. Yes, you are right. The word-list can be easily obtained with other tools. Thank you.
  2. J

    Yacsi: Another ICTCLAS 2012 GUI

    回复: Yacsi: Another ICTCLAS 2012 GUI YACSI works pretty well. The only problem is that it only generates "character list" of the segmented texts (see below). It would be great if a "word list" can also be automatically generated. Many thanks! 字频_tagged.txt , , 95 的 , 86 。 , 51 国 , 43 我 ...
  3. J

    如果去美国读语料库博士,哪所学校好呢?

    回复: 如果去美国读语料库博士,哪所学校好呢? Prof. Chengzhi Chu of UC Davis was the PI of 汉语中介语语料库 project, and author of the famous ChineseTA software. But I'm not sure if he supervises phd students in this area or not.
  4. J

    “语料库在线平台”设计方案征集需求、意见和反馈

    回复: “语料库在线平台”设计方案征集需求、意见和反馈 “语段”在汉语语言学(篇章、话语分析)中有固定含义,指相关联的多个句子组成的”句群“单位。 百度一下 “语段分析”, “语段教学” 可知。 chunking或可称作“语块”, 印象中1980年代鲁川先生就这么翻译过。
  5. J

    “语料库在线平台”设计方案征集需求、意见和反馈

    回复: “语料库在线平台”设计方案征集需求、意见和反馈 "语段分析“ 是不是该叫 "短语分析" ?
  6. J

    Two tools uploaded: TextQuest and txtcut

    回复: Two tools uploaded: TextQuest and txtcut 能否用简单说一下功能?用的上的再安装。谢谢!
  7. J

    [转贴]汉语语料处理软件

    回复: [转贴]汉语语料处理软件 多谢分享!但有问题,请问何故-- ”调入语料” (用中科院软件做的分词文本)以后,统计词频,却报告结果是0: “词频成功统计出来!总计词的个数是:0” 同样文本字频统计没问题。
  8. J

    [Download] Frequency lists for top 5000 Chinese words and top 2000 characters

    回复: [Download] Frequency lists for top 5000 Chinese words and top 2000 characters 明白了, 谢谢指点!
  9. J

    [Download] Frequency lists for top 5000 Chinese words and top 2000 characters

    回复: [Download] Frequency lists for top 5000 Chinese words and top 2000 characters 谢谢分享! 有两个问题请教: 1)文件中只见5000词表没有2000字表,是否漏贴了? 2)“Frequency per M words” 数据似乎不准, 将前1500条累计,就已经2.89M了。
  10. J

    [Download] ICTCLAS2008

    回复: [Download] ICTCLAS2008 前面“奢望”那层意思没说明白, 是这样: 软件标词性利用了短语搭配规则提高标注准确性,不是简单的词表匹配,但目前版本只能对相连字串(字间未加空格)使用这些规则,先分词后做人工校对,词间加了空格,在用ICTCLAS标词性,那些规则就不管用了。 详情可用下面两个例子测试: 1)很弯的浏阳河弯了九个弯才到湘江。 2)骑马上二奎那儿的人马上就会回来。
  11. J

    [Download] ICTCLAS2008

    回复: [Download] ICTCLAS2008 “打开”没问题, “存放”把文件存到了指定文件夹的上一层目录。 不过已经够好了。
  12. J

    [Download] ICTCLAS2008

    回复: [Download] ICTCLAS2008 很感谢! “相当的”感谢! 打开: 可否提供“选择文件”和“选择目录(包括子目录)”两种方式。 存放:可否“原目录下”和“另存于(指定目录--浏览或标明)”两种。 “有无分词标记”:是不是指“加不加词性标记”? 不好意思,还有个奢望:因为自动分词总有不可避免的错误,可否让软件对“分词后文本”标注词性? 这样中间就可进行人工分词校对, 程序为: ICTCLAS分词(不加词性标记)--人工校对分词结果--ICTCLAS加词性标记。
  13. J

    [Download] ICTCLAS2008

    回复: [Download] ICTCLAS2008 ICTCLAS如果能再做两点改进,将更优秀,在处理少有规模的语料时更方便: 1)能同时处理多个文件夹和子目录下的文件。现在版本一次只能处理一个文件夹里的文件 2)分词后文本可由用户自行指定存放处。现在的只自动存于原文件夹。 如果上两项已经实现,是我没试出来,请指正帮助。 非常好的软件,再次感谢分享。
  14. J

    [Download] ICTCLAS2008

    回复: [Download] ICTCLAS2008 谢谢!的确是各种分词软件里很优秀的一个。
  15. J

    [Download] ICTCLAS2008

    回复: [Download] ICTCLAS2008 谢谢楼上的回复,不过我的电脑系统时间没错,2008年8月19. 你是指ICTCLAS源程序里要改什么时间吗? 很奇怪。
顶部