搜寻结果

  1. J

    Yacsi: Another ICTCLAS 2012 GUI

    回复: Yacsi: Another ICTCLAS 2012 GUI Sorry it's a misunderstanding. There was a mess-up in my file folder. Yes, you are right. The word-list can be easily obtained with other tools. Thank you.
  2. J

    Yacsi: Another ICTCLAS 2012 GUI

    回复: Yacsi: Another ICTCLAS 2012 GUI YACSI works pretty well. The only problem is that it only generates "character list" of the segmented texts (see below). It would be great if a "word list" can also be automatically generated. Many thanks! 字频_tagged.txt , , 95 的 , 86 。 , 51 国 , 43 我 ...
  3. J

    如果去美国读语料库博士,哪所学校好呢?

    回复: 如果去美国读语料库博士,哪所学校好呢? Prof. Chengzhi Chu of UC Davis was the PI of 汉语中介语语料库 project, and author of the famous ChineseTA software. But I'm not sure if he supervises phd students in this area or not.
  4. J

    “语料库在线平台”设计方案征集需求、意见和反馈

    回复: “语料库在线平台”设计方案征集需求、意见和反馈 “语段”在汉语语言学(篇章、话语分析)中有固定含义,指相关联的多个句子组成的”句群“单位。 百度一下 “语段分析”, “语段教学” 可知。 chunking或可称作“语块”, 印象中1980年代鲁川先生就这么翻译过。
  5. J

    “语料库在线平台”设计方案征集需求、意见和反馈

    回复: “语料库在线平台”设计方案征集需求、意见和反馈 "语段分析“ 是不是该叫 "短语分析" ?
  6. J

    Two tools uploaded: TextQuest and txtcut

    回复: Two tools uploaded: TextQuest and txtcut 能否用简单说一下功能?用的上的再安装。谢谢!
  7. J

    [转贴]汉语语料处理软件

    回复: [转贴]汉语语料处理软件 多谢分享!但有问题,请问何故-- ”调入语料” (用中科院软件做的分词文本)以后,统计词频,却报告结果是0: “词频成功统计出来!总计词的个数是:0” 同样文本字频统计没问题。
  8. J

    [Download] Frequency lists for top 5000 Chinese words and top 2000 characters

    回复: [Download] Frequency lists for top 5000 Chinese words and top 2000 characters 明白了, 谢谢指点!
  9. J

    [Download] Frequency lists for top 5000 Chinese words and top 2000 characters

    回复: [Download] Frequency lists for top 5000 Chinese words and top 2000 characters 谢谢分享! 有两个问题请教: 1)文件中只见5000词表没有2000字表,是否漏贴了? 2)“Frequency per M words” 数据似乎不准, 将前1500条累计,就已经2.89M了。
  10. J

    [Download] ICTCLAS2008

    回复: [Download] ICTCLAS2008 前面“奢望”那层意思没说明白, 是这样: 软件标词性利用了短语搭配规则提高标注准确性,不是简单的词表匹配,但目前版本只能对相连字串(字间未加空格)使用这些规则,先分词后做人工校对,词间加了空格,在用ICTCLAS标词性,那些规则就不管用了。 详情可用下面两个例子测试: 1)很弯的浏阳河弯了九个弯才到湘江。 2)骑马上二奎那儿的人马上就会回来。
  11. J

    [Download] ICTCLAS2008

    回复: [Download] ICTCLAS2008 “打开”没问题, “存放”把文件存到了指定文件夹的上一层目录。 不过已经够好了。
  12. J

    [Download] ICTCLAS2008

    回复: [Download] ICTCLAS2008 很感谢! “相当的”感谢! 打开: 可否提供“选择文件”和“选择目录(包括子目录)”两种方式。 存放:可否“原目录下”和“另存于(指定目录--浏览或标明)”两种。 “有无分词标记”:是不是指“加不加词性标记”? 不好意思,还有个奢望:因为自动分词总有不可避免的错误,可否让软件对“分词后文本”标注词性? 这样中间就可进行人工分词校对, 程序为: ICTCLAS分词(不加词性标记)--人工校对分词结果--ICTCLAS加词性标记。
  13. J

    [Download] ICTCLAS2008

    回复: [Download] ICTCLAS2008 ICTCLAS如果能再做两点改进,将更优秀,在处理少有规模的语料时更方便: 1)能同时处理多个文件夹和子目录下的文件。现在版本一次只能处理一个文件夹里的文件 2)分词后文本可由用户自行指定存放处。现在的只自动存于原文件夹。 如果上两项已经实现,是我没试出来,请指正帮助。 非常好的软件,再次感谢分享。
  14. J

    [Download] ICTCLAS2008

    回复: [Download] ICTCLAS2008 谢谢!的确是各种分词软件里很优秀的一个。
  15. J

    [Download] ICTCLAS2008

    回复: [Download] ICTCLAS2008 谢谢楼上的回复,不过我的电脑系统时间没错,2008年8月19. 你是指ICTCLAS源程序里要改什么时间吗? 很奇怪。
  16. J

    [Download] ICTCLAS2008

    回复: Re: [Download] ICTCLAS2008 请问,系统时间怎么不对? 怎么改? 我碰到的问题跟你的一样,文件都全,目录也对,但还没试出来。 请指点,谢谢!
  17. J

    词汇库的发展如何?

    回复: 词汇库的发展如何? I read the intro and am very interested in the book. Where can I buy it? On Amazon it said it's not available until 2009.
  18. J

    您是如何得知本站的?欢迎参加调查!

    回复: 您是如何得知本站的?欢迎参加调查! 同学介绍的。
  19. J

    分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

    回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件 谢谢指点。不过WordSmith 需要手工一个一个的到文本中加text separators. 这个设计很不可理解。如果有50篇5000字长文,分成每篇1000字左右的的,个个去找 去加,还不如“cut&paste"简单。 换言之,这样和软件比较合用: 1) 从文本开头(或结尾)处顺序数取一定的字数(如1000字), 2)在1000字处往前(或回溯)数到第一个句子标点(。!?? !), 切断文本,另 存为独立文件 3)重复此一操作,直到文本末尾。 本楼介绍的那个软件程序上加第2)步即可...
  20. J

    分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

    回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件 这个软件做文本分割(比如把一个长文本分成1000字一个的多个文本)时,只能根据汉字数来分,结果是最后一句通常被从中间截断。有没有哪个软件可以切成完整的句子?先谢了。
Back
顶部