fzhuo的最近内容

  1. F

    corpus4u 网页乱码

    近来,我在学校不同的机房装有英文操作系统的Apple和Windows的电脑上碰到corpus4u网页乱码, 试过IE, Firefox, Chrome, 也选过所有的解码(encoding > More > 所有的解码),还是不行,不知是否能检查一下网站的设置?谢谢。
  2. F

    SegmentAnt 1.10 (三种中文分词+用户字典)

    已同 Laurence Anthony 联系,可能打包时出错。其实,自用字典可能有问题, 或许是Jieba的问题,它可能会调用内置字典,似乎长词条有优先权,虽然自用字典没含这些长词条。通过比较,我发现本单位的程序员前些年单独为中文老师编了Windows DOS 的结巴(Jieba)工具,也会如此。
  3. F

    SegmentAnt 1.10 (三种中文分词+用户字典)

    前段时间我联系了Professor Anthony Laurence, 请他把ICTCLAS和Jieba分词器加到他原先的SegmentAnt里面去, 他同意并很快做好发在他的网站上。虽然我也花了一些时间帮忙找Python文件和测试, 但还是可能有些别的问题,若你有兴趣,请试用。假如发现问题或有别的建议,请同他联系。谢谢! http://www.laurenceanthony.net/software.html
  4. F

    YACSI 1.0 for NLPIR/ICTCLAS2015

    Re: 回复: YACSI 1.0 for NLPIR/ICTCLAS2015 谢谢您的回复。 我只是想试一试最新的YACSI 1.0 for NLPIR/ICTCLAS2015, 把发现的问题提出来,看看是否有更好的解决办法。在每行首尾各加刮号或符号可行,但若对几十个文件且每个文件5000到8000行添符号, 多了一道处理过程。 其实,几年前我用 YACSI 9.x 分过词了。由于用YACSI 1.0 出现乱码,我又用 YACSI 9.x 试一次,原文没有问题, 不需再转换或重开重存一次,不知为什么用YACSI 1.0回出现问题, 要是别人没问题,我要多试试或等后续版本了。
  5. F

    YACSI 1.0 for NLPIR/ICTCLAS2015

    除了 "发现当一个文本的一行文字全部为英语和数字的时候,程序就会停止分词"以外,我还碰到以下情况: 1. 电影字幕每三行成一行: 分词前: 68 00 : 05 : 06,700 - - > 00 : 05 : 11,700 本公司全体同仁都为许大同骄傲 分词后: 68 00 : 05 : 06,700 - - > 00 : 05 : 11,700 本 公司 全体 同仁 都 为 许 大同 骄傲 2. 有的ANSI 和UTF-8文件分词后成乱码,我要先将英文 Windows 7 Professional 语言 Non-Unicode 设成...
顶部