fzhuo的最近内容

F
corpus4u 网页乱码

近来，我在学校不同的机房装有英文操作系统的Apple和Windows的电脑上碰到corpus4u网页乱码，试过IE， Firefox， Chrome, 也选过所有的解码(encoding > More > 所有的解码），还是不行，不知是否能检查一下网站的设置？谢谢。
- fzhuo
- 主题
- 2016-06-09
- 回覆: 1
- 论坛: 语料库标注
F
SegmentAnt 1.10 (三种中文分词+用户字典）

已同 Laurence Anthony 联系，可能打包时出错。其实，自用字典可能有问题，或许是Jieba的问题，它可能会调用内置字典，似乎长词条有优先权，虽然自用字典没含这些长词条。通过比较，我发现本单位的程序员前些年单独为中文老师编了Windows DOS 的结巴（Jieba）工具，也会如此。
- fzhuo
- Post #4
- 2015-07-24
- 论坛: 语料库标注
F
SegmentAnt 1.10 (三种中文分词+用户字典）

前段时间我联系了Professor Anthony Laurence, 请他把ICTCLAS和Jieba分词器加到他原先的SegmentAnt里面去, 他同意并很快做好发在他的网站上。虽然我也花了一些时间帮忙找Python文件和测试, 但还是可能有些别的问题，若你有兴趣，请试用。假如发现问题或有别的建议，请同他联系。谢谢！ http://www.laurenceanthony.net/software.html
- fzhuo
- 主题
- 2015-07-22
- 回覆: 4
- 论坛: 语料库标注
F
YACSI 1.0 for NLPIR/ICTCLAS2015

Re: 回复: YACSI 1.0 for NLPIR/ICTCLAS2015 谢谢您的回复。我只是想试一试最新的YACSI 1.0 for NLPIR/ICTCLAS2015，把发现的问题提出来，看看是否有更好的解决办法。在每行首尾各加刮号或符号可行，但若对几十个文件且每个文件5000到8000行添符号，多了一道处理过程。其实，几年前我用 YACSI 9.x 分过词了。由于用YACSI 1.0 出现乱码，我又用 YACSI 9.x 试一次，原文没有问题，不需再转换或重开重存一次，不知为什么用YACSI 1.0回出现问题，要是别人没问题，我要多试试或等后续版本了。
- fzhuo
- Post #14
- 2015-03-29
- 论坛: 编程与工具开发
F
YACSI 1.0 for NLPIR/ICTCLAS2015

除了 "发现当一个文本的一行文字全部为英语和数字的时候，程序就会停止分词"以外，我还碰到以下情况： 1. 电影字幕每三行成一行：分词前： 68 00 : 05 : 06,700 - - > 00 : 05 : 11,700 本公司全体同仁都为许大同骄傲分词后： 68 00 : 05 : 06,700 - - > 00 : 05 : 11,700 本公司全体同仁都为许大同骄傲 2. 有的ANSI 和UTF-8文件分词后成乱码，我要先将英文 Windows 7 Professional 语言 Non-Unicode 设成...
- fzhuo
- Post #12
- 2015-03-26
- 论坛: 编程与工具开发

fzhuo的最近内容

corpus4u 网页乱码

SegmentAnt 1.10 (三种中文分词+用户字典）

SegmentAnt 1.10 (三种中文分词+用户字典）

YACSI 1.0 for NLPIR/ICTCLAS2015

YACSI 1.0 for NLPIR/ICTCLAS2015