关于整理AntConc可分析文本格式的问题

Yu Haoyang1995 · 2023-03-15

我爬取了一些微博的posting得到了.xlsx文档，复制入MS Word仅粘贴文本，然后复制入记事本并保存为UTF-8格式。
导入AntConc ver.4.1.2，在File下能正常显示，但是所有针对汉字的搜索都显示No hits found。
这种情况请问该如何处理？我准备先使用处理软件进行分词，但论坛常见问题集锦推荐的网址都已无法打开，正在尝试使用PowerGREP

xujiajin · 2023-03-23

可试试这个分词工具：http://corpus.bfsu.edu.cn/THULAC-GUI_20210409.zip

Yu Haoyang1995 · 2023-03-23

作者 xujiajin:
可试试这个分词工具：http://corpus.bfsu.edu.cn/THULAC-GUI_20210409.zip

谢谢许教授！我在知乎上搜索并尝试了几款分词工具，jieba完全支持我用的文本，但是THULAC python master还是会显示读取的文件编码有问题，现在尝试一下您这个

xujiajin · 2023-03-23

这个工具是山东农业大学葛晓帅老师开发的界面，底层是清华大学的分词工具。葛老师这个界面很友好。
需要安装Java运行环境。

Yu Haoyang1995 · 2023-03-23

作者 xujiajin:
这个工具是山东农业大学葛晓帅老师开发的界面，底层是清华大学的分词工具。葛老师这个界面很友好。
需要安装Java运行环境。

感谢许教授！安装java环境以后确实能用，而且效果非常好！

Yu Haoyang1995 · 2023-03-23

作者 xujiajin:
这个工具是山东农业大学葛晓帅老师开发的界面，底层是清华大学的分词工具。葛老师这个界面很友好。
需要安装Java运行环境。

另，请问我需要cite这个工具的情况下是只cite THULAC还是需要同时cite葛老师的相关文章？

xujiajin · 2023-03-23

可以通过脚注的形式，说明用的是葛晓帅老师的这个版本。

关于整理AntConc可分析文本格式的问题

Yu Haoyang1995

xujiajin

管理员

Yu Haoyang1995

xujiajin

管理员

Yu Haoyang1995

Yu Haoyang1995

xujiajin

管理员