从熟语料到生语料-除了手动

#3
回复: 从熟语料到生语料-除了手动

The DeTagging Tool which helps to strip off tags of various formats in annotated texts.
贾云龙写的那个去掉赋码的软件确实有点太不咋样了,居然连快捷方式和txt文件种类都分不清,他那个软件给我把桌面很多图标的链接都给弄坏了。

区区一个去掉赋码,一条正则表达式就搞定了。去掉赋码还是自己动手写正则表达式吧。这更靠谱。而且我这1.0G CPU 2G内存的 Windows7配置,软件使用EmEditor,居然都可以瞬间处理上千文件,这种强大功能好像超出了很多语料库软件,而且这个软件对于正则表达式的长度来说可以写很长。
 

williamJia

开放语料库项目
#5
回复: 从熟语料到生语料-除了手动


贾云龙写的那个去掉赋码的软件确实有点太不咋样了,居然连快捷方式和txt文件种类都分不清,他那个软件给我把桌面很多图标的链接都给弄坏了。

区区一个去掉赋码,一条正则表达式就搞定了。去掉赋码还是自己动手写正则表达式吧。这更靠谱。而且我这1.0G CPU 2G内存的 Windows7配置,软件使用EmEditor,居然都可以瞬间处理上千文件,这种强大功能好像超出了很多语料库软件,而且这个软件对于正则表达式的长度来说可以写很长。
不应该吧,我的软件好像只能处理文本,而且应该不会影响到桌面快捷方式。
 
#7
正则表达式确实是更好的选择。先仔细分析熟语料,然后备份语料,再用Notepad++、Editplus等等专业文本编辑器中的“在文件中替换”这类功能,一条正则都搞定
 
顶部