从熟语料到生语料-除了手动

本文由 cocole2015-04-30 发表於 "语料库语言学入门" 讨论区

  1. 如题,如何还原赋码语料(除手动)?
     
  2. xujiajin

    xujiajin 管理员 Staff Member

    回复: 从熟语料到生语料-除了手动

    The DeTagging Tool which helps to strip off tags of various formats in annotated texts.
     
  3. 回复: 从熟语料到生语料-除了手动

    贾云龙写的那个去掉赋码的软件确实有点太不咋样了,居然连快捷方式和txt文件种类都分不清,他那个软件给我把桌面很多图标的链接都给弄坏了。

    区区一个去掉赋码,一条正则表达式就搞定了。去掉赋码还是自己动手写正则表达式吧。这更靠谱。而且我这1.0G CPU 2G内存的 Windows7配置,软件使用EmEditor,居然都可以瞬间处理上千文件,这种强大功能好像超出了很多语料库软件,而且这个软件对于正则表达式的长度来说可以写很长。
     
  4. 回复: 从熟语料到生语料-除了手动

    [​IMG]
     
  5. williamJia

    williamJia 开放语料库项目

    不应该吧,我的软件好像只能处理文本,而且应该不会影响到桌面快捷方式。
     
  6. 正则表达式确实是更好的选择。先仔细分析熟语料,然后备份语料,再用Notepad++、Editplus等等专业文本编辑器中的“在文件中替换”这类功能,一条正则都搞定