[求助]如何删去语料库中的标注信息和附码信息

jinshan_wu · 2005-10-17

在《基于英语学习者语料库的主题词研究》（李文中，2003）"3.主题词提取的数据处理步骤”中，作者提到要使“语料库文本纯净化，删除所有标注信息和附码信息”。我的问题是如果手工删除的话，似乎太费时费力了，不知在标注工具以外，有没有专门的删除标注的软件或工具。
Thanks!

xujiajin · 2005-10-17

1 如何去掉标记部分的内容？Tag removal : remove tags 09-11 10:55 oscar3
http://www.corpus4u.com/forum_view.asp?view_id=910&forum_id=53

2 How to remove tags at one go? 08-15 20:26 xujiaj...
http://www.corpus4u.com/forum_view.asp?view_id=784&forum_id=8

jinshan_wu · 2005-10-17

Thanks!

chuepeng · 2024-06-17

许教授，这个链接打不开，打开都是网页代售的广告信息。不知道怎么回事。我自己建立一个语料库作文收集平台。可以把学生的作文汇集成语料库，但是每个语料库txt开头都是<male><Age=18>之类的元信息。如果我要分析文本内容，应当将这些尖括号里的元信息都去除掉。在《语料库应用教程》里没有找到方法。请问许教授这个一般如何集中去除呢？用软件？还是用R语言代码怎么写？谢谢。

xujiajin · 2024-06-17

您看看我们开发的Detagger是否符合您的要求？

TOOLS-北外语料库语言学

RayBie · 2024-06-17

作者 chuepeng:
许教授，这个链接打不开，打开都是网页代售的广告信息。不知道怎么回事。我自己建立一个语料库作文收集平台。可以把学生的作文汇集成语料库，但是每个语料库txt开头都是<male><Age=18>之类的元信息。如果我要分析文本内容，应当将这些尖括号里的元信息都去除掉。在《语料库应用教程》里没有找到方法。请问许教授这个一般如何集中去除呢？用软件？还是用R语言代码怎么写？谢谢。

用正则表达式匹配吧

chuepeng · 2024-06-17

作者 RayBie:
用正则表达式匹配吧

把<>和中间的东西都删了就行了吧

xujiajin · 2024-06-17

作者 RayBie:
用正则表达式匹配吧

底层就是用正则表达式匹配，然后替换删除。
我们做的Detagger也是这个原理，只是在正则表达式基础上加了个界面，以方便不熟悉正则表达式的同行。

[求助]如何删去语料库中的标注信息和附码信息

jinshan_wu

普通会员

xujiajin

管理员

jinshan_wu

普通会员

chuepeng

xujiajin

管理员

RayBie

chuepeng

xujiajin

管理员