[求助]如何删去语料库中的标注信息和附码信息

jinshan_wu

普通会员
在《基于英语学习者语料库的主题词研究》(李文中,2003)"3.主题词提取的数据处理步骤”中,作者提到要使“语料库文本纯净化,删除所有标注信息和附码信息”。我的问题是如果手工删除的话,似乎太费时费力了,不知在标注工具以外,有没有专门的删除标注的软件或工具。
Thanks!
 
1 如何去掉标记部分的内容?Tag removal : remove tags 09-11 10:55 oscar3
http://www.corpus4u.com/forum_view.asp?view_id=910&forum_id=53

2 How to remove tags at one go? 08-15 20:26 xujiaj...
http://www.corpus4u.com/forum_view.asp?view_id=784&forum_id=8
 
许教授,这个链接打不开,打开都是网页代售的广告信息。不知道怎么回事。我自己建立一个语料库作文收集平台。可以把学生的作文汇集成语料库,但是每个语料库txt开头都是<male><Age=18>之类的元信息。如果我要分析文本内容,应当将这些尖括号里的元信息都去除掉。在《语料库应用教程》里没有找到方法。请问许教授这个一般如何集中去除呢?用软件?还是用R语言代码怎么写?谢谢。
 
许教授,这个链接打不开,打开都是网页代售的广告信息。不知道怎么回事。我自己建立一个语料库作文收集平台。可以把学生的作文汇集成语料库,但是每个语料库txt开头都是<male><Age=18>之类的元信息。如果我要分析文本内容,应当将这些尖括号里的元信息都去除掉。在《语料库应用教程》里没有找到方法。请问许教授这个一般如何集中去除呢?用软件?还是用R语言代码怎么写?谢谢。
用正则表达式匹配吧
 
用正则表达式匹配吧
底层就是用正则表达式匹配,然后替换删除。
我们做的Detagger也是这个原理,只是在正则表达式基础上加了个界面,以方便不熟悉正则表达式的同行。
 
Back
顶部