jinshan_wu
普通会员
在《基于英语学习者语料库的主题词研究》(李文中,2003)"3.主题词提取的数据处理步骤”中,作者提到要使“语料库文本纯净化,删除所有标注信息和附码信息”。我的问题是如果手工删除的话,似乎太费时费力了,不知在标注工具以外,有没有专门的删除标注的软件或工具。
Thanks!
Thanks!
用正则表达式匹配吧许教授,这个链接打不开,打开都是网页代售的广告信息。不知道怎么回事。我自己建立一个语料库作文收集平台。可以把学生的作文汇集成语料库,但是每个语料库txt开头都是<male><Age=18>之类的元信息。如果我要分析文本内容,应当将这些尖括号里的元信息都去除掉。在《语料库应用教程》里没有找到方法。请问许教授这个一般如何集中去除呢?用软件?还是用R语言代码怎么写?谢谢。
把<>和中间的东西都删了就行了吧用正则表达式匹配吧
底层就是用正则表达式匹配,然后替换删除。用正则表达式匹配吧