方法1:用正则表达式提取出所有标签到另一份文本文件而用antconc生成这份文件的词表就是你要的标签数量排行榜了!
方法2:用正则式剔除带标签的所有单词本体,保存当前文件,即可用antconc生成词表而其实形成了你要的那种词表!
正则式就像狙击步枪的瞄准镜,是用来批量猎杀的,批量猎杀其实是指"批量染色凸显、批量删除、批量提取、批量统计、批量替换"。在灵活运用情况下,批量删除与批量提取是殊途同归的相同功能,上面的方法1与方法2就是"南辕北辙、殊途同归"!
用正则式瞄准单词本身,一般是:[a-zA-Z0-9]+
用正则式瞄准"下划线型"词类(或语义)标签,一般是:_[a-zA-Z0-9]+
用正则式瞄准"斜线型"词类(或语义)标签,一般是:/[a-zA-Z0-9]+
用正则式瞄准"反斜线型"词类(或语义)标签,一般是:\\[a-zA-Z0-9]+
正则式工具很多,我最爱EmEditor,它有破解版,支持GB级超大文本(子)文件(夹)的批量处理!