求教XML标注语料库的检索

各位老师好,我想在薛学彦老师创建的大学英语教材语料库(COLEN)中检索包含被动语态的索引句,打开标记文件发现好像是用XML标注的(我才开始学习语料库,也不知道自己的理解是否正确,标记语言是以尖括号的形式成对出现的),我试了好久,没办法像词+码的标注那样用正则表达式检索出来,请问各位老师这样形式的标记应该怎样进行检索呢?实在很想知道,希望能得到老师们的指点,谢谢!
 
用 AntConc,在 Concordance 检索时不用勾选 Words, Case, Regex,通配符 * 就可以
<w BE?>*</w> <w VBN>*</w>
 
之前百思不得其解,只好用TreeTagger将PLAIN文本做了词_码的转换,这才用正则式检索到想要的结果。艾老师教的这个方法方便多了,谢谢您的指点,但是我没看明白这个检索式的意思,VBN在TreeTagger和CLAWS赋码集中不是表示been吗,为什么能检索到诸如known的过去分词呢?如果想检索到been和done之间有否定词或副词修饰的情况,又应该用什么检索式呢?想要进一步了解“如何检索这种尖括号形式的标记”,在哪里可以找到相关学习资料呢?我的语料库学习还处于入门阶段,艾老师见笑了,恳请能得到您的帮助,谢谢您!
 
Back
顶部