如何使用标注好的语料库阿——一个弱智问题

greatlion

初级会员
我用Gotagger对生语料库进行了自动标注,然后再检索,奇怪的是,没有标注的时候,我检索一个词, 比如people, Antconc3.2还可以行,现在标注完了,检索什么都没有啊。迷茫。
 
回复: 如何使用标注好的语料库阿——一个弱智问题

应该是两个软件所使用的附码形式不匹配引起的问题。用Gotagger标注完的文本使用的是Word_Tag(下划线)的形式,而Antcon所适用的要么是未附码的文本,要么是带<Tag>(尖括号)附码的。
可以使用Dr. Xiao在该坛子里提供的Perl程序,将Gotagger附码后的语料转换为附码在尖括号内的后,再使用Antcon检索即可,
 
回复: 如何使用标注好的语料库阿——一个弱智问题

我用Gotagger对生语料库进行了自动标注,然后再检索,奇怪的是,没有标注的时候,我检索一个词, 比如people, Antconc3.2还可以行,现在标注完了,检索什么都没有啊。迷茫。

你是不是設置的問題,檢查一下Global settings里面的設置。
 
回复: 如何使用标注好的语料库阿——一个弱智问题

谢谢大家,呵呵。感觉真得很好,大家互相出谋划策。我正在收集生语料,建库。(虽然信度赶不上权威的语料库)。
 
回复: 如何使用标注好的语料库阿——一个弱智问题

应该是两个软件所使用的附码形式不匹配引起的问题。用Gotagger标注完的文本使用的是Word_Tag(下划线)的形式,而Antcon所适用的要么是未附码的文本,要么是带<Tag>(尖括号)附码的。
可以使用Dr. Xiao在该坛子里提供的Perl程序,将Gotagger附码后的语料转换为附码在尖括号内的后,再使用Antcon检索即可,

应该不存在这种问题,本人经常使用Antconc 检索word_tag风格的标注语料也并没有出现问题。Antconc 可以兼容其他格式的标注风格。请参见截图。
 

附件

  • antcon.gif
    antcon.gif
    36.5 KB · 浏览: 19
Last edited:
回复: 如何使用标注好的语料库阿——一个弱智问题

很明显,oscar3所提供的截图中有一个很值得注意的地方:在search Term中,所给的三个选项words、case和regex 没有选中任何一个。
我想这肯定会引出个问题,即检索准确度的问题。用oscar3的检索办法, 如果检索词是the,使用word_tag形式的语料进行检索后,所得到的检索行中的结点词除了包含有the之外,还会有其他含有the字符的词,如another.furtherd等。
请见下面截图。
 

附件

  • the检索截图.png
    the检索截图.png
    45.1 KB · 浏览: 11
回复: 如何使用标注好的语料库阿——一个弱智问题

上面一张截图不清楚,再上传一张。:D
 

附件

  • 截图.jpg
    截图.jpg
    125.8 KB · 浏览: 9
回复: 如何使用标注好的语料库阿——一个弱智问题

很明显,oscar3所提供的截图中有一个很值得注意的地方:在search Term中,所给的三个选项words、case和regex 没有选中任何一个。
我想这肯定会引出个问题,即检索准确度的问题。用oscar3的检索办法, 如果检索词是the,使用word_tag形式的语料进行检索后,所得到的检索行中的结点词除了包含有the之外,还会有其他含有the字符的词,如another.furtherd等。
请见下面截图。

chrisyang的问题我有点不明白。以上oscar3的提供的检索示例截图仅仅是想说明,word_tag风格的标注语料无需转换成<>形式,同样可以用Antconc来检索。举例仅限于此目的,oscar3并没有说所有的Antconc检索仅有此一种方法,请不要误解。是否选择words,case,regex要根据检索的目的来决定,如果检索的是(words),当然要选择words前面的复选框,而如果检索的是字串而不是词,就没有必要选择words复选框。所以,在没有限定检索目的的条件下,我认为很难判断检索结果准确与否。希望,我已经将问题讲清楚而不至于再引起误会。
 
回复: 如何使用标注好的语料库阿——一个弱智问题

谢谢oscar3的解释!regex检索功能强大,chrisyang正在学习使用PowerGrep, 对其还只是略知皮毛。但是我还是想知道,如何具体设置Antconc(我这边用的是Antconc 3.2.0)才能对word_tag形式的语料进行词(words)的检索。
希望能够利用下面提供的语料给个截图解释一下。向您学习啦!
 

附件

  • LOB A01A.txt
    23.7 KB · 浏览: 20
回复: 如何使用标注好的语料库阿——一个弱智问题

谢谢oscar3的解释!regex检索功能强大,chrisyang正在学习使用PowerGrep, 对其还只是略知皮毛。但是我还是想知道,如何具体设置Antconc(我这边用的是Antconc 3.2.0)才能对word_tag形式的语料进行词(words)的检索。
希望能够利用下面提供的语料给个截图解释一下。向您学习啦!

呵呵,我也并非专家,只是一个业余的语料库爱好者,关于Antconc检索中的设置问题你可以查查本坛里关于Antconc的帖子,相关的帖子大概有好几个,内容非常翔实,恕不重复。
 
回复: 如何使用标注好的语料库阿——一个弱智问题

与Antconc使用有关的帖子汇总

1. 请问antconc的concordance 的检索功能的高级检索context功能如何使用?
http://www.corpus4u.org/showthread.php?t=3424
2. 用AntConc统计语料中模糊限制语的出现频率,请问需要编码?
http://www.corpus4u.org/showthread.php?t=3186
3. 用AntConc处理中文concordance, wordlist, N-gram
http://www.corpus4u.org/showthread.php?t=1714
4. keyword in AntConc
http://www.corpus4u.org/showthread.php?t=3138
5. 请问如何用Antconc3.2.1 来统计英语新闻中的n+n搭配?
http://www.corpus4u.org/showthread.php?t=3118
6. AntConc3.2加入了file-based concordancing功能
http://www.corpus4u.org/showthread.php?t=2345
7. AntConc的cluster功能
http://www.corpus4u.org/showthread.php?t=2617
8. AntConc3.2.0 New Release Announcement
http://www.corpus4u.org/showthread.php?t=2501
9. AntConc Lastest Release 060907
http://www.corpus4u.org/showthread.php?t=2326
10. [求助]请问使用Antcon如何检索二词以上词组的搭配词
http://www.corpus4u.org/showthread.php?t=2248
11. AntConc 3.1.3 for Windows and Linux
http://www.corpus4u.org/showthread.php?t=1471
12.AntConc Keyword list generation function
http://www.corpus4u.org/showthread.php?t=1474
 
回复: 如何使用标注好的语料库阿——一个弱智问题

又老老实实趴在坛子里把有关Antconc使用的帖子看了一遍,发现多数帖子都在讨论如何使用Antconc的高级使用功能以及用Antconc处理中文,似乎没有一个帖子提到Antconc 3.2.0以及以前版本对不同形式附码语料(特别是word_tag形式,而<tag>形式是其默认格式)检索时进行设置的问题。
 
回复: 如何使用标注好的语料库阿——一个弱智问题

chrisyang用Antconc 3.2.0(包括以前的3.1.2和3.1.3)试验过很多次,发现这个版本在Search term 设置为Words时,根本无法对word_tag格式的英语语料进行处理。即使是在其Global Settings-Token/word definition-User-defined Definition中加入"_"后,还是无法处理Word_tag形式语料。
 
回复: 如何使用标注好的语料库阿——一个弱智问题

刚从中国外语教育研究中心BBS 网站上下载到了Antconc 3.2.1,试了一下,对Word_tag形式的语料很容易处理。即使使用其默认设置,也没有出现Search term 设置为Words时无法检索到的情况。

chrisyang已经习惯用WST3.0/4.0了,刚开始对Antconc也没有太在意。这次真让我收获不小啊!
真应了那句话:学问是苦藤上结出来的甜瓜啊!
 
回复: 如何使用标注好的语料库阿——一个弱智问题

再发两张截图作为结束语吧
 

附件

  • 截图.jpg
    截图.jpg
    143.5 KB · 浏览: 8
  • 隐藏tag检索截图.jpg
    隐藏tag检索截图.jpg
    142 KB · 浏览: 8
Last edited:
Back
顶部