求助:程序去码(decoding)

请问:如何使用FOXPRO程序语言或其他语言程序,去掉BNC文中的驸码?谢谢!!下面是部分文本:<s n=3612> <w PNP>they <w VVD>took <w NN1>sleeping <w NN2>bags <w TO0>to <w VVI>work <w PRP>with <w PNP>'em </u> <u who=PS13M>
<s n=3613> <w DTQ>what <w PNP>they <w VBD>were <w VDG>doing <w VBD>was <w VVG>taking <w NN2-VVZ>turns <c PUN>, <w CRD>one <w NN1>bloke <w VBD>was <w VDG>doing <w CRD>three <w NN1>man <w POS>'s <w NN2>jobs <w CJS>while <w AT0>the <w AJ0-NN1>other <w CRD>two <w VBD>was <w AT0>a <w NN1>kip </u> <u who=PS13K> <vocal desc=laugh> </u> <u who=PS13M>
 
回复: 求助:程序去码(decoding)

Try searching for "slim bnc" or "detagger" in the forum?
 
回复: 求助:程序去码(decoding)

请问:如何使用FOXPRO程序语言或其他语言程序,去掉BNC文中的驸码?谢谢!!下面是部分文本:<s n=3612> <w PNP>they <w VVD>took <w NN1>sleeping <w NN2>bags <w TO0>to <w VVI>work <w PRP>with <w PNP>'em </u> <u who=PS13M>
<s n=3613> <w DTQ>what <w PNP>they <w VBD>were <w VDG>doing <w VBD>was <w VVG>taking <w NN2-VVZ>turns <c PUN>, <w CRD>one <w NN1>bloke <w VBD>was <w VDG>doing <w CRD>three <w NN1>man <w POS>'s <w NN2>jobs <w CJS>while <w AT0>the <w AJ0-NN1>other <w CRD>two <w VBD>was <w AT0>a <w NN1>kip </u> <u who=PS13K> <vocal desc=laugh> </u> <u who=PS13M>

萧博士编了一个小程序可以将BNC的标注去掉,我试了,效果很好。输出结果为txt文本,不过,去掉标注之后,如何检索不同类型的语料子库又成了问题。
 
回复: 求助:程序去码(decoding)

thanks, Dr.Hong. BNC Indexer is so useful in catagroizing the needed files.
 
回复: 求助:程序去码(decoding)

我在论坛中找到了萧博士用PERL编的程序,可是点击连接后,却返回到了论坛主页,试了很多次,都是这样.能把这个程序的链接在这里重发一次吗?谢谢!

别忘了看站长的留言。由于论坛升级,链接需要更新,http://forum开头的要改成http://www的。因此,那个perl程序的正确链接是:

http://www.corpus4u.org/upload/forum/2006041922140567.zip
 
回复: 求助:程序去码(decoding)

谢谢. 我用的是wordsmith 3,对4不是很清楚,我想问一下在wordsmith 3中可以去掉附码吗?我试了许多次,都没有成功.
 
回复: 求助:程序去码(decoding)

去掉驸马,公主可就惨了。为什么一定要去掉呢?
 
回复: 求助:程序去码(decoding)

老洪.太幽默了,经典!一句话说明了驸码和文本的紧密关系.我想主要分析BNC口语语料库中的词汇,和任何驸马信息无关. 在WORDSMITH中,提取BNC的WORDLIST时,尽管使用了WORDSMITH提供的一些方法,但生成的WORDLIST总是包括一些驸马信息. 这些信息,影响了相关统计结果.所以,我想在提取WORDLIST之前,就去掉驸马,(有点残忍!哈哈).在WORDSMITH中,有没有什么办法使这些信息不影响统计结果?谢谢!
 
回复: 求助:程序去码(decoding)

俺直接给代码:Java 语言

/* the following code will remove all tag mark in the from of [] and <> */

String wholeText= getFile(filename) ;//read in the text
Pattern p2=Pattern.compile("(<[^<>]+?>)|\\[[^\\[\\]]+?\\]");
Matcher m2=p2.matcher(wholeText);

while (m2.find()){
wholeText=wholeText.replace(m2.group(),"");
System.out.println(m2.group());
}



我用以上代码去除了CLEC中的标识符号
 
Back
顶部