请问如何用用powergrep对符码的文本文件标记，使其只保留符码？

steven8810469 · 2009-11-01

请问如何用用powergrep对符码的文本文件标记，使其只保留符码？梁茂成教授的文章中提到，但没有细节，请问具体的操作方法，先谢了！

qqblaire · 2009-11-01

回复: 请问如何用用powergrep对符码的文本文件标记，使其只保留符码？

假设用treetagger对文本进行赋码，我们可以考虑所赋的码的格式均为：下划线+几个大写字母。
我在PowerGrep中试了下面的正则表达式，可以去掉文本，只保留赋码。

(\w+)_(?=[A-Z]+)

Good luck!

作者 steven8810469:
请问如何用用powergrep对符码的文本文件标记，使其只保留符码？梁茂成教授的文章中提到，但没有细节，请问具体的操作方法，先谢了！

xusun575 · 2009-11-01

回复: 请问如何用用powergrep对符码的文本文件标记，使其只保留符码？

作者 steven8810469:
请问如何用用powergrep对符码的文本文件标记，使其只保留符码？梁茂成教授的文章中提到，但没有细节，请问具体的操作方法，先谢了！

发一段已标注的文本上来.

xujiajin · 2009-11-01

回复: 请问如何用用powergrep对符码的文本文件标记，使其只保留符码？

search and replace

(\S+)_(\S+)替换为\2

当然方法很多，这只是其中一种方法。

armstrong · 2009-11-02

回复: 请问如何用用powergrep对符码的文本文件标记，使其只保留符码？

如果是a_AT book_NN1这样的，在word中利用替换，在查找中输入(<[a-zA-Z0-9]@>)_(<[A-Z0-9]@>)，在替换中输入\2，然后选是使用通配符就可以将之变成：AT NN1

xusun575 · 2009-11-02

回复: 请问如何用用powergrep对符码的文本文件标记，使其只保留符码？

作者 armstrong:
如果是a_AT book_NN1这样的，在word中利用替换，在查找中输入(<[a-zA-Z0-9]@>)_(<[A-Z0-9]@>)，在替换中输入\2，然后选是使用通配符就可以将之变成：AT NN1

Greeeeat minds think alike.

xujiajin · 2009-11-02

回复: 请问如何用用powergrep对符码的文本文件标记，使其只保留符码？

作者 armstrong:
如果是a_AT book_NN1这样的，在word中利用替换，在查找中输入(<[a-zA-Z0-9]@>)_(<[A-Z0-9]@>)，在替换中输入\2，然后选是使用通配符就可以将之变成：AT NN1

如果有3000个文本，在Word里需要做3000次，用PowerGREP，只要一次。

steven8810469 · 2009-11-02

回复: 请问如何用用powergrep对符码的文本文件标记，使其只保留符码？

作者 xujiajin:
search and replace

(\S+)_(\S+)替换为\2

当然方法很多，这只是其中一种方法。

许博士，我用这种方法对于CLEC语言错误类型赋码进行了操作，得到的结果是
TOTAL: 0 matches in 0 files (1 other file without matches not listed)
也许，我所说的符码不在你的考虑范围？请老师帮忙！

xujiajin · 2009-11-02

回复: 请问如何用用powergrep对符码的文本文件标记，使其只保留符码？

你应该说清楚你用的是什么语料。

CLEC的错误码情况不一样。CLEC错误码，不是每词赋码。而且是在在方括号中。

在PowerGREP里选择Collect功能，不是search and replace

然后查找\[(.*?)\]
Collect框输入$1

不过如果你将CLEC的单词去掉，保留错误码，没多大意义。
采取某个操作前，要明确自己想做什么。

steven8810469 · 2009-11-02

回复: 请问如何用用powergrep对符码的文本文件标记，使其只保留符码？

作者 armstrong:
如果是a_AT book_NN1这样的，在word中利用替换，在查找中输入(<[a-zA-Z0-9]@>)_(<[A-Z0-9]@>)，在替换中输入\2，然后选是使用通配符就可以将之变成：AT NN1

谢谢你，我用了这种方法吧CLEC 复制到了WORD 文档并进行了如此操作，也是没有效果，不知是文件原因，还是我操作不当？

xusun575 · 2009-11-02

回复: 请问如何用用powergrep对符码的文本文件标记，使其只保留符码？

作者 xujiajin:
如果有3000个文本，在Word里需要做3000次，用PowerGREP，只要一次。

批量文本,两次即可.Word 的功能真该好好挖掘一下.

steven8810469 · 2009-11-02

回复: 请问如何用用powergrep对符码的文本文件标记，使其只保留符码？

作者 xujiajin:
你应该说清楚你用的是什么语料。

CLEC的错误码情况不一样。CLEC错误码，不是每词赋码。而且是在在方括号中。

在PowerGREP里选择Collect功能，不是search and replace

然后查找\[(.*?)\]
Collect框输入$1

不过如果你将CLEC的单词去掉，保留错误码，没多大意义。
采取某个操作前，要明确自己想做什么。

谢谢许博士的提醒与帮助，我已经明白了！

steven8810469 · 2009-11-02

回复: 请问如何用用powergrep对符码的文本文件标记，使其只保留符码？

用这种方法试了weccl 某个文件，结果一红一绿，使用了SELET ALL ,得到结果：
D:\WARG0001.txt
TARGET: D:\WARG0001.txt
2 I_PPIS1PPIS1 think_VV0VV0 they_PPHS2PPHS2 are_VBRVBR both_RRRR right_JJJJ ._..
3 Many_DA2DA2 people_NNNN go_VV0VV0 to_IIII the_ATAT university_NN1NN1 ,_,, because_CSCS it_PPH1PPH1 can_VMVM be_VBIVBI easy_JJJJ for_IFIF you_PPYPPY to_TOTO find_VVIVVI a_AT1AT1 work_NN1NN1 ._..
4 Many_DA2DA2 people_NNNN go_VV0VV0 to_IIII the_ATAT university_NN1NN1 ,_,, because_CSCS it_PPH1PPH1 can_VMVM be_VBIVBI easy_JJJJ for_IFIF you_PPYPPY to_TOTO find_VVIVVI a_AT1AT1 work_NN1NN1 ._..

又怎样一次性提取符码？请提醒！

steven8810469 · 2009-11-02

回复: 请问如何用用powergrep对符码的文本文件标记，使其只保留符码？

作者 steven8810469:
用这种方法试了weccl 某个文件，结果一红一绿，使用了SELET ALL ,得到结果：
D:\WARG0001.txt
TARGET: D:\WARG0001.txt
2 I_PPIS1PPIS1 think_VV0VV0 they_PPHS2PPHS2 are_VBRVBR both_RRRR right_JJJJ ._..
3 Many_DA2DA2 people_NNNN go_VV0VV0 to_IIII the_ATAT university_NN1NN1 ,_,, because_CSCS it_PPH1PPH1 can_VMVM be_VBIVBI easy_JJJJ for_IFIF you_PPYPPY to_TOTO find_VVIVVI a_AT1AT1 work_NN1NN1 ._..
4 Many_DA2DA2 people_NNNN go_VV0VV0 to_IIII the_ATAT university_NN1NN1 ,_,, because_CSCS it_PPH1PPH1 can_VMVM be_VBIVBI easy_JJJJ for_IFIF you_PPYPPY to_TOTO find_VVIVVI a_AT1AT1 work_NN1NN1 ._..

又怎样一次性提取符码？请提醒！

<STU2><ARG17><YEAR06><GRADE1><TIMED>
PPIS1 VV0 PPHS2 VBR RR JJ .
DA2 NN VV0 II AT NN1 , CS PPH1 VM VBI JJ IF PPY TO VVI AT1 NN1 .
DA2 NN VV0 II AT NN1 , CS PPH1 VM VBI JJ IF PPY TO VVI AT1 NN1 .
CS PPY VBR RR AT1 JJ NN1 , DAT NN1 VM XX VVI PPY , PPHS2 VV0 PPY VBR XX NN1 RR , II APPGE NN2 PPY VH0 XX VV0 II AT1 NN1 CS PPY VBR XX JJ .
CCB CS PPY VV0 II AT NN1 CS PPY VM XX VDI DD NN1 , REX21 REX22 PPY VM XX VVI APPGE NN2 , PPY VM XX VDI DD JJ NN2 .
PPHS2 RR VV0 PPY VBR RG JJ , CS PPY VBR II AT1 JJ NN1 PPH1 VM VBI NN1 .
RR DD NN VV0 II AT NN1 IF VV0 AT1 NN1 .
JJ NN VV0 II AT NN1 CS PPHS2 VV0 TO VVI DD NN1 .
PPHS2 RR VV0 TO VVI PPX1 .
CS CS PPY JJ VH0 DD NN1 PPY VM VHI DB NN1 .
PPHS2 VV0 NN2 VM VHI DA2 NN2 XX RR RRQ TO VVI .
PPHS2 VM VVI TO VVI CC RRQ TO VVI NN2 .
PPHS2 VM VVI RRQ TO VVI IW NN2 .

I got it 1thanks！

xujiajin · 2009-11-02

回复: 请问如何用用powergrep对符码的文本文件标记，使其只保留符码？

congrats!

steven8810469 · 2009-11-07

回复: 请问如何用用powergrep对符码的文本文件标记，使其只保留符码和该要保留的原词如：情态动词might？？

作者 steven8810469:
请问如何用用powergrep对符码的文本文件标记，使其只保留符码和该要保留的原词如：情态动词might？梁茂成教授的文章中提到，但没有细节，请问具体的操作方法，先谢了！

steven8810469 · 2009-11-07

请问如何用用powergrep对符码的文本文件标记，使其只保留符码和该要保留的原词如：情态动词might？？

又要问如何用用powergrep对符码的文本文件标记，使其只保留符码和该要保留的原词如：情态动词might？梁茂成教授的文章中提到，但没有细节，请问具体的操作方法，先谢了！

steven8810469 · 2009-11-08

回复: 请问如何用用powergrep对符码的文本文件标记，使其只保留符码和该要保留的原词如：情态动词might？？

作者 steven8810469:
又要问如何用用powergrep对符码的文本文件标记，使其只保留符码和该要保留的原词如：情态动词might？梁茂成教授的文章中提到，但没有细节，请问具体的操作方法，先谢了！

又要问如何用用powergrep对符码的文本文件标记，使其只保留符码和该要保留的原词如：情态动词might？梁茂成教授的文章中提到，但没有细节，请问具体的操作方法，先谢了！

steven8810469 · 2009-11-08

回复: 请问如何用用powergrep对符码的文本文件标记，使其只保留符码和该要保留的原词如：情态动词might？？

作者 steven8810469:
又要问如何用用powergrep对符码的文本文件标记，使其只保留符码和该要保留的原词如：情态动词might？梁茂成教授的文章中提到，但没有细节，请问具体的操作方法，先谢了！

又要问如何用用powergrep对符码的文本文件标记，使其只保留符码和该要保留的原词如：情态动词might？梁茂成教授的文章中提到，但没有细节，请问具体的操作方法，先谢了！
这个问题我以为很难，请求大家帮忙！

seanxpq · 2011-04-22

回复: 请问如何用用powergrep对符码的文本文件标记，使其只保留符码？

作者 qqblaire:
假设用treetagger对文本进行赋码，我们可以考虑所赋的码的格式均为：下划线+几个大写字母。
我在PowerGrep中试了下面的正则表达式，可以去掉文本，只保留赋码。

(\w+)_(?=[A-Z]+)

Good luck!

让这个帖子浮上来。关于正则表达式，我觉得查找方面好懂一些，涉及到替换有时候就搞不懂了。许博士那个替换为\2的表达式大致懂了。

(\w+)_(?=[A-Z]+)这个表达式究竟是查找还是收集或替换呢？

(?=[A-Z]+)这个部分不明白，还请不吝赐教！

请问如何用用powergrep对符码的文本文件标记，使其只保留符码？

steven8810469

qqblaire

xusun575

高级会员

xujiajin

管理员

armstrong

高级会员

xusun575

高级会员

xujiajin

管理员

steven8810469

xujiajin

管理员

steven8810469

xusun575

高级会员

steven8810469

steven8810469

steven8810469

xujiajin

管理员

steven8810469

steven8810469

steven8810469

steven8810469

seanxpq

corpus explorer