急求:没有经过词性赋码的Brown Corpus

#1
我现在在写毕业论文,需要Brown Corpus作参照语料库,哪位有untagged Brown Corpus?
或者哪位知道怎样把tagged Brown Corpus的词性赋码的部分去掉么?因为我在nltk上下载到了这样的语料库。
万分感谢~
我的邮箱:cherry.577@163.com.
 
#2
回复: 急求:没有经过词性赋码的Brown Corpus

既然知道nltk,应该会一些基本的文本处理手段,比如搜索替换,在网站搜索一下吧
 
#3
回复: 急求:没有经过词性赋码的Brown Corpus

哦,知道nltk是因为看到之前有在求brown corpus帖子中提到了。我是初学者,对于很多东西都不十分懂,能具体指导一下么?
 
#4
回复: 急求:没有经过词性赋码的Brown Corpus

我有Brown1 和2,没有词性赋码,但我也在苦恼1和2有什么区别。发给你吧
 
#6
回复: 急求:没有经过词性赋码的Brown Corpus

把赋码去掉:使用文本处理工具EditPat Pro,在搜索框中键入(\S+)_(\S+), 然后在替换框中键入$1, 点击替换就剩下raw text 了。
但是前提是,原赋码的形式是 “词_码”才能实现。
 
#11
回复: 急求:没有经过词性赋码的Brown Corpus

各位老师:
Farm/nn, deal/nn 请问这些词后的词性标注该如何去掉?
 
#14
回复: 急求:没有经过词性赋码的Brown Corpus

你好,我想咨询一下,BROWN预料库里面有好多的#和*,请问知道代表什么吗?在检索之前是不是都要处理掉,否则会影响数据统计吧!
 
顶部