求教:如何算出赋码文本中共有多少名词、动词等实词

我想请教, 用什么方法可以比较容易地算出一篇 (或数篇) 附码文本中共有多少名词、动词等实词 (最好是用检索软件而不用手工计算)?

还有一个问题, 在把一个文本用 CLAWS 附码之后, 我发现原本连续的一句话在换行处会出现中断, 这好像会影响检索结果。例如下面这句话, 本来 makes a point of 是一个连续的短语, 但处理过之后 makes_VVZ a_AT0 和 point_NN1 of_PRF 因换行断开了, 结果就检索不到这个短语了。这是怎么回事呢? 谢谢并祝大家教师节快乐!

The_AT0 seller_NN1 ,_, on_PRP the_AT0 other_AJ0 hand_NN1 ,_, makes_VVZ a_AT0
point_NN1 of_PRF protesting_VVG that_CJT the_AT0 price_NN1 he_PNP is_VBZ
charging_VVG is_VBZ depriving_VVG him_PNP of_PRF all_DT0 profit_NN1 ,_,
and_CJC that_CJT he_PNP is_VBZ sacrificing_VVG this_DT0 because_PRP21 of_PRP22
his_DPS personal_AJ0 regard_NN1 for_PRP the_AT0 customer_NN1 ._.
 
回复: 求教检索方法

你可能用的是CLAWS 在线免费标注,商用软件是按句子标的.
解决的方法是你可以在标注前先人工标注好段落,待词性标注后按原来的段落进行整理.
 
回复: 求教检索方法

谢谢! 我的确用的免费在线版。

标注之后我发现结果基本上也是以句子为单位的, 但在每一行结束换行的地方出现了中断 (也就是截图中显示的每行结尾出, 用 Word 打开附码后的文本可以看到每行后面都有一个回车)。是不是用正版的软件标注不会有这种问题?

我刚刚看了一下, BROWN 语料库中的那些文本文件在一行结束的地方也好像是断开了 (请看附件中的文本, 用 Word 打开也可以看到每行后的回车)。那么如果检索的短语正好跨行的话, 也会检索不到的。

不知道是我的这些文本有问题, 还是这种现象本身就是自然的。

你可能用的是CLAWS 在线免费标注,商用软件是按句子标的.
解决的方法是你可以在标注前先人工标注好段落,待词性标注后按原来的段落进行整理.
 

附件

  • tagged.JPG
    tagged.JPG
    57.5 KB · 浏览: 6
  • BROWN-D.TXT
    198.8 KB · 浏览: 7
回复: 求教检索方法

商用软件是按句子标的.
BROWN是第一代语料库,当时可能是计算机技术的问题,但是它的每行前面有信息标注的.
 
回复: 求教:如何算出赋码文本中共有多少名词、动词等实词

还是第一个问题要请教, 用什么方法可以比较容易地算出一篇 (或数篇) 附码文本中共有多少名词、动词 (甚至多少情态动词、过去分词) 等? 除了在 AntConc 这类检索软件里使用各词类附码进行检索, 看有多少 HITS 这种方法, 还有没有别的不需要一个个去算的办法? 谢谢!
 
Back
顶部