Treetagger3.0赋码时如何保持原语料的分段(或分行)形式?

请问用TreeTagger for Windows 3.0 Lite (English tagging only)对语料赋码后,不同行的语料如果没有句点结束,会被合在一起,比如
Don't Use Cellphones When Driving
Use Correct Lane
No Road Lights
赋码后成为:
Do_VVP n't_RB Use_VV Cellphones_NNS When_WRB Driving_NP Use_NP Correct_JJ Lane_NP No_NP Road_NP Lights_NP
原文的三行语料被合成为一行。请问如何保持原语料的分行或分段形式?(Treetagger 2.0 有个“保留原文分段”的功能[retain original paragraphs],可3.0版本这个功能不见了)谢谢啦!
 
回复: Treetagger3.0赋码时如何保持原语料的分段(或分行)形式?

请问用TreeTagger for Windows 3.0 Lite (English tagging only)对语料赋码后,不同行的语料如果没有句点结束,会被合在一起,比如
Don't Use Cellphones When Driving
Use Correct Lane
No Road Lights
赋码后成为:
Do_VVP n't_RB Use_VV Cellphones_NNS When_WRB Driving_NP Use_NP Correct_JJ Lane_NP No_NP Road_NP Lights_NP
原文的三行语料被合成为一行。请问如何保持原语料的分行或分段形式?(Treetagger 2.0 有个“保留原文分段”的功能[retain original paragraphs],可3.0版本这个功能不见了)谢谢啦!

It's true you will have the problem with TreeTagger for Windows 3.0 Lite (English tagging only). If you do need to retain original paragraphs, you may download V2.0 (multilingual) at Baidu yunpan.
 
回复: Treetagger3.0赋码时如何保持原语料的分段(或分行)形式?

It's true you will have the problem with TreeTagger for Windows 3.0 Lite (English tagging only). If you do need to retain original paragraphs, you may download V2.0 (multilingual) at Baidu yunpan.

谢谢OSCAR3老师!TreeTagger2.0标注词性时确是具有保留原文段落的功能。不过如果选中次功能的话运行得有些慢,一个一万词左右的文本标注词性,花了十来分钟。TreeTagger3.0要是保持此功能就好了,这样对汉英平行语料英文文本的赋码会很方便。谢谢!
 
感谢oscar老师提供的办法。
我用stanford pos tagger时也遇到相同的问题,仔细阅读指南后发现带有一个参数开关,可以解决问题。
所以我猜想的原因如下:
(1)首先明白一点:treetagger不等于treetagger gui。
(2)原作者发布的版本可能一直有这个参数,但gui开发者Prof. Liang出于某种考虑没有提供。
(3)原作者发布的新版中取消了这个参数,gui开发者自然也无法提供。
到底是什么原因还有待使用者考证。
此外我有一点不太理解,国内学界似乎用treetagger的人比用stanford pos tagger的多,可就我所知,stanford提供的成套NLP工具无论在技术、维护还是效果上,都要好于treetagger。还请oscar老师和各位专家指教。以上说得不对的地方也请指正。
 
Treetagger和OpenNLP、Stanford NLP、GATE、SharpNLP,这些软件其实都是程序员给程序员使用的,可以叫做中间件(middleware),也就是说“这些软件的开发者没有考虑到让普通人用鼠标用键盘进行菜单操作之后且阅读体验愉快,这些软件的开发者是希望让会编程的其他程序员把这些软件进行友好封装,然后根据不会编程的朋友们的需求而进一步开发的时候来调用的,我们可以把这些软件视为半成品”,上述软件的网址如下:

http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
http://nlp.stanford.edu/
http://opennlp.apache.org/
https://gate.ac.uk/family/embedded.html
http://sharpnlp.codeplex.com/
 
Stanford 系列的 NLP 软件更新很快,一般一年两次,但如李亮所言,他们提供的主要是编程的接口,不过既然学语料库语言学,编程方面的知识还是应该掌握一些的。
 
http://jingyan.baidu.com/article/9113f81b0062e62b3314c779.html
《Treetagger的语料数据转换神技:5种特效》,我在“百度经验”发布的首篇图文教程,“百度经验”适合发布图文并茂的操作技巧,包括学术软件的操作技巧。这份教程让不会编程的英语师生也能把“在线版或本地版Treetagger”实现快速变身,摇身变为5种武器!本帖的疑问也因此得到迅捷解决,如果自己学一下UltraEdit或Notepad++之类的宏录制与宏播放,就能实现“一键变身”哈
 
Back
顶部