cxpxc8的最近内容

  1. C

    TreeTagger对to的标注问题

    请问各位老师,TreeTagger把文本中的介词to和不定式小品词to均赋码为_TO,如下面: From_IN this_DT city_NN to_TO that_WDT one_NN you_PP can ... I_PP want_VVP to_TO do_VV it_PP ._SENT 第一句的不定式小品词to和第二句的介词to均标为_TO,但在研究中,这两类词显然是需要进行区分的。这该怎么办?进行手工修改吗? 谢谢啦!
  2. C

    关于readability analyzer统计的句数的问题

    谢谢李老师的回复!我用Readability analyzer 1.0 (version 1.0.21, Realease date: 2009-04-10)和Readability analyzer 1.0 (version 1.0.21, Realease date: 2009-04-30) 都试过(那个09-08-30的版本没找到,网上的链接都失效了),Sentences的统计数分别只有20和71,显然是有问题的。附件是那个白皮书文本,这应该是个“干净”的文本,拼写和格式方面都没什么问题。不知为何会出现这个问题。请老师帮忙看一下,谢谢啦!
  3. C

    关于readability analyzer统计的句数的问题

    我用readability analyzer分析《中国的人权状况[1991]》白皮书的英译文,其他统计数据感觉还正常(见图),可是“sentences”这一项,数字仅为70,而这份白皮书英译文应该有八百多句。不知为readability analyzer统计出来的数据只有70?出现这种问题该如何解决?麻烦哪位老师解答一下,非常感谢!
  4. C

    Treetagger3.0赋码时如何保持原语料的分段(或分行)形式?

    回复: Treetagger3.0赋码时如何保持原语料的分段(或分行)形式? 谢谢OSCAR3老师!TreeTagger2.0标注词性时确是具有保留原文段落的功能。不过如果选中次功能的话运行得有些慢,一个一万词左右的文本标注词性,花了十来分钟。TreeTagger3.0要是保持此功能就好了,这样对汉英平行语料英文文本的赋码会很方便。谢谢!
  5. C

    Treetagger3.0赋码时如何保持原语料的分段(或分行)形式?

    请问用TreeTagger for Windows 3.0 Lite (English tagging only)对语料赋码后,不同行的语料如果没有句点结束,会被合在一起,比如 Don't Use Cellphones When Driving Use Correct Lane No Road Lights 赋码后成为: Do_VVP n't_RB Use_VV Cellphones_NNS When_WRB Driving_NP Use_NP Correct_JJ Lane_NP No_NP Road_NP Lights_NP...
  6. C

    句对齐后与段落相关的标注

    回复: 句对齐后与段落相关的标注 好的,谢谢楼上大侠的回复!
  7. C

    句对齐后与段落相关的标注

    我目前在建一个英汉平行语料库,有下面两个具体问题想求教于大家,望能给予指导: 1)已对齐的一组句子,如果与另外一组句子分属一篇文章中的不同的段落,这两组句子之间是否需要空一行?还是这篇文章中所有对齐的句子一直顺着分行排下来,其间(不管有几个段落)都不需要空行? 1)分属不同段落的对齐的句子,在标注句子标记(<seg> ... </seg>)的同时,是否需要在该段(已对齐的)第一句和最后一句标注段落标记(<p> ... </p>)?还是说从头到尾不管段落,只标注对齐的句子标记(<seg> ... </seg>)就可以了? 在此先谢过啦!谢谢!
  8. C

    关于CUC_Paraconc

    回复: 关于CUC_Paraconc CUC_Paraconc 不用对汉语进行分词处理就能进行检索,而且支持多种对齐方式,确实很方便。
  9. C

    关于CUC_Paraconc

    回复: 关于CUC_Paraconc 好的,谢谢许博士!
  10. C

    关于CUC_Paraconc

    请问许博士,CUC_Paracon与Paraconc的功能大体相仿吗?是否可以基本替代Paraconc的功能和操作?还是说只能替代其中的一部分功能与操作?谢谢啦!
  11. C

    预告:纪念鲁迅诞辰128周年,《鲁迅小说汉英平行语料库》近期发布

    回复: 预告:纪念鲁迅诞辰128周年,《鲁迅小说汉英平行语料库》近期发布 不错!也向xusun575及其团队致敬!
  12. C

    用winalign做句对齐时的一个句子顺序发生紊乱的问题

    用Trados winalign做句对齐的时候(英译汉),发现了一个问题:WinAlign对齐处理之后,句子层面是对齐了,但是,原来的某些句子的顺序却被打乱了。关于这一点,Oscar3在以前的一个帖子中也曾提到过(http://www.corpus4u.org/showthread.php?t=4141&highlight=winalign)。...
  13. C

    句对齐时一对多或多对一时的切分、对齐问题

    回复: 句对齐时一对多或多对一时的切分、对齐问题 好的,谢谢Oscar3提供的方法!Many thanks!
  14. C

    句对齐时一对多或多对一时的切分、对齐问题

    回复: 句对齐时一对多或多对一时的切分、对齐问题 不好意思,刚才没看到Oscar3的回复。用Excel来加那些序号,下去再试试看。 Patricx:when you break the texts into sentenses, you'd better keep the text information. or you will not know who is who when you do some concordance. ——————————————————————————————————————————————————— "Keeping the text...
  15. C

    句对齐时一对多或多对一时的切分、对齐问题

    回复: 句对齐时一对多或多对一时的切分、对齐问题 我想那个序号应该是自动生成的。请教Oscar3,这个序号的生成方法具体如何操作?另外这些序号应该是对齐句子的前后顺序号吧,与句子在原文中的位置没有关系吧。先谢过啦!
Back
顶部