搜寻结果

  1. C

    TreeTagger对to的标注问题

    请问各位老师,TreeTagger把文本中的介词to和不定式小品词to均赋码为_TO,如下面: From_IN this_DT city_NN to_TO that_WDT one_NN you_PP can ... I_PP want_VVP to_TO do_VV it_PP ._SENT 第一句的不定式小品词to和第二句的介词to均标为_TO,但在研究中,这两类词显然是需要进行区分的。这该怎么办?进行手工修改吗? 谢谢啦!
  2. C

    关于readability analyzer统计的句数的问题

    谢谢李老师的回复!我用Readability analyzer 1.0 (version 1.0.21, Realease date: 2009-04-10)和Readability analyzer 1.0 (version 1.0.21, Realease date: 2009-04-30) 都试过(那个09-08-30的版本没找到,网上的链接都失效了),Sentences的统计数分别只有20和71,显然是有问题的。附件是那个白皮书文本,这应该是个“干净”的文本,拼写和格式方面都没什么问题。不知为何会出现这个问题。请老师帮忙看一下,谢谢啦!
  3. C

    关于readability analyzer统计的句数的问题

    我用readability analyzer分析《中国的人权状况[1991]》白皮书的英译文,其他统计数据感觉还正常(见图),可是“sentences”这一项,数字仅为70,而这份白皮书英译文应该有八百多句。不知为readability analyzer统计出来的数据只有70?出现这种问题该如何解决?麻烦哪位老师解答一下,非常感谢!
  4. C

    Treetagger3.0赋码时如何保持原语料的分段(或分行)形式?

    回复: Treetagger3.0赋码时如何保持原语料的分段(或分行)形式? 谢谢OSCAR3老师!TreeTagger2.0标注词性时确是具有保留原文段落的功能。不过如果选中次功能的话运行得有些慢,一个一万词左右的文本标注词性,花了十来分钟。TreeTagger3.0要是保持此功能就好了,这样对汉英平行语料英文文本的赋码会很方便。谢谢!
  5. C

    Treetagger3.0赋码时如何保持原语料的分段(或分行)形式?

    请问用TreeTagger for Windows 3.0 Lite (English tagging only)对语料赋码后,不同行的语料如果没有句点结束,会被合在一起,比如 Don't Use Cellphones When Driving Use Correct Lane No Road Lights 赋码后成为: Do_VVP n't_RB Use_VV Cellphones_NNS When_WRB Driving_NP Use_NP Correct_JJ Lane_NP No_NP Road_NP Lights_NP...
  6. C

    句对齐后与段落相关的标注

    回复: 句对齐后与段落相关的标注 好的,谢谢楼上大侠的回复!
  7. C

    句对齐后与段落相关的标注

    我目前在建一个英汉平行语料库,有下面两个具体问题想求教于大家,望能给予指导: 1)已对齐的一组句子,如果与另外一组句子分属一篇文章中的不同的段落,这两组句子之间是否需要空一行?还是这篇文章中所有对齐的句子一直顺着分行排下来,其间(不管有几个段落)都不需要空行? 1)分属不同段落的对齐的句子,在标注句子标记(<seg> ... </seg>)的同时,是否需要在该段(已对齐的)第一句和最后一句标注段落标记(<p> ... </p>)?还是说从头到尾不管段落,只标注对齐的句子标记(<seg> ... </seg>)就可以了? 在此先谢过啦!谢谢!
  8. C

    关于CUC_Paraconc

    回复: 关于CUC_Paraconc CUC_Paraconc 不用对汉语进行分词处理就能进行检索,而且支持多种对齐方式,确实很方便。
  9. C

    关于CUC_Paraconc

    回复: 关于CUC_Paraconc 好的,谢谢许博士!
  10. C

    关于CUC_Paraconc

    请问许博士,CUC_Paracon与Paraconc的功能大体相仿吗?是否可以基本替代Paraconc的功能和操作?还是说只能替代其中的一部分功能与操作?谢谢啦!
  11. C

    预告:纪念鲁迅诞辰128周年,《鲁迅小说汉英平行语料库》近期发布

    回复: 预告:纪念鲁迅诞辰128周年,《鲁迅小说汉英平行语料库》近期发布 不错!也向xusun575及其团队致敬!
  12. C

    用winalign做句对齐时的一个句子顺序发生紊乱的问题

    用Trados winalign做句对齐的时候(英译汉),发现了一个问题:WinAlign对齐处理之后,句子层面是对齐了,但是,原来的某些句子的顺序却被打乱了。关于这一点,Oscar3在以前的一个帖子中也曾提到过(http://www.corpus4u.org/showthread.php?t=4141&highlight=winalign)。...
  13. C

    句对齐时一对多或多对一时的切分、对齐问题

    回复: 句对齐时一对多或多对一时的切分、对齐问题 好的,谢谢Oscar3提供的方法!Many thanks!
  14. C

    句对齐时一对多或多对一时的切分、对齐问题

    回复: 句对齐时一对多或多对一时的切分、对齐问题 不好意思,刚才没看到Oscar3的回复。用Excel来加那些序号,下去再试试看。 Patricx:when you break the texts into sentenses, you'd better keep the text information. or you will not know who is who when you do some concordance. ——————————————————————————————————————————————————— "Keeping the text...
  15. C

    句对齐时一对多或多对一时的切分、对齐问题

    回复: 句对齐时一对多或多对一时的切分、对齐问题 我想那个序号应该是自动生成的。请教Oscar3,这个序号的生成方法具体如何操作?另外这些序号应该是对齐句子的前后顺序号吧,与句子在原文中的位置没有关系吧。先谢过啦!
  16. C

    句对齐时一对多或多对一时的切分、对齐问题

    回复: 句对齐时一对多或多对一时的切分、对齐问题 谢谢楼上两位的回复! 我那个例子中的句子标号标注格式是有问题,标注符号和文本的内容混在一块了。当时举例子时没有太注意这个问题,虽然我心里知道这个序号应该与文本内容区别开来。这里也想请问Oscar3一个很菜的问题:你提到的“句子分解标记”具体是怎样的?能否用上面的例子给示范一下?谢谢啦!
  17. C

    句对齐时一对多或多对一时的切分、对齐问题

    回复: 句对齐时一对多或多对一时的切分、对齐问题 谢谢xusun575的详细说明!Trados的winalign自动对齐后的确还需要花较多的时间来人工辅助对齐。个人觉得使用winalign时,导入语料前先把那些较长的段落划分短点有助于减少自动对齐的出错可能,以便提高对齐效率。tradoser曾经粗略试过,好像不太适合自动句对齐的处理(个人意见)。 另外还想请教两个问题,先谢过了! 1)前面xusun575提到过一句话“如果要求只是“只见句子不见篇章”,请问一般双语平行语料库的建设,除应该对对齐的句子进行分界标注外(<seg>,</seg>),是否有必要对相关段落信息进行标定?...
  18. C

    请求帮助Mona Baker的论文

    回复: 请求帮助Mona Baker的论文 M. Baker(1993)的第一篇文章也收录在国内最近出版的一本西方翻译论文集中,上次在书店里看到了那本书,可惜忘了书名和作者。
  19. C

    请求帮助Mona Baker的论文

    回复: 请求帮助Mona Baker的论文 一楼朋友所列的M. Baker(1995)的第二篇文章收录在李养龙编的《西方翻译理论文献阅读》一书中(世界图书出版公司,2007),pp179-195.
  20. C

    句对齐时一对多或多对一时的切分、对齐问题

    回复: 句对齐时一对多或多对一时的切分、对齐问题 谢谢Xusun575!Many thanks!
Back
顶部