ParaConc对齐后,搜索时,却并不是对齐的,有时还会出现N/A

#1
最近在建一个语料库,费了就牛二虎之力终于把语料库建好了,可是当用ParaConc软件进行搜索时,发现搜出来的中英文有少量根本就不对应,并且有时汉语栏出现N/A符号,请问有没有高手可以帮帮忙,十分感谢!
中英文语料如下:
<H03> 法 规 名 称 : 组 织 犯 罪 防 制 条 例 ( 民 国 85 年 12 月 11 日 公 布 ) </H03>
<p001>
<s> 第 1 条 为 防 制 组 织 犯 罪 , 以 维 护 社 会 秩 序 , 保 障 人 民 权 益 , 特 制 定 本 条 例 。</s>
<s> 本 条 例 未 规 定 者 , 适 用 其 他 法 律 之 规 定 。</s>
</p001>
<p002> 第 2 条 本 条 例 所 称 犯 罪 组 织 , 系 指 三 人 以 上 , 有 内 部 管 理 结 构 , 以 犯 罪 为 宗 旨 或 以 其 成 员 从 事 犯 罪 活 动 , 具 有 集 团 性 、 常 习 性 及 胁 迫 性 或 暴 力 性 之 组 织 。
</p002>
……具体请看附件
<H03>Title: Organized Crime Prevention Act ( 1996.12.11 Announced )</H03>
<p001>
<s> Article 1 The Organized Crime Prevention Act (hereinafter referred to as the "Act") is established to prevent organized criminal activities and to maintain social order and protect the interests of the public.</s>
<s> Other laws may be applicable for activities not expressly regulated under this Act.</s>
</p001>
<p002>Article 2 The term "criminal organization" referred to in this Act means an enterprise involved in racketeering and consists of an internal management system of three or more persons sharing a common purpose of committing criminal activities or inciting its member(s) to commit criminal activities, and is, collective, habitual and forcible or violent in nature.</p002>
……具体请看附件
paraconc的设置如下:(见附件设置1.jpg和设置2.jpg)




paraconc中显示的对齐语料 见附件 对齐的语料.jpg


进行简单搜索,搜索英文单词 shall 结果见附件 搜索结果.jpg
搜索结果.jpg
 

附件

xiaoz

永远的超级管理员
Staff member
#2
回复: ParaConc对齐后,搜索时,却并不是对齐的,有时还会出现N/A

When the texts were loaded, you specified the Alignment format as "Not aligned".
 
#3
回复: ParaConc对齐后,搜索时,却并不是对齐的,有时还会出现N/A

谢谢帮助,一直有个问题没搞明白,load界面里的对齐设置和文本format里面的对齐设置之间有什么关系呢?
 
#4
回复: ParaConc对齐后,搜索时,却并不是对齐的,有时还会出现N/A

求助:我是个菜鸟。想发个主题帖子。可是不知道怎么发。只会回复帖子。各位大侠能不能教我一下。谢谢大家了
 
#5
回复: ParaConc对齐后,搜索时,却并不是对齐的,有时还会出现N/A

仔细看了你上传的语料,发现是因为英汉语料没对齐所致,即“[FONT=宋体]<p019> Article 19 This Act shall become effective from the date of promulgation.</p019> [/FONT]”所对应的中文为空,中文少了一个句子!?
其实,中文弄错了P016句子,这导致了中文的P017-P019与英文的P016-P019不匹配,从而这部分的检索结果也是错误的。
解决办法:在中文语料的</p015>后敲一回车。
 

附件

Last edited:

oscar3

高级会员
#6
回复: ParaConc对齐后,搜索时,却并不是对齐的,有时还会出现N/A

对齐之后可以用EditPlus等软件检查一下硬回车段落(physical paragraph)数。比较中英文本,至少从段落数上可以看出原文和译文之间没有对齐,中文只有61段,而英文62段。这样再去查找没有对齐的地方。
 

附件

顶部