平行双语库的start/end tag 怎么标是标准的?

不好意思,手头没有可见的平行双语的库文件,所有看不到基本代码

有哪位朋友,给出3-5对齐的句子,带上start tag 和end tag 让我看下标准的模式就可以,谢谢

后来我搜索到laohong的帖子了有样本。
但我的问题还有一个, 为什么在检索的时候总出现2个重复的检索行?我文本里的标记做的很清楚啊。不知道问题出在哪里啊
 
Last edited:
回复: 平行双语库的start/end tag 怎么标是标准的?

不好意思,手头没有可见的平行双语的库文件,所有看不到基本代码
有哪位朋友,给出3-5对齐的句子,带上start tag 和end tag 让我看下标准的模式就可以,谢谢
后来我搜索到laohong的帖子了有样本。但我的问题还有一个, 为什么在检索的时候总出现2个重复的检索行?我文本里的标记做的很清楚啊。不知道问题出在哪里啊

1、你说的是我的哪个帖子?给个链接吧,方便大家进一步讨论;
2、最好告诉大家你用什么工具检索你的文本的?ParaConc 吗?
3、把你的文本贴上来,大家帮忙看看?
 
回复: 平行双语库的start/end tag 怎么标是标准的?

不好意思,手头没有可见的平行双语的库文件,所有看不到基本代码

有哪位朋友,给出3-5对齐的句子,带上start tag 和end tag 让我看下标准的模式就可以,谢谢

后来我搜索到laohong的帖子了有样本。
但我的问题还有一个, 为什么在检索的时候总出现2个重复的检索行?我文本里的标记做的很清楚啊。不知道问题出在哪里啊


虽然laohong可能没有碰到这类问题,但是,我见过这类问题。用paraconc检索出来的concordance好像都是重复的,八成是出了问题。在句子的delimiter选择上有了问题。如果你严格按照<start>和</end>来标注的,你可以选择该分隔符,否则你应该选择段落分隔符。不过,你还是将你的检索结果贴出来吧,大家看看就明白了。
 
回复: 平行双语库的start/end tag 怎么标是标准的?

是这个帖子
http://www.corpus4u.org/showthread.php?t=2228&highlight=paraconc
内容按laohong的内容保存的。汉语文本保存为utf-8,我知道您让保存为GB。但paraconc汉语的就得选utf-8。下面的2个图片一看就知道了,看汉语检索部分好多重复的。

没有看出来程序有什么错。图中的汉语句子看似重复显示其实并不是重复,原因是当你搜寻the时,英语句子“None of the women could bear to be in her presence , and they deputed some of the more courageous menfolk to come in and keep watch on her .” 里有三个匹配项(红色),而对应的汉语句子“趙姨娘一時死去,隔了些時,又回過來,整整的鬧了一夜。”当然也得显示三次。

试着检索一下they,是不是没有“重复”了?因为在英语句子里就只有一个匹配项,对应的汉语句子也只一个。

另外,ParaConc并没有要求文本一定是UTF-8,用GB照样可以运行;如果文本是UTF-8的话就得,勾选那个选项。
 
回复: 平行双语库的start/end tag 怎么标是标准的?

太感谢hong老师了。我刚才一看果然是,而且因为我check 了regular expression 我疏忽了。 而且hong老师的解释非常清楚,感谢。
 
Back
顶部