强化法制建设,对齐法律文本供分享

回复: 强化法制建设,对齐法律文本供分享

感谢laohong, oscar3, xusun575... 付出的艰辛劳动,神速啊!:)
A Short User Manual”中说“比如,我们可以迅速提取出所有一翻多的句子......;同样,我们也可以迅速统计出多个句子被合并翻译成一个句子的情况等等。这一点,用户是无法从其它平行语料库中得到的。”
请问laohong,怎样才能迅速提取出所有一对多或多对一的句子呢?还有,能否把这个在线检索语料库的制作心得和技术要领和各位C友分享下么?你还是给我们开个讲座吧!先谢咯!

抱歉Manual里可能有点误导了,因为偷懒就从红楼梦那边改过来了。你说的那个功能在这个法律库上并没有实现,因为语料的对齐的做法是不一样的。讲座就免了,这个坛子里卧龙藏虎,我这里一时兴起,拿起大刀耍几下就行了,再讲怎么才能耍好就有点过分了。
 
回复: 强化法制建设,对齐法律文本供分享

谢谢laohong的回复。
我正在看Tomcat和MySQL,好难喔!用MySQL自带的命令插入数据很慢,无法把庞大的语料库文本都插入。我用openoffice等软件导入了几十行数据,但好像MySQL只能显示两行。
不知大家有什么好办法把庞大的语料库文本导入MySQL数据库中?导入前需要对语料库文本做什么处理吗?谢谢!
 
回复: 强化法制建设,对齐法律文本供分享

CompCtrl
 

附件

  • 中华人民共和国计算机信息网络国际联网管理暂行规定实施办法.doc
    134 KB · 浏览: 14
回复: 强化法制建设,对齐法律文本供分享

独资企业法
 

附件

  • 中华人民共和国个人独资企业法.doc
    168.5 KB · 浏览: 15
回复: 强化法制建设,对齐法律文本供分享

野生动物保护法
 

附件

  • 中华人民共和国野生动物保护法.doc
    177.5 KB · 浏览: 12
回复: 强化法制建设,对齐法律文本供分享

http://score.crpp.nie.edu.sg/law/index.htm测试版本中,检索take出来如下的索引行:

(五)近三年承建的主要工程及其质量情况; Law0007_C0124
(5) A list of the major construction projects undertaken over the past three years and the status of the quality; Law0007_E0124
2 (四)标底价格应考虑人工、材料、机械台班等价格变动因素,还应包括施工不可预见费、包干费和措施费等。 Law0007_C0107
(4) The pre-tender price shall take into consideration factors affecting price fluctuation, including labor, materials, number and shift of machinery, etc., as well as the contingency sum, lump sum fee and measure-taking fee. Law0007_E0107
3 如果发证机构发现上述材料有错误的,可以责令出口经营者作出修改。 Law0006_C0019
A license issuing agency may order the export dealer to make amendments if any mistake is found in the said materials. Law0006_E0019
4 第四条产品的生产、储运、经销企业必须按照本条例的规定,承担产品质量责任。 Law0008_C0009
Article 4 Those enterprises engaging in the production, storing, transporting and marketing of the product must, in accordance with the stipulations of the present Regulations, undertake the quality responsibility for the products.

将take前后加空格后再检索,结果好象没有变化。
 
回复: 强化法制建设,对齐法律文本供分享

另:上面的检索对象是take.

Thanks for your sharp eyes! There is a bug in the query, and we've fixed it. Please try it again.
One note: you may leave a space before or after (or both) the query item (English). This doesn't apply to Chinese characters.
 
Last edited:
回复: 强化法制建设,对齐法律文本供分享

当检索串是文本中某一字符串的字串时会出现这种情况。当用like之类的数据库检索时,可能会造成数据不准确。当用户检索"go",good,goods都会出来。我现在的处理是在着色时确定某条记录是否符合要求,这样count数据库中满足条件的记录和实际着色结果的记录数量可能不一,不知laohong有什么好方法?好像你用的是jsp,也用jdbc,还是其他检索包?
Thanks for your sharp eyes! There is a bug in the query, and we've fixed it. Please try it again.
One note: you may leave a space before or after (or both) the query item (English). This doesn't apply to Chinese characters.
 
回复: 强化法制建设,对齐法律文本供分享

可以解释一下什么是语境词吗?为何要做成可以设置语境词的?

很久前的帖子。。。呵呵我没注意,不好意思啊。

是在线bnc(mark davies)的检索方式,它提供的search string里下面就有一个context--span(n,n) 可以输入这个语境词和相关的(或词类)的跨距。

所以我当时想是否可以设计一个同样的检索方式。
 
回复: 强化法制建设,对齐法律文本供分享

xusun575提交的word文件里的表格模式,有什么办法能导入laohong的电子表格吗?我直接paste了一下, 是进去了。不过看着格式很“宽”。不象laohong提供的样子那样好看。格式似乎是保留了word中的模式。
 
回复: 强化法制建设,对齐法律文本供分享

为什么大家不做成csv格式的?
tab键隔开不是很好吗?
 
回复: 强化法制建设,对齐法律文本供分享

我的问题,自己解决了。 还是感谢大家

楼上说的csv可否具体指点下(说下步骤), 我知道如果用sql 是需要csv的。我目前正在学习中。
 
Back
顶部