求指点:如何把收集好的文本送入语料库中?

我已经收集好了文本,怎么送入语料库中呢?语料库是用什么生成的?是用MS Access生成的数据库吗?怎么生成个语料库,然后把预料装进去?求指点。查了很多书,都搞不定。
 
语料像空气,无处不在;像液体,稍纵即逝;像物体,可揉可扳

(一)语料像空气,无处不在。互联网是大气层,视觉和听觉形式的语料大量存在;互联网是不断膨胀的大宇宙,吸纳着来自传统媒介的电子化信息,也生成着“始于cyberspace”的信息。

(二)语料像液体,有向流动。同步吸收与事后品尝都呈现出线性的效果,尤其是互联网语料的“超级链接”特性更是让我们轻点鼠标就滑动到另一个角落的语料丛中。它可以是无色无味的纯文本文件(.txt),也可以是声色俱全的多媒体文件(流)。

(三)语料像物体,可拆可合。无论声、视、文,皆可存、查、改与删。观察者可以用工具或肉眼,从不同角度去端详,或许看到黑压压的一大片,或许看到齐刷刷的一箩筐。

(四)语料库有门,亦或有墙。查询界面或专用软件乃“门”也;一系列语料文件,肩并肩在一个文件夹中,可谓“有墙”。自己做个简陋库,可以无门无墙;别人做的高级库,往往有精美的门与复杂的墙。

(五)语料是人群,或裸或衣。原始语料就像亚当夏娃,甚至不用无花果的叶片遮羞;为了粗略区分,往往每个文件或每个语篇可以有“一顶帽子”,涉及生辰八字与籍贯血缘。

(六)专用管理器,可用可弃。数据库管理软件,最小巧的SQLite,最百姓的MS Access,最企业的MS SQL Server,最顶级的Oracle,最自由的MySQL,最皇家的DB2,最电信的Sybase,最学术的PostgreSQL,它们都是大规模存储语料而形成“高速库”的上乘利器。它们借助“索引index”和“分表存储”等技术,摆脱了纯粹的文件读写型的数据库管理的早期范式。

(七)XML技术,可深可浅。从SGML体系私奔出来的XML标注形式,是“有头有尾,也可携带多重属性,也可实现相互嵌套”,与“繁琐难懂的SGML”相比,堪称完美、开放与民主。

(八)世上本无库,量大为库。宽带互联网普及之前,百万词级别的库是主流,一旦标注也会导致存储体积的数倍猛增。当今大库,都“亿词级别”也。普通网民,借助网页爬虫的闪电搜集,也能“大库速成”。简单而高频的语言现象在小库中也足见其貌,低频而复杂的语言现象在亿词级别的库中也难见全貌。

(九)语料像海洋,标注如GPS。WordSmith是巡洋舰,AntConc是冲锋舟,各种文本搜索工具(例如:PowerGREP)也是海面交通工具,正则表达式在XML的深林中,远不如Xpath的轻巧易学,而更强大的XQuery依然含苞未放。


 
回复: 语料像空气,无处不在;像液体,稍纵即逝;像物体,可揉可扳

(一)语料像空气,无处不在。互联网是大气层,视觉和听觉形式的语料大量存在;互联网是不断膨胀的大宇宙,吸纳着来自传统媒介的电子化信息,也生成着“始于cyberspace”的信息。

(二)语料像液体,有向流动。同步吸收与事后品尝都呈现出线性的效果,尤其是互联网语料的“超级链接”特性更是让我们轻点鼠标就滑动到另一个角落的语料丛中。它可以是无色无味的纯文本文件(.txt),也可以是声色俱全的多媒体文件(流)。

(三)语料像物体,可拆可合。无论声、视、文,皆可存、查、改与删。观察者可以用工具或肉眼,从不同角度去端详,或许看到黑压压的一大片,或许看到齐刷刷的一箩筐。

(四)语料库有门,亦或有墙。查询界面或专用软件乃“门”也;一系列语料文件,肩并肩在一个文件夹中,可谓“有墙”。自己做个简陋库,可以无门无墙;别人做的高级库,往往有精美的门与复杂的墙。

(五)语料是人群,或裸或衣。原始语料就像亚当夏娃,甚至不用无花果的叶片遮羞;为了粗略区分,往往每个文件或每个语篇可以有“一顶帽子”,涉及生辰八字与籍贯血缘。

(六)专用管理器,可用可弃。数据库管理软件,最小巧的SQLite,最百姓的MS Access,最企业的MS SQL Server,最顶级的Oracle,最自由的MySQL,最皇家的DB2,最电信的Sybase,最学术的PostgreSQL,它们都是大规模存储语料而形成“高速库”的上乘利器。它们借助“索引index”和“分表存储”等技术,摆脱了纯粹的文件读写型的数据库管理的早期范式。

(七)XML技术,可深可浅。从SGML体系私奔出来的XML标注形式,是“有头有尾,也可携带多重属性,也可实现相互嵌套”,与“繁琐难懂的SGML”相比,堪称完美、开放与民主。

(八)世上本无库,量大为库。宽带互联网普及之前,百万词级别的库是主流,一旦标注也会导致存储体积的数倍猛增。当今大库,都“亿词级别”也。普通网民,借助网页爬虫的闪电搜集,也能“大库速成”。简单而高频的语言现象在小库中也足见其貌,低频而复杂的语言现象在亿词级别的库中也难见全貌。

(九)语料像海洋,标注如GPS。WordSmith是巡洋舰,AntConc是冲锋舟,各种文本搜索工具(例如:PowerGREP)也是海面交通工具,正则表达式在XML的深林中,远不如Xpath的轻巧易学,而更强大的XQuery依然含苞未放。
呵呵,形象!精彩!
 
Back
顶部