《在线语料库:功能模式与前端后端》

李亮1975重庆

语料库快乐军政委
#1
《在线语料库:功能模式与前端后端》

(一)功能模式(5种)

[1] 在线检索自带后台的语料库
[2] 在线检索其他在线的语料库
[3] 在线检索当前用户的本地库
[4] 在线检索其他网站网页语料
[5] 在线检索当前用户上传语料
[6] 对上述任意两个或两个以上模式的组合与有侧重的混合,也构成新的模式。

(二)后端编程语言(最重要3种:php/asp/jsp)
一般网站的三大建设技术,最简单来说就是“动态页面技术+后台数据库技术”,动态页面技术进一步来说无外乎就是ASPPHPJSP这三大主流技术,后台数据库技术也无外乎就是AccessSQL ServerMySQL这三大主流技术。但是,一个有相当规模的网站的高效率且高质量的建设的流行做法无外乎就是这三大主流做法:通用型建站工具(例如DreamWeaver),专业型网站后台模板(例如,针对博客基于PHPWordPress),通用型网站后台模板(例如,基于PHP却面向电子商务与博客与论坛与在线电影院等等广泛领域的Drupal)。
更多详细阅读……
http://www.chinaz.com/program/2008/0422/27479.shtml

ASP是微软公司的专利技术,学起来跟PHP差不多的难度,PHP的语法对于有经验的程序员而言比ASP更简单,但是PHP是纯粹的服务器语言,要进行入门训练就需要(模拟)架设服务器和配套数据库,而ASP就是VBScript,也就是BASIC语言,显然是浅显易懂的语法套路。学ASP,可以从学VBScript学起,我已经在本论坛发布了一些VBS的代码了,可以看看

PHP是免费的技术,使用PHP来建设的网站比ASP和JSP都要广泛得多,新闻报道都普遍说有77%呢(点击左侧,阅读)。JSP是Java编程语言的服务器脚本版本,所以,比Java稍微简单些,但比ASP和PHP都要难多了,所以用JSP建设的网站数量是最少的,这也是新闻报道,不是我判断的。
http://www.php100.com/html/itnews/it/2012/0612/10533.html

ASP+PHP+JSP之外,还有很多的甚至很火的动态网页生成技术,像Python呀,Perl呀,Ruby呀,Node.js呀的,太多了,反正都起到了CGI编程的效果,甚至C语言也可以做网站的(这就是古老的CGI技术啦)。
http://www.jdon.com/idea/cgi.htm (CGI编程的简明教程)

数据库技术最近十年左右也有很多的后起之秀甚至很火,例如SQLiteMonoDBRedisSphinxZorbaBaseXleveldbDrizzle之类的。


(三)前端编程语言(最重要3种:HTML/CSS/Javascript)
Web前端工程师(点此阅读百度百科词条)所做的工作就是语料检索网站的页面效果,主要是3种技术:HTMLCSSJavaScript。HTML是页面制造的母体技术,在母体技术之内,为了高效排版和特效排版就附带上CSS,然后为了出现各种动态效果和鼠标特效就出现了JavaScript。HTML已经从4.0发展到了5.0最新版(还没有普及),CSS已经从1.0发展到了3.0,而JavaScript也发展到了1.8.6版了。在Dreamweaver之类的网页设计工具中,能可视化地甚至插入各种现成的模版型的HTML与CSS夹杂着JavaScript的网页代码效果。JavaScript的综合性简化性框架包“jQuery”特别值得掌握,它大幅度减少了JavaScript的编程繁琐,尤其是当你不得不手工写出一些个性化的JS代码的时候。

基于jQuery的各种“封装包(二次开发包)”也如雨后春笋冒出来:针对统计图表生成的jqPlot(http://www.jqplot.com/index.php)jStat(http://www.jstat.org/)、针对自由绘制“点线面圈以及其他形状”的jsdraw2dx(http://jsdraw2dx.jsfiction.com/)以及Raphael(http://raphaeljs.com/),针对放射状多个动态节点视觉效果生成的arborjs(http://arborjs.org/)。什么叫“放射状多个动态节点视觉效果”?这是我的措辞,你看看http://arborjs.org的首页就明白了,而这技术用来呈现“近义词、反义词、上下义词、派生词之间的衍生关系”是多么生动啊!而这些画图效果都是同时依赖2种技术(SVGVML)而已。

SVG是国际开放标准,VML是微软专利技术,但是SVG是世界潮流,在IE(9.0之前)和以IE(9.0之前)为内核的网页浏览器上只支持VML绘图技术,而微软IE从9.0开始也支持SVG技术了,而9.0版之前的IE要呈现SVG绘图效果只能安装一个来自Adobe公司的插件才能出现视觉效果。IE浏览器之外的Chrome、Firefox、Opera、Safari浏览器都不支持VML而只支持SVG绘图。若要实现无缝兼容与跨浏览器平稳过渡效果就必须采用jQuery的绘图框架们(jsdraw2dx等等,它们都做了自动的跨浏览器兼容的后台预处理)。

当然了,用Flash也可以画图,它用的ActionScript语言,这个语言跟JavaScript是“同父异母”的,很相似。

“前端技术”最近5年才特别火的,最大的动力来自AJAX技术(也就是JavaScript+XML),全称是
Asynchronous JavaScript and XML。前端技术的关注焦点是用户体验与视觉效果与减轻后台服务器负担而让用户的网页浏览器就负责一些较简单的计算任务。AJAX技术就是静态标注的XML与动态提取呈现的JavaScript的耦合,而语料库标注主流潮流正是XML著名的http://corpus.byu.edu/,这个网站就是利用JavaScript的Event对象的返回值被Mark Davies"精心地"设置为return false而实现了”无法复制页面文字“的效果的,据此我们把网页浏览器的JavaScript禁用即可突破(点此查看我在本站的详细帖子)!此外,香港教育学院的在线语料检索网站,也借助前端技术实现了让普通用户不要一次检索太多语料的效果,也可以”懂之,破之(点此查看我在本站的详细帖子)“。

前端技术的重要性再举第三例(JustTheWord)这个在线语料搭配检索网站,你查totally之类的随便一个词,它就呈现出绿色的细长条或细短条来表示”图形化的统计值之高低“,其实它并非有那么多的不同长度的绿条图片的,它只不过是准备了一个很小的方方的小绿块,用JavaScript自动根据后台统计值而把小绿块的宽度(width属性值)设置为统计值而实现的”长短不一“的,该站的关键源代码如下……
<img class="sigbar" src="img/greenblob.jpg" width="36">


(四)建设之路(或指点江山、或激扬文字、或事必躬亲
本地或在线语料库及其检索系统的建设,涉及到综合知识与技能,做库做“配套设施”都可以粗糙都可以精细,就看个人口味了。有钱可以请人做,有时间学了原理更可以指点聘请的计算机技术员,有权力的话也可以强迫或诱惑自己的学生或晚辈或同事们来做。自己亲自编程上阵,一则要扫清计算机基本技能的盲点(《操作系统原理》、《计算机网络原理》、《服务器架设实务》、《XML编程实战》),二则要从简单的HTML代码编写发展到JavaScript,发展到PHP或JSP或ASP。

如果掌握了基本网络原理和Windows的基本网络指令(例如,ping,netstat,net,tracert),那么可以下载破解版的或者购买正版VMWare来装上,或者下载免费的VirtualBox来装上,这种软件叫做“虚拟电脑的软硬件模拟仿真环境”,可以你的电脑不用重装操作系统就能像播放和观赏一部电影一样的轻松地运行Linux或组建多台虚拟电脑组成的网络,或安装ftp服务器或http服务器而在多台虚拟电脑之间相互访问,来体验新奇的建站与网络实务。

如果确有精力进行Windows操作系统之外的猎奇与体验,也可以下载各种所谓的"cd-bootable"的Linux版本(例如,Puppy LinuxKnoppixSlax),从而可以体验到”跨平台编程“的真面目。为什么有必要学习Windows之外的操作系统呢?当然,必要性不是太高,也不是太低。我们可以借助”在线的网站嗅探工具“来探测一下当代著名的在线语料库网站的基本后台是什么?

你访问http://www.sniffweb.com ,然后输入你想要”嗅探“的网站的网址,就会发现:
http://www.sketchengine.co.uk/Apache 2.2.22版 搭配的 Fedora操作系统(一种免费的Linux操作系统变体版本),Apache是HTTP服务器。
http://www.natcorp.ox.ac.uk/ BNC在线免费检索 Apache 2.2.9版 搭配的 Debian(一种免费的Linux变体版本)
http://www.anc.org 美国国家语料库在线 是
Apache2.2.14版 搭配的Ubuntu(一种Linux操作系统变体版本)
 

李亮1975重庆

语料库快乐军政委
#2
(五)模式现状

)模式现状
  • 在线检索自带后台的语料库(server-corpora concordancing)
  • 在线检索其他在线的语料库(corpora-crawling concordancing)
  • 在线检索当前用户的本地库(local-files concordancing)
  • 在线检索其他网站网页语料(web-pages concordancing)
  • 在线检索当前用户上传语料(uploaded-file concordancing)

第1种类型就是当前最流行的,我们能想到的在线检索语料库几乎都是这种;

第2种类型就是Web as Corpus的一种变体,当前没有这种类型的网站,也许因为涉及到其他在线语料库的版权问题,也许因为这样做会显得没有属于自己的原创语料;

第3种类型涉及到网页浏览器对本地的文件的读写,貌似这种网站也没有。而从技术上说,可以用VBS,Flash和Java Applet这三种技术之中的一种或多种来实现。如果用VBS的话,访问者就必须用IE浏览器,因为vbs只在IE中运行;而Flash或Java Applet,随便哪种浏览器都行,只是
访问者要运行Flash就必须安装Flash插件

第4种类型是正宗的Web as Corpus的效果,http://www.webcorp.org.uk/wcadvanced.html 英国伯明翰城市大学的网站就是这类;

第5种类型很少,不过Word Sketch Engine给注册用户提供了这种功能。

随着时间的推移,我相信:不仅web as corpus,而且web browser as concordancer,而且“云标注(服务器端的自动语言信息标注)”,也就是"语料库不用建,检索工具不用装,标注不用做,一切都在云中,人人都是 腾云驾雾的孙悟空!" 哈哈哈……
 
顶部