《语料标注的速成教程:自己做个半自动标注器.pdf》

李亮1975重庆

语料库快乐军政委
语料标注的速成教程:自己做个半自动标注器.pdf

本人制作的图文并茂演示,展示了用VBA编程的两三行代码就实现了语料标注的半自动化,同时在Word文件中新建了自定义的宏菜单和一系列宏按钮,适合进行各种语言学,政治学,社会学,符号学的标注与分类与转写,以便后续的计算统计提取


采用FastStone进行抓屏,每个图片只配最多2行文字,每个图片采用蓝色粗体边框而凸显抓屏效果,少量融入“特写图片”,少量诙谐,PDF格式却类似PPT的简洁,新浪爱问的在线阅读很不错!

[FONT=黑体]在线全文阅读,免积分整体下载![/FONT]

http://ishare.iask.sina.com.cn/f/33531507.html

【备注】这种标注方式,比“自动图文集”要强大一些,因为自动图文集只能“前插入”或“后插入”,不能“前后同时插入”,更不能有点智能地判断插入,而本帖学习者一旦稍学一点VBA函数就能“有点智能地插入”了,例如:插入之前可以判断所要标注的字符串对象的字符串数量,而自动判断为“长词”或“短词”,而对应函数是len();再例如,插入之前可以判断所要标注的字符串对象的词尾,例如“ed”而自动判断为动词的过去式,虽然ed结尾的少量单词并非过去式,但毕竟开辟了一条字符串判断的道路,而if right(selection.text,2)=“ed” then就是这点新增功能的所需。
 
回复: 《语料标注的速成教程:自己做个半自动标注器.pdf》

语料标注的速成教程:自己做个半自动标注器.pdf

本人制作的图文并茂演示,展示了用VBA编程的两三行代码就实现了语料标注的半自动化,同时在Word文件中新建了自定义的宏菜单和一系列宏按钮,适合进行各种语言学,政治学,社会学,符号学的标注与分类与转写,以便后续的计算统计提取


采用FastStone进行抓屏,每个图片只配最多2行文字,每个图片采用蓝色粗体边框而凸显抓屏效果,少量融入“特写图片”,少量诙谐,PDF格式却类似PPT的简洁,新浪爱问的在线阅读很不错!

[FONT=黑体]在线全文阅读,免积分整体下载![/FONT]

http://ishare.iask.sina.com.cn/f/33531507.html

【备注】这种标注方式,比“自动图文集”要强大一些,因为自动图文集只能“前插入”或“后插入”,不能“前后同时插入”,更不能有点智能地判断插入,而本帖学习者一旦稍学一点VBA函数就能“有点智能地插入”了,例如:插入之前可以判断所要标注的字符串对象的字符串数量,而自动判断为“长词”或“短词”,而对应函数是len();再例如,插入之前可以判断所要标注的字符串对象的词尾,例如“ed”而自动判断为动词的过去式,虽然ed结尾的少量单词并非过去式,但毕竟开辟了一条字符串判断的道路,而if right(selection.text,2)=“ed” then就是这点新增功能的所需。


精彩!谢谢李博的奉献,将word的功能用到极致。
 
《定性研究分析工具从入门到精通的15个脚印》

《定性研究分析工具从入门到精通的15个脚印》
(1)下载某工具;(2)阅读其帮助;(3)熟悉其菜单;(4)模仿其示例;(5)规划标签集;(6)新建一工程;(7) 添加多文件;(8)新建标签集;(9)添加标签值;(10)阅读且标注;(11)观察与修正;(12)搜索与统计;(13)导出与整合;(14)思考与汇报;(15)发表与庆祝。

在本帖所提供的做法支撑下,参考《
料检索的速成教程:已经词性赋码语料的检索.pdf》所提供的方法,大致上已经能适应词性标注,语义标注,语用标注,句法标注,语篇标注的需求了,虽然操作者最好要多学点"XML概念与标注规范",应该去进一步了解”什么是完整的一个XML文件,什么是XML元素,什么是XML属性,什么是XML验证,什么是XML DTD,什么是XML Schema,什么是XML XPath,什么是XML node,什么是XSLT,什么是XML 文本节点,什么是XML 命名空间“,诸如此类,量力而行……
http://www.corpus4u.org/forum/showthread.php?t=8453

针对“完整规范的XML标注出来的XML文件“,我们可以采用免费的”XML Notepad 2007“进行检索与编辑,也可以采用商业版(共享版,能找到破解版)的”Altova XML Spy 2011“进行检索与编辑。

”Altova XML Spy 2011“的试用版下载
http://www.onlinedown.net/soft/94169.htm

微软公司推出的免费的”XML Notepad 2007“
http://www.onlinedown.net/soft/57624.htm

 
回复: 《语料标注的速成教程:自己做个半自动标注器.pdf》

内容不错。只是很久前在Word里用宏(VBA)进行手工标注,在论坛里就讨论过了。
能否写一个树状图的标注软件,编写树状的标注层级,可以直接在txt模式下标注。。。
 
回复: 《语料标注的速成教程:自己做个半自动标注器.pdf》

内容不错。只是很久前在Word里用宏(VBA)进行手工标注,在论坛里就讨论过了。
能否写一个树状图的标注软件,编写树状的标注层级,可以直接在txt模式下标注。。。
Word 2003和2007都可以从菜单“文件”的“打开”来浏览而打开本地电脑上的txt文件的,应该也算是你说的“txt模式”了。
每个人的树形图的标注需求很可能差异较大,有些人是乔姆斯基的不同阶段的句法标签,有些人是汉语界的标签,有些人是英国美国的某些著名句法标注器的标签体系,所以,在office中能自己按照自己的个性化需求来制作一系列的标签就能最大程度满足个人需求。树状标注的层级数值本身应该不用标注的,往往可以在IE浏览器或其他“树形图绘制软件”中呈现出来。

如果你手中的txt文件特别大或比较大,导致点一下“保存”都要后台处理好一阵,那么,你可以用UltraEdit或Hxd或EmEditor
http://www.corpus4u.org/forum/showpost.php?p=44856&postcount=15

而UltraEdit和EmEditor也有自己的跟Office类似的宏编写与宏记录的能力,也能制作一系列的语料标签。

昨天我用JavaScript进行了句法树形图的自动生成的代码编写,发现“一个画句法树的软件”貌似涉及到挺多的工程问题呢,例如:要提供加载或保存或编辑用户标签列表的功能,要提供默认的“系统标签”的加载或恢复或编辑的功能,要提供不同风格的树形的功能(偏左树型,偏右树型,“根“在上型,”根“在下型),要提供不同的连线功能(单向箭头,双向箭头,无箭头的直线,不同粗细程度的线型),要提供用户鼠标移动已经生成的节点的功能,要提供用户缩短或拉长每个”树枝“的功能,每个叶片是否采用”框“或”框底色“,每个节点的文字能否单独或统一进行预先设置或临时设定,能否在同一界面上生成多个树形图且用户能轻松改变这些树所形成的林的格局,能否保存一棵树为一个bmp或jpg或png或gif,能否提供对树形图的手工的屏幕截图能力(因为自动截图的背景或截图范围有可能偏大或偏小),能否改变箭头风格甚至颜色……

啊,这里是我昨天尝试的”基于jQuery的一个javascript的画图插件“,用到了CSS和另一个jQuery的插件的技术。
http://www.headjump.de/article/arrows-and-boxes

互联网还有众多的jQuery的插件都是擅长画图绘表出报告的,其基本功能都是”画直线,插文字,出箭头,来方框“,例如
http://www.jqplot.com/index.php

仅仅是”句法绘图的软件“似乎也应该从XML文件或JSON文件中读取大批量的数据(”句法林“)而让用户可以选择其中一个完整的句法树能被自动生成。哈哈,设计一个功能体贴灵活的软件,还真不容易呢(包括用户对自动生成的树形或林形的尚未修改完毕的状态的保存与重新恢复的功能,越想越觉得是个大工程)!


 
“百度文库”可以在线全文阅读!

[FONT=黑体]“百度文库”可以在线全文阅读![/FONT]

http://wenku.baidu.com/view/e8782ad576a20029bc642d05.html
《语器》

http://wenku.baidu.com/view/240186ff941ea76e58fa04fa.html
《语料检索的速成教程:已经词性赋码语料的检索》


[FONT=黑体]“豆丁网”可以在线全文阅读![/FONT]​

《语器》
http://www.docin.com/p-463194312.html
http://www.docin.com/p-466643055.html

《语料检索的速成教程:DOS神威之FindStr》

http://www.docin.com/p-466643056.html

《语料检索的速成教程:已经词性赋码语料的检索》
http://www.docin.com/p-466643054.html
http://www.docin.com/p-463194312.html
 
Last edited:
回复: 《语料标注的速成教程:自己做个半自动标注器.pdf》

依照李博文章的指导,采用广外的标注系统,做了个学生作文错误标注器。欢迎大家试用和指正。
 

附件

  • 学生作文错误标注工具.dot.zip
    22.2 KB · 浏览: 18
回复: 《语料标注的速成教程:自己做个半自动标注器.pdf》

谢谢Joe分享的错误标注工具。

类似的讨论,Corpu4U上曾经也有过,发过来大家可以一起看一下。
在Word里,可以通过宏和自动图文集两种方式来实现标记功能。
下面是一个7年前的帖子
http://www.corpus4u.org/forum/showthread.php?t=678

其中李文中老师所介绍的错误标注工具是在1999年前后做上,真是前辈啊。
 
回复: 《语料标注的速成教程:自己做个半自动标注器.pdf》

谢谢许博!受教了。
 
Back
顶部