关于标记的格式问题

<html xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="D:\my_DIR\P_Colen_Corpus_Project\tagged\XSD\P_CORPUS.xsd">
<head>
<meta name="Check" content="0405291200"/>
<meta name="author" content="(NULL)"/>
<meta name="year" content="(NULL)"/>
<meta name="lang" content="(NULL)"/>
<meta name="textsource" content="(NULL)"/>
<meta name="genre" content="(NULL)"/>
<meta name="booktitle" content="21st Century College English"/>
<meta name="texts" content="21FA101A"/>
<meta http-equiv="CONTENT-TYPE" content="TEXT/HTML; charset=WINDOWS-1252"/>
<link href="C/C.CSS" rel="STYLESHEET" type="TEXT/CSS"/>

1.以上片段是我在论坛上下的大学英语corpus的一个部分。我发现它在开头没有这个部分:<?xml version="1.0" encoding="UTF-8" ?> 很多其他的库都有,这个。
这个部分是可有可无吗??

2.再有utf-8是支持汉语的。为什么很多英语库的格式会是utf-8 《中国学习者英语口语语料库建设与研究》中提到的也是<?xml version="1.0" encoding="UTF-8" ?> ,为什么?

感谢各位回答:)
 
回复: 关于标记的格式问题

All XML documents can optionally begin with an XML declaration. The XML declaration provides at a minimum the number of the version of XML in use:

<?xml version="1.0"?>

Currently, 1.0 is the only approved version of XML, but others may appear in the future. The XML declaration can also specify the character encoding used in the document:

<?xml version="1.0" encoding="UTF-8"?>

All XML parsers are required to support the Unicode “UTF-8” and “UTF-16” encodings; many XML parser support other encodings, such as “ISO-8859-1”, as well. UTF-8 is the default encoding for XML.


For Question 2, please read:

UTF-8 and Unicode FAQ for Unix/Linux
http://www.cl.cam.ac.uk/~mgk25/unicode.html

UTF-8, UTF-16, UTF-32 & BOM
http://unicode.org/faq/utf_bom.html
 
回复: 关于标记的格式问题

感谢laohong的回复。我上面贴出来的这个库的xml文件头,是用什么软件标记的?以上标记我可以手工标记,因为我知道有几个部分是,尤其是“版本号,编码格式,应用的规则,和如何显示”是可以套用的,但我想是不是他们用了某个软件,进行的标记。还请laohong 再指点一下。
 
回复: 关于标记的格式问题

感谢laohong的回复。我上面贴出来的这个库的xml文件头,是用什么软件标记的?以上标记我可以手工标记,因为我知道有几个部分是,尤其是“版本号,编码格式,应用的规则,和如何显示”是可以套用的,但我想是不是他们用了某个软件,进行的标记。还请laohong 再指点一下。

我自己都是用程序做的,相信他们也不会完全手工操作。但是我不了解具体他们是怎么做的,觉得你跟他们联系一下比较好。
 
回复: 关于标记的格式问题

关于mmax2 有几个问题,问您下:在创建project wizard的时候
1。use. abbrev 在选中后,操作提示不存在这个文件。是否有问题?
2。看了说明,应该说有点糊涂,这2个选项就是use.abbrev and heuristic 是2选1?还是同时可选?我觉得是同时可选,对吗?
3。在表示已经创建成功,但载入的时候提示,错误。图片如下:
 

附件

  • 44.jpg
    44.jpg
    7.6 KB · 浏览: 88
Last edited:
回复: 关于标记的格式问题

本来手头有很忙的事,但是看你很诚心地想了解MMAX2的用法,这里就花点时间科普一哈吧。
1、首先咱们用下面这段话为例文:

苹果iPhone 3G无疑是当前最炙手可热的手机,人们每天都会在媒体上见到有关该机的各种相关报道。而随着这款超人气手机将于本周五在全球22个国家和地区同步上市,该机的销售价格和订购火爆的消息也再次成为媒体集中轰炸的对象。
除了传出O2网上预订已经告罄的消息之外,更有香港媒体报道iPhone 3G在香港的预订人数已经超6万之众,呈现了前所未有的抢购热潮。


2、要使用Project Wizard,得先弄明白这个是来干什么的。它主要是来帮你把原始文件变成MMAX2可以处理的XML文件。由于汉字词语间没有空格,得先分词,英语就可省略这一步。上述例文就应该变成:

苹果 iPhone 3G 无疑 是 当前 最 炙手可热 的 手机 , 人们 每天 都 会 在 媒体 上 见到 有关 该 机 的 各种 相关 报道 。 而 随着 这 款 超人 气 手机 将 于 本 周五 在 全球 22 个 国家 和 地区 同步 上市 , 该 机 的 销售 价格 和 订购 火爆 的 消息 也 再次 成为 媒体 集中 轰炸 的 对象 。
除了 传出 O2 网上 预订 已经 告罄 的 消息 之外 , 更 有 香港 媒体 报道 iPhone 3G 在 香港 的 预订 人数 已经 超 6 万 之 众 , 呈现 了 前所未有 的 抢 购 热潮 。


3、把例文存成UTF-8编码的纯文本文件,取名为apple.txt,存到C:\Temp\Test文件夹里,然后打开Project Wizard,假如我们想标注该文本中的cohesive devices,设置Wizard如下图一。

4、然后敲Creat Project,最后敲弹出来的窗口里的Yes,敲Don't Validate,在打开一个窗口里得到图二。

5、这样Wizard的工作基本完成,下面就是如何生成annotation scheme和实际的标注了。时间的关系,以后再说吧。
 

附件

  • wizard1.jpg
    wizard1.jpg
    58.9 KB · 浏览: 11
  • wizard2.jpg
    wizard2.jpg
    81 KB · 浏览: 9
回复: 关于标记的格式问题

太感谢laohong了,感谢您在白忙之中指点学生。这个软件也是laohong 无私推荐的,如果将来我掌握了这个软件的操作,学会了标注。可以说,全是laohong的功劳。您才是我真正的老师,教了我很多东西。

有可能会有机会见面的,到时候我一定当面致谢!呵呵(我已经按您的步骤顺利完成了以上操作)
 
回复: 关于标记的格式问题

tokenize部分的疑问:对于英语文本,我可否这样操作?!

using global replacement list 这个功能我在quickstart里没找到。不太清楚是做什么用的。

所以我这样check是否可以,如图。还有的问题就是和我上个帖子中提到的一样。(use.abbrev and heuristic 是2选1?还是同时可选?)
 

附件

  • 33.jpg
    33.jpg
    15.6 KB · 浏览: 2
其实很简单,勾选后敲一下“Tokenize”按钮就可以看到选和不选有什么区别了。
 
Back
顶部