<html xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="D:\my_DIR\P_Colen_Corpus_Project\tagged\XSD\P_CORPUS.xsd">
<head>
<meta name="Check" content="0405291200"/>
<meta name="author" content="(NULL)"/>
<meta name="year" content="(NULL)"/>
<meta name="lang" content="(NULL)"/>
<meta name="textsource" content="(NULL)"/>
<meta name="genre" content="(NULL)"/>
<meta name="booktitle" content="21st Century College English"/>
<meta name="texts" content="21FA101A"/>
<meta http-equiv="CONTENT-TYPE" content="TEXT/HTML; charset=WINDOWS-1252"/>
<link href="C/C.CSS" rel="STYLESHEET" type="TEXT/CSS"/>
1.以上片段是我在论坛上下的大学英语corpus的一个部分。我发现它在开头没有这个部分:<?xml version="1.0" encoding="UTF-8" ?> 很多其他的库都有,这个。
这个部分是可有可无吗??
2.再有utf-8是支持汉语的。为什么很多英语库的格式会是utf-8 《中国学习者英语口语语料库建设与研究》中提到的也是<?xml version="1.0" encoding="UTF-8" ?> ,为什么?
感谢各位回答
<head>
<meta name="Check" content="0405291200"/>
<meta name="author" content="(NULL)"/>
<meta name="year" content="(NULL)"/>
<meta name="lang" content="(NULL)"/>
<meta name="textsource" content="(NULL)"/>
<meta name="genre" content="(NULL)"/>
<meta name="booktitle" content="21st Century College English"/>
<meta name="texts" content="21FA101A"/>
<meta http-equiv="CONTENT-TYPE" content="TEXT/HTML; charset=WINDOWS-1252"/>
<link href="C/C.CSS" rel="STYLESHEET" type="TEXT/CSS"/>
1.以上片段是我在论坛上下的大学英语corpus的一个部分。我发现它在开头没有这个部分:<?xml version="1.0" encoding="UTF-8" ?> 很多其他的库都有,这个。
这个部分是可有可无吗??
2.再有utf-8是支持汉语的。为什么很多英语库的格式会是utf-8 《中国学习者英语口语语料库建设与研究》中提到的也是<?xml version="1.0" encoding="UTF-8" ?> ,为什么?
感谢各位回答