[原创]wordsmith处理中文:实例与问题

xudekuan

Moderator
试验1。纯文本、unicode格式,用空格表示词的分界,原文件所用全部数据如下:
这 是 一 个 例子 。
哪 是 一 个 例子 。
还 是 一 个 例子 。
又 是 一 个 例子 。
不 是 一 个 例子 。
wordlist结果:
WordSmith Tools 4.0 -- 23-7-2006

Word Freq. % Texts % Lemmas Set
1 个 5 20.00 1 100.00
2 例子 5 20.00 1 100.00
3 是 5 20.00 1 100.00
4 一 5 20.00 1 100.00
5 不 1 4.00 1 100.00
6 还 1 4.00 1 100.00
7 哪 1 4.00 1 100.00
8 又 1 4.00 1 100.00
9 这 1 4.00 1 100.00

“例子”concondance结果:
2006072313022219.jpg


cluster:结果:(设置为:words in cluster: 2 to 2; horizons 5L 5R), mimimun frequency: 1
WordSmith Tools 4.0 -- 23-7-2006

Cluster Freq.
1 是 一 7
2 一 个 7
3 个 例子 4
4 又 是 2
5 例子 还 2
6 还 是 2
7 不 是 2
8 例子 不 2
9 例子 又 2
10 哪 是 1
11 例子 哪 1
12 例子 子 1


其他问题不大,cluster结果有问题,原文件中“是 一”和“一 个”都是5次,为什么该软件给出的数据是7?
“个 例子”也是5次,却给出4?
其他数据也存在问题。

如何解释?



[本贴已被 作者 于 2006年07月23日 13时17分44秒 编辑过]

[本贴已被 作者 于 2006年07月23日 13时32分00秒 编辑过]
 
试验2:文件内容同上,不过是用xml格式分词和标注,原文件如下:
<pos type="r"> 这 </pos> <pos type="v"> 是 </pos> <pos type="m"> 一 </pos> <pos type="q"> 个 </pos> <pos type="n"> 例子 </pos> <pos type="w"> 。 </pos>
<pos type="r"> 哪 </pos> <pos type="v"> 是 </pos> <pos type="m"> 一 </pos> <pos type="q"> 个 </pos> <pos type="n"> 例子 </pos> <pos type="w"> 。 </pos>
<pos type="d"> 还 </pos> <pos type="v"> 是 </pos> <pos type="m"> 一 </pos> <pos type="q"> 个 </pos> <pos type="n"> 例子 </pos> <pos type="w"> 。 </pos>
<pos type="d"> 又 </pos> <pos type="v"> 是 </pos> <pos type="m"> 一 </pos> <pos type="q"> 个 </pos> <pos type="n"> 例子 </pos> <pos type="w"> 。 </pos>
<pos type="d"> 不 </pos> <pos type="v"> 是 </pos> <pos type="m"> 一 </pos> <pos type="q"> 个 </pos> <pos type="n"> 例子 </pos> <pos type="w"> 。 </pos>

说明:
词性标记和汉语词之间有一个空格,词性标记之间也有空格。

tag setting如下:
2006072313271452.jpg



[本贴已被 作者 于 2006年07月23日 13时27分25秒 编辑过]

其他和试验1相同。

[本贴已被 作者 于 2006年07月23日 13时30分56秒 编辑过]
 
wordlist和concordance结果和试验1相同。
但是,cluster却没有结果,如图(设置和试验1相同):


[本贴已被 作者 于 2006年07月23日 13时36分37秒 编辑过]
2006072313381666.jpg



[本贴已被 作者 于 2006年07月23日 13时38分19秒 编辑过]

[本贴已被 作者 于 2006年07月23日 17时52分12秒 编辑过]
 
这是用anticonc得出的Ngram(N=2)结果:
一 个 5
个 例子 5
是 一 5
不 是 1
又 是 1
哪 是 1
还 是 1
这 1
这 是 1


问题:
1。"这"(倒数第二行)不是2元组合,怎么回事呢?
2。如何把结果存成文本文件?我没找到方法,所以只好一列一列的拷贝、粘贴。谁有更好的保存方法?

[本贴已被 作者 于 2006年07月23日 17时50分31秒 编辑过]
 
interesting experienment!

[本贴已被 作者 于 2006年07月23日 17时36分16秒 编辑过]
 
结果:
1。antconc给出的2 gram 绝大部分是正确的,并且可以处理xml格式标注的文件(不过要另存为UTF-8格式才能处理)。
2。它是免费的。
3。wordsmith只能处理以空格为词界的汉语文本,而且,从实验结果看,有好多数据不准确,对于xml标注的,它算不出来。
4。它是收费的,应该能正确处理中文,或许俺没找到正确的方法,如果谁知道怎么能用它得出正确结果,或者,能否问一下卖主,告诉大家,它能否正确处理中文,或者能否处理用xml标注的文件,怎么处理。我想很多人希望用它来处理中文。
5。xaira能否提取n-gram (也就是cluster),谁能告诉大家怎么提取?
 
回复:[原创]wordsmith处理中文:实例与问题

以下是引用 xudekuan2006-7-23 16:09:52 的发言:
这是用anticonc得出的Ngram(N=2)结果:
一 个 5
个 例子 5
是 一 5
不 是 1
又 是 1
哪 是 1
还 是 1
这 1
这 是 1


问题:
1。"这"(倒数第二行)不是2元组合,怎么回事呢?
2。如何把结果存成文本文件?我没找到方法,所以只好一列一列的拷贝、粘贴。谁有更好的保存方法?

1. 检查你的文本是否为纯文本,隐藏符号可能会被当作一个字符看待。(还有,确认N-gram范围
是2-2.) 我查的结果没有单独的“这”。

2) Ctrl+S (File -> Save Output to Text File = Ctrl + S)
 
回复:[原创]wordsmith处理中文:实例与问题

以下是引用 xudekuan2006-7-23 13:15:49 的发言:
试验1。纯文本、unicode格式,用空格表示词的分界,原文件所用全部数据如下:
这 是 一 个 例子 。
哪 是 一 个 例子 。
还 是 一 个 例子 。
又 是 一 个 例子 。
不 是 一 个 例子 。
wordlist结果:
WordSmith Tools 4.0 -- 23-7-2006

Word Freq. % Texts % Lemmas Set
1 个 5 20.00 1 100.00
2 例子 5 20.00 1 100.00
3 是 5 20.00 1 100.00
4 一 5 20.00 1 100.00
5 不 1 4.00 1 100.00
6 还 1 4.00 1 100.00
7 哪 1 4.00 1 100.00
8 又 1 4.00 1 100.00
9 这 1 4.00 1 100.00

“例子”
cluster:结果:(设置为:words in cluster: 2 to 2; horizons 5L 5R), mimimun frequency: 1
WordSmith Tools 4.0 -- 23-7-2006

Cluster Freq.
1 是 一 7
2 一 个 7
3 个 例子 4
4 又 是 2
5 例子 还 2
6 还 是 2
7 不 是 2
8 例子 不 2
9 例子 又 2
10 哪 是 1
11 例子 哪 1
12 例子 子 1


其他问题不大,cluster结果有问题,原文件中“是 一”和“一 个”都是5次,为什么该软件给出的数据是7?
“个 例子”也是5次,却给出4?
其他数据也存在问题。

如何解释?

答案在于你的Cluster的设定,你设定了L5-R5的范围,若换成
3-3,4-4等等,结果又会不同。因为你的句子太短了,范围越大,某些cluster会越多,
另一些会越少。
 
Back
顶部