[原创]wordsmith处理中文：实例与问题

xudekuan · 2006-07-23

试验1。纯文本、unicode格式，用空格表示词的分界，原文件所用全部数据如下：
这是一个例子。
哪是一个例子。
还是一个例子。
又是一个例子。
不是一个例子。
wordlist结果：
WordSmith Tools 4.0 -- 23-7-2006

Word Freq. % Texts % Lemmas Set
1 个 5 20.00 1 100.00
2 例子 5 20.00 1 100.00
3 是 5 20.00 1 100.00
4 一 5 20.00 1 100.00
5 不 1 4.00 1 100.00
6 还 1 4.00 1 100.00
7 哪 1 4.00 1 100.00
8 又 1 4.00 1 100.00
9 这 1 4.00 1 100.00

“例子”concondance结果：

cluster：结果：（设置为：words in cluster: 2 to 2; horizons 5L 5R）, mimimun frequency: 1
WordSmith Tools 4.0 -- 23-7-2006

Cluster Freq.
1 是一 7
2 一个 7
3 个例子 4
4 又是 2
5 例子还 2
6 还是 2
7 不是 2
8 例子不 2
9 例子又 2
10 哪是 1
11 例子哪 1
12 例子子 1

其他问题不大，cluster结果有问题，原文件中“是一”和“一个”都是5次，为什么该软件给出的数据是7？
“个例子”也是5次，却给出4？
其他数据也存在问题。

如何解释？

[本贴已被作者于 2006年07月23日 13时17分44秒编辑过]

[本贴已被作者于 2006年07月23日 13时32分00秒编辑过]

xudekuan · 2006-07-23

试验2：文件内容同上，不过是用xml格式分词和标注，原文件如下：
<pos type="r"> 这 </pos> <pos type="v"> 是 </pos> <pos type="m"> 一 </pos> <pos type="q"> 个 </pos> <pos type="n"> 例子 </pos> <pos type="w"> 。 </pos>
<pos type="r"> 哪 </pos> <pos type="v"> 是 </pos> <pos type="m"> 一 </pos> <pos type="q"> 个 </pos> <pos type="n"> 例子 </pos> <pos type="w"> 。 </pos>
<pos type="d"> 还 </pos> <pos type="v"> 是 </pos> <pos type="m"> 一 </pos> <pos type="q"> 个 </pos> <pos type="n"> 例子 </pos> <pos type="w"> 。 </pos>
<pos type="d"> 又 </pos> <pos type="v"> 是 </pos> <pos type="m"> 一 </pos> <pos type="q"> 个 </pos> <pos type="n"> 例子 </pos> <pos type="w"> 。 </pos>
<pos type="d"> 不 </pos> <pos type="v"> 是 </pos> <pos type="m"> 一 </pos> <pos type="q"> 个 </pos> <pos type="n"> 例子 </pos> <pos type="w"> 。 </pos>

说明：
词性标记和汉语词之间有一个空格，词性标记之间也有空格。

tag setting如下：

[本贴已被作者于 2006年07月23日 13时27分25秒编辑过]

其他和试验1相同。

[本贴已被作者于 2006年07月23日 13时30分56秒编辑过]

xudekuan · 2006-07-23

xudekuan · 2006-07-23

wordlist和concordance结果和试验1相同。
但是，cluster却没有结果，如图（设置和试验1相同）：

[本贴已被作者于 2006年07月23日 13时36分37秒编辑过]

[本贴已被作者于 2006年07月23日 13时38分19秒编辑过]

[本贴已被作者于 2006年07月23日 17时52分12秒编辑过]

xudekuan · 2006-07-23

是不是就不能对xml格式的文件计算cluster呢？还是设置有问题？

xudekuan · 2006-07-23

这是用anticonc得出的Ngram（N=2）结果：
一个 5
个例子 5
是一 5
不是 1
又是 1
哪是 1
还是 1
这 1
这是 1

问题：
1。"这"(倒数第二行)不是2元组合，怎么回事呢？
2。如何把结果存成文本文件？我没找到方法，所以只好一列一列的拷贝、粘贴。谁有更好的保存方法？

[本贴已被作者于 2006年07月23日 17时50分31秒编辑过]

hancunxin · 2006-07-23

interesting experienment!

[本贴已被作者于 2006年07月23日 17时36分16秒编辑过]

xudekuan · 2006-07-23

111

[本贴已被作者于 2006年07月23日 18时06分21秒编辑过]

xudekuan · 2006-07-23

结果：

[本贴已被作者于 2006年07月23日 18时07分53秒编辑过]

xudekuan · 2006-07-23

结果：
1。antconc给出的2 gram 绝大部分是正确的，并且可以处理xml格式标注的文件（不过要另存为UTF-8格式才能处理）。
2。它是免费的。
3。wordsmith只能处理以空格为词界的汉语文本，而且，从实验结果看，有好多数据不准确，对于xml标注的，它算不出来。
4。它是收费的，应该能正确处理中文，或许俺没找到正确的方法，如果谁知道怎么能用它得出正确结果，或者，能否问一下卖主，告诉大家，它能否正确处理中文，或者能否处理用xml标注的文件，怎么处理。我想很多人希望用它来处理中文。
5。xaira能否提取n-gram (也就是cluster)，谁能告诉大家怎么提取？

xudekuan · 2006-07-26

自己顶一下。

动态语法 · 2006-07-26

回复：[原创]wordsmith处理中文：实例与问题

以下是引用 xudekuan 在 2006-7-23 16:09:52 的发言：
这是用anticonc得出的Ngram（N=2）结果：
一个 5
个例子 5
是一 5
不是 1
又是 1
哪是 1
还是 1
这 1
这是 1

问题：
1。"这"(倒数第二行)不是2元组合，怎么回事呢？
2。如何把结果存成文本文件？我没找到方法，所以只好一列一列的拷贝、粘贴。谁有更好的保存方法？

1. 检查你的文本是否为纯文本，隐藏符号可能会被当作一个字符看待。（还有，确认N-gram范围
是2-2.) 我查的结果没有单独的“这”。

2) Ctrl+S (File -> Save Output to Text File = Ctrl + S)

动态语法 · 2006-07-26

回复：[原创]wordsmith处理中文：实例与问题

以下是引用 xudekuan 在 2006-7-23 13:15:49 的发言：
试验1。纯文本、unicode格式，用空格表示词的分界，原文件所用全部数据如下：
这是一个例子。
哪是一个例子。
还是一个例子。
又是一个例子。
不是一个例子。
wordlist结果：
WordSmith Tools 4.0 -- 23-7-2006

Word Freq. % Texts % Lemmas Set
1 个 5 20.00 1 100.00
2 例子 5 20.00 1 100.00
3 是 5 20.00 1 100.00
4 一 5 20.00 1 100.00
5 不 1 4.00 1 100.00
6 还 1 4.00 1 100.00
7 哪 1 4.00 1 100.00
8 又 1 4.00 1 100.00
9 这 1 4.00 1 100.00

“例子”
cluster：结果：（设置为：words in cluster: 2 to 2; horizons 5L 5R）, mimimun frequency: 1
WordSmith Tools 4.0 -- 23-7-2006

Cluster Freq.
1 是一 7
2 一个 7
3 个例子 4
4 又是 2
5 例子还 2
6 还是 2
7 不是 2
8 例子不 2
9 例子又 2
10 哪是 1
11 例子哪 1
12 例子子 1

其他问题不大，cluster结果有问题，原文件中“是一”和“一个”都是5次，为什么该软件给出的数据是7？
“个例子”也是5次，却给出4？
其他数据也存在问题。

如何解释？

答案在于你的Cluster的设定，你设定了L5-R5的范围，若换成
3-3,4-4等等，结果又会不同。因为你的句子太短了，范围越大，某些cluster会越多，
另一些会越少。

xujiajin · 2006-08-17

是用AntConc做的吗？

xudekuan · 2006-08-17

使用的wordsmith 4.0

[原创]wordsmith处理中文：实例与问题

xudekuan

Moderator

xudekuan

Moderator

xudekuan

Moderator

xudekuan

Moderator

xudekuan

Moderator

xudekuan

Moderator

hancunxin

Moderator

xudekuan

Moderator

xudekuan

Moderator

xudekuan

Moderator

xudekuan

Moderator

动态语法

管理员

动态语法

管理员

xujiajin

管理员

xudekuan

Moderator