试验1。纯文本、unicode格式,用空格表示词的分界,原文件所用全部数据如下:
这 是 一 个 例子 。
哪 是 一 个 例子 。
还 是 一 个 例子 。
又 是 一 个 例子 。
不 是 一 个 例子 。
wordlist结果:
WordSmith Tools 4.0 -- 23-7-2006
Word Freq. % Texts % Lemmas Set
1 个 5 20.00 1 100.00
2 例子 5 20.00 1 100.00
3 是 5 20.00 1 100.00
4 一 5 20.00 1 100.00
5 不 1 4.00 1 100.00
6 还 1 4.00 1 100.00
7 哪 1 4.00 1 100.00
8 又 1 4.00 1 100.00
9 这 1 4.00 1 100.00
“例子”concondance结果:
cluster:结果:(设置为:words in cluster: 2 to 2; horizons 5L 5R), mimimun frequency: 1
WordSmith Tools 4.0 -- 23-7-2006
Cluster Freq.
1 是 一 7
2 一 个 7
3 个 例子 4
4 又 是 2
5 例子 还 2
6 还 是 2
7 不 是 2
8 例子 不 2
9 例子 又 2
10 哪 是 1
11 例子 哪 1
12 例子 子 1
其他问题不大,cluster结果有问题,原文件中“是 一”和“一 个”都是5次,为什么该软件给出的数据是7?
“个 例子”也是5次,却给出4?
其他数据也存在问题。
如何解释?
这 是 一 个 例子 。
哪 是 一 个 例子 。
还 是 一 个 例子 。
又 是 一 个 例子 。
不 是 一 个 例子 。
wordlist结果:
WordSmith Tools 4.0 -- 23-7-2006
Word Freq. % Texts % Lemmas Set
1 个 5 20.00 1 100.00
2 例子 5 20.00 1 100.00
3 是 5 20.00 1 100.00
4 一 5 20.00 1 100.00
5 不 1 4.00 1 100.00
6 还 1 4.00 1 100.00
7 哪 1 4.00 1 100.00
8 又 1 4.00 1 100.00
9 这 1 4.00 1 100.00
“例子”concondance结果:
cluster:结果:(设置为:words in cluster: 2 to 2; horizons 5L 5R), mimimun frequency: 1
WordSmith Tools 4.0 -- 23-7-2006
Cluster Freq.
1 是 一 7
2 一 个 7
3 个 例子 4
4 又 是 2
5 例子 还 2
6 还 是 2
7 不 是 2
8 例子 不 2
9 例子 又 2
10 哪 是 1
11 例子 哪 1
12 例子 子 1
其他问题不大,cluster结果有问题,原文件中“是 一”和“一 个”都是5次,为什么该软件给出的数据是7?
“个 例子”也是5次,却给出4?
其他数据也存在问题。
如何解释?
[本贴已被 作者 于 2006年07月23日 13时17分44秒 编辑过]
[本贴已被 作者 于 2006年07月23日 13时32分00秒 编辑过]