williamJia
开放语料库项目
回复: BFSU English Sentence Segmenter 1.0 Freeware 英文自动分句工具
清理line break 尽量不要使用Word, Word太耗资源。建议使用UltraEdit或其他纯文本编辑器。
一般分四步清理(以UltraEdit为例):
1. 用某个标识符(如:-_-,选择标识符时,要确保原文不含标识符,不然会出错)替换^p^p,作用是记录原文的段落。
2. 用空格代替^p
3. 删除多余空格
4. 用^p代替标识符
替换前:
This is
a good
test.
You can
try
it, if
you
like.
第一步:
This is
a good
test._-_You can
try
it, if
you
like.
第二步:
This is a good test._-_You can try it, if you like.
第三步:(无多余空格省略)
第四步:
This is a good test.
You can try it, if you like.
清理line break 尽量不要使用Word, Word太耗资源。建议使用UltraEdit或其他纯文本编辑器。
一般分四步清理(以UltraEdit为例):
1. 用某个标识符(如:-_-,选择标识符时,要确保原文不含标识符,不然会出错)替换^p^p,作用是记录原文的段落。
2. 用空格代替^p
3. 删除多余空格
4. 用^p代替标识符
替换前:
This is
a good
test.
You can
try
it, if
you
like.
第一步:
This is
a good
test._-_You can
try
it, if
you
like.
第二步:
This is a good test._-_You can try it, if you like.
第三步:(无多余空格省略)
第四步:
This is a good test.
You can try it, if you like.
Last edited: