建设语料库的过程中,有一个处理文本的过程。在在输入,清理杂质,标注等等步骤时,什么工具方便就用什么工具。比如,手工输入时,MS-word显示和拼写检查等都比较友好,使用word比较好,但是要做词性标注或者是句法标注时,可能就需要txt格式了,有时候可能还需要用到MS-Excel来处理。语料库最终的保存形式则要看语料库使用的大小,是长期保存还是一次性用途,是自己用还是打算以后共享给他人的因素再作决定。建语料库时,从纸质到电子文本,在word,还是写字板输入?(在确保原文拼写和标点不变的情况下,因为word的自动拼写功能可以减少输入错误),保存时,又用哪个呢?以前印象中,好像是纯文本,但不知为何,请教懂的人。