文本格式处理问题

李亮1975重庆

语料库快乐军政委
#2
解铃还须系铃人

文件扩展名只是一个向操作系统和普通用户发出的“信息类型的标识”。txt是纯文本,是ASCII码,而lst这种文件类型可以被多种程序或软件所生成,包括Wordsmith。而Wordsmith所生成的lst文件,其实是二进制的,无法被人工所查看和操作,所以必须用Wordsmith才能够读取和写入或修改或提取lst文件,或者在txt与lst之间进行双向转换。甚至普通的程序员也无法独立开发出读取或生成lst文件的小工具,因为Wordsmith的lst格式并非公开了机制与格式的技术标准,所以“仿制”的难度很大。
 
#3
回复: 解铃还须系铃人

文件扩展名只是一个向操作系统和普通用户发出的“信息类型的标识”。txt是纯文本,是ASCII码,而lst这种文件类型可以被多种程序或软件所生成,包括Wordsmith。而Wordsmith所生成的lst文件,其实是二进制的,无法被人工所查看和操作,所以必须用Wordsmith才能够读取和写入或修改或提取lst文件,或者在txt与lst之间进行双向转换。甚至普通的程序员也无法独立开发出读取或生成lst文件的小工具,因为Wordsmith的lst格式并非公开了机制与格式的技术标准,所以“仿制”的难度很大。
谢谢你的解答。 我之前在论坛有看到说将txt格式的wordlist放进wordsmith里重新生成一个lst格式的,可以frequency就不对了。照您这么说,那就没有办法自己做reference corpus的wordlist啦?:confused::(
 

李亮1975重庆

语料库快乐军政委
#4
自己做reference corpus的wordlist,是另外一回事

Antconc中“reference corpus”与“observed corpus”的各自wordlist是在进行Keyword List功能的时候而自动生成而自动进行两个wordlist之间的比较而自动生成Keyword List的。
http://www.docin.com/p-469407203.html (我的AntConc教程的第12页,图文并茂演示了Keyword List的操作流程)
 
#5
回复: 自己做reference corpus的wordlist,是另外一回事

Antconc中“reference corpus”与“observed corpus”的各自wordlist是在进行Keyword List功能的时候而自动生成而自动进行两个wordlist之间的比较而自动生成Keyword List的。
http://www.docin.com/p-469407203.html (我的AntConc教程的第12页,图文并茂演示了Keyword List的操作流程)
明白了,谢谢
 
#7
回复: 文本格式处理问题

Lakeview Lodge a six acre property has been developed with a
desire to share the rural charm of the Perth Hills and to retrace a chapter
in our history The Australian Bushranger The Lodge is situated 35 km nort
 
顶部