求助:英语专业《精读》课本的Txt文本

seanxpq

corpus explorer
各位大虾:
求英语专业《精读》课本的Txt文本,如李观仪教授主编的《新编英语教程》!叩谢!!!
QQ:553575272
 
刚刚有个想法,其实是想建个教材语料库,可是实在太难了。有没有相同兴趣的C友,请和我联系啊。各位大虾也可以从建库的各个方面多多指导啊。QQ:553575272 谢谢!!!
 
可以和(成都)电子科技大学的张扬联系,记得他说过正在建大学英语语料库。
 
回复:求助:英语专业《精读》课本的Txt文本

以下是引用 laohong2006-2-26 10:34:54 的发言:
可以和(成都)电子科技大学的张扬联系,记得他说过正在建大学英语语料库。


万分感谢!!!
 
我也是个外行。首先就得解决语料文件的输入问题,要靠打字或扫描进去。应该工作量很巨大。哪些内容需要输入还是全部输入也是个问题。是否需要进行标注也是个问题。需要大家的帮忙和建议。
 
回复:求助:英语专业《精读》课本的Txt文本

以下是引用 seanxpq2006-2-26 14:38:35 的发言:
我也是个外行。首先就得解决语料文件的输入问题,要靠打字或扫描进去。应该工作量很巨大。哪些内容需要输入还是全部输入也是个问题。是否需要进行标注也是个问题。需要大家的帮忙和建议。


靠打字和扫描是没有办法的办法。建议还是跟本书的作者或者出版社联系。版权也是个问题呀。至于哪些输入哪些不输入,还有标注的问题,前人已经有过类似的尝试,何不借鉴? 我就听说新体验大学英语还有新视野大学英语教材本身就带有本教材的语料库。
 
如果仅仅是新编基础英语《精读》的教材语料库也就四本书,每本14课(unit),28篇文章, 四册一共102篇文章。每篇文章平均5page,四册书510page。如果每page花1分钟扫描(不算校对),光扫描五、六百分钟,准备一天时间可以完成扫描工作。如果这样算来,工作量也不是很大。要是能够联合同事一块干,两天时间足矣。
 
回复:求助:英语专业《精读》课本的Txt文本

以下是引用 seanxpq2006-2-25 18:14:28 的发言:
各位大虾:
求英语专业《精读》课本的Txt文本,如李观仪教授主编的《新编英语教程》!叩谢!!!
QQ:553575272

英语专业的李观仪编的教材 无论是电子版还是配套光盘 都没有 只有自己辛苦了阿
这就是英语专业的尴尬 唉。。。。不像大学外语那么多的资料 不一样啊。。。
不过话说回来 我建议你可以用下列方法自己弄 不知妥否?

方法一:超星
去超星看看有没有这些书的数字资源 然后下载下来 超星有一个自带的OCR插件(需下载)
用这个识别 贴出文本 可能比较繁琐 不过速度肯定比扫描快

方法二:自己动手
正如楼上所言 是没有办法的办法

找一本比较新的教材 我的意思是上面不要被写过划过 比较干净
然后弄个不错的扫描仪 建议你用清华紫光A900 或A系列的扫描仪 价格大概700-800 (主要是它有一个附赠的正版TH-OCR专业版)

找一台配置还算可以的电脑 主要是为了提高扫描速度
花点时间扫描
扫描软件 用TH-OCR (适用于中英文混排 识别率正确率高达90%)

考虑到李观仪的书基本没什么中文 你可以用ABBYY FineReader 专业版 (很多软件下载站 可以下载到该软件和破解包 )来扫描文本 该软件很强大 西文的OCR处理是世界顶尖的 英文识别率高达99% 而且扫出来 导成doc格式的话版式格式字体都不变 很强啊 你要文本格式 只要把导出格式设成文本格式即可

我用这个方法给朋友做题库 最快的纪录是4个小时扫描识别了6套TEM8的全真试题(电脑配置为P4 2.8 HT 512mb 内存)跟同学一起合作扫描定能提高速度

PS: 一些图书馆用的是柯达和一些台湾牌子的高速扫描仪 以后有机会可以推荐你的单位或学校买 曾见识过一部台湾的机子 6000多块 7~8秒钟扫一页A4 带自动推进器 汗。。(非广告^_^)

拙见 可以试试哈 祝你好运

[本贴已被 作者 于 2006年02月26日 17时02分48秒 编辑过]

[本贴已被 作者 于 2006年02月26日 17时11分43秒 编辑过]
 
回复:求助:英语专业《精读》课本的Txt文本

谢谢您的详细描述! 太感谢了, 看来我会成为计算机高手了.
 
OCR扫描,千万别“紫光”,原因有三:一、扫描速度贼慢(现在改善了?但愿:);二、(最主要的原因)英文识别软件不佳;三、价不廉。推荐使用 Microtek或ACER,这两款都送配套英文软件 abbyy finereader。其中好处用用就知道啦。价格?RMB400-500元足矣。
 
建议用紫光主要是考虑到那个TH-OCR软件能得到较高的中英文混排识别率 因为别的扫描仪用不了
至于ABBYY Finereader 都是OEM版 功能有限 还是下载一个破解的专业版好了
至于楼上说的中晶和宏基小弟用过其中的中晶 感觉速度差不多
不过还是多谢推荐

[本贴已被 作者 于 2006年02月27日 14时04分12秒 编辑过]
 
回复:求助:英语专业《精读》课本的Txt文本

我用过汉王文本王,准确率很高。扫描的时候,如果不惜将书撕成一页页的扫,几乎没有什么错误,而且可以自动识别,按一次按钮就可以完成扫描和识别两个过程。不过,汉王文本王价格比较贵,起码要过1000元。
 
回复: 求助:英语专业《精读》课本的Txt文本

各位c友:
你们好!
教材语料库可以用来做些什么研究呢(除了教材评价和比较外)?或者有哪些用处呢?这方面的文章和介绍都好像很少阿!大家都来讨论一下吧。
目前我想建一个小型教材语料库(条件基本具备,只需要做些内容的格式和版面调整),但不知道教材的什么信息和内容应该包括在内,什么不应该收录在内,如:对话内容、课文、课后生词、练习、注释、表格等等。应该全部用纯文本格式还是保留表格和图片之类的格式?另外教参上的内容是否应该补充进去? 练习册上的内容是否也应该收入库中? 请各位赐教!!!
 
回复: 求助:英语专业《精读》课本的Txt文本

应该是内容收录的越全越好。当然这要取决于研究目的。
好像您是华南师大的,何老师的项目好像把这些教材都收集了吧?
 
回复: 求助:英语专业《精读》课本的Txt文本

谢谢许博士!教材语料库可以用来做些什么研究呢(除了教材评价和比较外)?或者有哪些用处呢?这方面的文章和介绍都好像很少阿!
 
回复: 求助:英语专业《精读》课本的Txt文本

我想主要是教材评价和比较,比如练习设置、内容安排。最主要是将一册书或几册书贯穿起来看,考察全书是否有一定的系统性。再看这种系统性与其他国内或者国外教材之间的异同。
 
Back
顶部