搜寻结果

  1. 李亮1975重庆

    语料库中token是什么意思

    useful links for glossary-driven entrance to corpus linguistics http://appling.kent.edu/resources/glossary/corpus-glossary.cfm http://wmtang.org/corpus-linguistics/glossary-of-corpus-linguistic-terms/ http://www.essex.ac.uk/linguistics/external/clmt/w3c/corpus_ling/content/glossary.html...
  2. 李亮1975重庆

    Doc批量转TXT李亮版.zip【绿色小巧,双击完事】

    Doc批量转TXT李亮版.zip 【功能描述】针对文件夹及其子文件夹,调用Office COM接口而实现的绿色免安装小工具,在需要转换大量doc文件为txt文件的时候就特别适合! 【提醒】经网友测试,本软件不支持2007和后续版本,所以确实需要批量转换的朋友可以少许投入时间安装Office2003来实现大批量转换。我没有安装也不太喜欢更高版本的Office,所以没测试也没针对性开发。 VirusTotal的51款杀毒软件检测结果:无毒……...
  3. 李亮1975重庆

    纯文本文件的奇偶行分离器和合并器

    看来gawk之类的awk是语料转换与语料提取中的利器 如果系统总结出在语料实践中最实用的awk语句几十条,无疑是制造了几十个小软件! 或者做个嵌入了gawk的独立exe,提供菜单上的预置的常用awk语句组合而实现各种功能。
  4. 李亮1975重庆

    有哪位大神有基于语料库的中文知识自动提取程序源码

    知识莫过于是百科知识和语言知识 语言知识的获得,又细分语音、词汇、句法、语义、语用、文体,每个子类又涉及到不同的算法;百科知识的获得,可以是多模态知识,可以是文本态知识,两方面的算法学习也差异大。中文知识与英文知识获得的原理是一致的,中文一旦分词就很像英文了;源代码获得,主要是从英语版开源软件去研习吧,中国没有什么在世界上很有影响的开源综合网站。知识获得也就是“文本挖掘+数据挖掘”,这两个术语text mining和data...
  5. 李亮1975重庆

    现场即席话语语料库

    回复: 现场即席话语语料库 一般,中国建库都是不共享不公开的,往往建成了就束之高阁,或者混入下一次建库申请的“建设范畴”,愿意公开分享的就会积极宣传自己愿意共享的消息。
  6. 李亮1975重庆

    现场即席话语语料库

    录音转写或录像转写 如果人物表情姿态对后续分析很重要就录像。
  7. 李亮1975重庆

    《英语屈折还原表》3个:1万多、9万多、11万多

    《英语屈折还原表》3个:1万多、9万多、11万多 English lemma list,适合进行语料库处理、自然语言处理、计算语言学、自主性学习系统的研究与开发; 1万多词版是日本专家(Yasumasa Someya)开发的; 9万多词版是英国专家(David Hardcastle,博士毕业于University of London)开发的; 11万多词版是美国专家(犹他州大学的“Kevin Atkinson”)开发的; 日本专家的相关网页 http://www.lexically.net/downloads/version4/downloading%20BNC.htm...
  8. 李亮1975重庆

    求助:如何能下载到wordsmith

    绿色免费版的WordSmith 下载地址 http://www.antlab.sci.waseda.ac.jp/software/antconc341/AntConc.exe 教程地址 http://www.docin.com/p-469407203.html http://www.docin.com/p-466643054.html
  9. 李亮1975重庆

    纯文本文件的奇偶行分离器和合并器

    某些字符本质上无法保存为ansi 研究了下样本包,发现了“?”这样的字符,其实,这样的字符你就是自己手工操作在“记事本”中把当前unicode编码的文本文件另存为“ANSI”也会变成一个问号之类的乱码的,同时在你保存为ANSI的时候,“记事本”都会提醒你“即将导致乱码”的,你手工试下保存那份unicode文本就会有这个提醒的。所以,这种情况是不能也无法用ANSI来手工或自动转码的,只能保存保持为unicode或utf8之类的兼容的文字编码格式。所以,整个互联网的网页都是utf-8格式的,这就是unicode的初级模式,而unicode的中级模式是unicode...
  10. 李亮1975重庆

    纯文本文件的奇偶行分离器和合并器

    样本有没有 armstrong,你提到的文本文件转码变成问号之类的乱码,你还有那样的文本文件么,提供一个样本的话,我可以研究下,你上传到帖子的附件就行。
  11. 李亮1975重庆

    纯文本文件的奇偶行分离器和合并器

    你把源文件的不乱码的部分都删除,再上传这样的源文件转码后的效果 这样,乱码的字符就一目了然了
  12. 李亮1975重庆

    纯文本文件的奇偶行分离器和合并器

    两款都不行的话,把样本文件传上来,我研究下 我可以立即推出更强的转码器咯,哈哈; 乱码的准确位置也标识下,免得我万一发现不了。
  13. 李亮1975重庆

    纯文本文件的奇偶行分离器和合并器

    我新浪爱问有两款 两款你都试过了?
  14. 李亮1975重庆

    纯文本文件的奇偶行分离器和合并器

    如果ansi之外就乱码,就先用我的批量转码器 http://iask.sina.com.cn/u/1411332842/ish?folderid=874127
  15. 李亮1975重庆

    双语词典语料库

    百度 http://app.baidu.com/app/enter?appid=162498
  16. 李亮1975重庆

    纯文本文件的奇偶行分离器和合并器

    回复: 纯文本文件的奇偶行分离器和合并器 只要是硬回车就是一个自然段,就可以了。
  17. 李亮1975重庆

    纯文本文件的奇偶行分离器和合并器

    【适用场合】当你搜集的语料文件或翻译文件(例如“英汉对照.txt”)是第一个自然段是英语,第二个自然段是中文,第三个自然段又是英语,第四个自然段是中文,而你希望把中文段落按照顺序都提取出来存入另一个文件(例如“中文.txt”),同时也把英文段落也提取出来存入另一个文件(例如“英文.txt”)。或者,你面对两个文件恰好是上面情况的结果文件,而你希望合并这两个文件,那么就是本帖所推出的两个小软件的处理范围了。做平行语料库的朋友,经常有这样的需求。 文件奇偶行分离器.exe...
  18. 李亮1975重庆

    绿色独立的语料粘贴器

    源码与后记 曾经我在很多软件下载网站找“小清新类型”的粘贴工具,也尝试了很多款甚至花枝招展的,但都感觉要么太花,要么容易藏匿小广告,要么容易需要较多的知识与技巧 我这款的源代码就下面这点…… import win.clip; import win.util.tray; // 复制单个空格则右下角提示“正在退出”就3秒后退出; // 每次复制都收集且右下角提示“第N次复制”和复制内容的前10个字符 collected={}; win.clip.write(""); win.util.tray.pop('已经启动,当前粘贴板已经清空\n复制单个或多个空格则退出程序',"语料粘贴器...
  19. 李亮1975重庆

    绿色独立的语料粘贴器

    50款杀毒软件的检测结果 https://www.virustotal.com/zh-cn/file/3c78315bfd14a264b5185f51e6596be8c6a19ae036547e9b08ded6f73b8893c4/analysis/1393773950/ 我用在线的50款杀毒软件引擎,进行扫描,只有1款报毒,其他都检测无毒; VirusTotal这个网站是方便进行杀毒引擎之间的横向比较,因为很多杀毒软件都存在误判误杀,往往导致个体程序员的作品被拦截与删除; virusTota网站集成了50款知名杀毒软件的最新引擎及其病毒特征库;...
  20. 李亮1975重庆

    绿色独立的语料粘贴器

    绿色独立的语料粘贴器2014 【功能】启动之后,你不断复制的文本都被自动收集与累积,直到你复制单个空格或多个空格到粘贴板就自动退出程序且把累积的文本都存入粘贴板,你粘贴就看到所有累积的语料了;适合阅读的时候,把重要的字词句或文本片段进行自动累积;适合语料收集的时候,把复制的语篇进行累积;每次复制,你也会发现屏幕右下角有本次复制内容的“小提醒(包括这是第N次复制)”,显示复制内容的前面10个字符哟! 【安装】下载了,解压了,双击就用,是独立的EXE文件;...
Back
顶部