搜寻结果

  1. P

    (求助)WordSmith与中文检索

    you have to be sure if your Chinese texts are in unicode and segmented.
  2. P

    句标与段标

    well, i see. thanks Dr. Xiao
  3. P

    句标与段标

    最近我在思考这样一个问题:如何把句子给提取出来呢?比如一本小说;或者是把段落给提取出来呢? 要处理这个问题,就必须先考虑:什么是句子,什么是段落?句子标志和段落标志。 我查了一下:有的学者认为句标有这几个特征:句号(full stop)/大写字母和间隔(space)。 段标除了具有句标的这几个特征之外,还有首行缩进的问题。 我个人这个定义不是很准确,比如:Mr. Li is a good teacher. 就会被识别为两个句子。(Mr.;Li is ...) 这样的例子也太多了,英语里的缩写也很多,比如:Mrs. , Dr. , U. S. , Ph. D, ...
  4. P

    推荐一套丛书 Studies in corpus linguistics (22本)

    how could you get them? from abroad?
  5. P

    语料库研修班意见

    这些朋友可能还在赶火车啊,呵呵,我也盼啊!!!
  6. P

    ICTCLAS不能切分什么字符呢?

    版本 中国大陆授权价格 全球授权价格 GB2312版本 ICTCLAS2.0 人民币4.5万元 人民币9万元 BIG5版本 ICTCLAS 0.9 人民币2.5万元 人民币5万元 GB2312版本和BIG5版本套装 人民币6万元 人民币12万元 “中国大陆授权”指授权产品仅可以在中国大陆地区(不含港、澳、台)销售; “全球授权”指授权产品可以在全球任何地区销售。
  7. P

    ICTCLAS不能切分什么字符呢?

    正版的ICTCLAS,可能至少也要好几万吧,可能极少数人见过,我想应该是世界上。
  8. P

    北外双语平行语料库最新消息

    有介绍的。他们有个对语料进行辅助加工的工具,软件由北大计算所开发编写,内部使用。在书上有所提及。
  9. P

    ICTCLAS不能切分什么字符呢?

    我认为如果 ICTCLAS在处理数据的时候能够把垃圾字符先扫除掉就好了,而且注册版也太贵了啊,本土软件也是天价啊!!!
  10. P

    ICTCLAS不能切分什么字符呢?

    我今天对一个文本进行切分的时候,发现软件提示我说,异常文本。大家在切分或者标注的时候,到底是哪些字符导致ICTCLAS不能工作呢? [本贴已被 作者 于 2006年03月15日 21时44分38秒 编辑过]
  11. P

    A Corpus Approach to Newspaper Texts

    thanks, i am much interested in such corpora. any free or available to buy
  12. P

    如何利用已标注的语料库?

    真是个好办法,值得推荐啊,谢谢laohong!!!
  13. P

    北外双语平行语料库最新消息

    王老师在他主编的《双语对应语料库研制与应用》有详细说明的,而且有例证。
  14. P

    如何利用已标注的语料库?

    说得有道理!!!严重支持!!!我也经常考虑到这个问题,有时候使用统计软件时,经常会问问自己,我需要的数据它都统计出来了吗?有数据遗漏吗?如果有遗漏,那是哪些呢?
  15. P

    MMAX Annotation Tool

    thank you very much!!!
  16. P

    MMAX Annotation Tool

    i can't download the free edition. but thanks laohong!!!
  17. P

    lemmatization list provided by WordSmith

    thank u very much!!!!
  18. P

    lemmatization list provided by WordSmith

    could Dr.xiao give me a hand? how to export a lemmatization list by ws4?
Back
顶部