中科院计算所汉语词法分析系统ICTCLAS

谢谢YM!测试了一下,结果还不错。这里和大家分享一下:

==================================
原文(《红楼梦》第一回):
==================================

<P> 第一回   甄士隐梦幻识通灵 贾雨村风尘怀闺秀 </P>
<P> 此开卷第一回也。作者自云:因曾历过一番梦幻之后,故将真事隐去,而借「通灵」之说,撰此《石头记》一书也。故曰「甄士隐」云云。但书中所记何事何人?自又云:「今风尘碌碌,一事无成,忽念及当日所有之女子,一一细考较去,觉其行止见识,皆出於我之上。何我堂堂须眉,诚不若彼裙钗哉?实愧则有馀,悔又无益之大无可如何之日也!当此,则自欲将已往所赖天恩祖德,锦衣纨?之时,饫甘餍肥之日,背父兄教育之恩,负师友规谈之德,以至今日一技无成,半生潦倒之罪,编述一集,以告天下人:我之罪固不免,然闺阁中本自历历有人,万不可因我之不肖,自护己短,一并使其泯灭也。虽今日之茅椽蓬牖,瓦灶绳床,其晨夕风露,阶柳庭花,亦未有妨我之襟怀笔墨者。虽我未学,下笔无文,又何妨用假语村言,敷演出一段故事来,亦可使闺阁昭传,复可悦世之目,破人愁闷,不亦宜乎?」故曰「贾雨村」云云。 此回中凡用「梦」用「幻」等字,是提醒阅者眼目,亦是此书立意本旨。 </P>
<P> 列位看官:你道此书从何而来?说起根由,虽近荒唐,细按则深有趣味。待在下将此来历注明,方使阅者了然不惑。 </P>
<P> 原来女娲氏炼石补天之时,於大荒山无稽崖炼成高经十二丈、方经二十四丈顽石三万六千五百零一块。娲皇氏只用了三万六千五百块,只单单剩了一块未用,便弃在此山青埂峰下。谁知此石自经?炼之后,灵性已通,因见众石俱得补天,独自己无材不堪入选,遂自怨自叹,日夜悲号惭愧。 </P>
<P> 一日,正当嗟悼之际,俄见一僧一道远远而来,生得骨格不凡,丰神迥别,说说笑笑,来至峰下,坐於石边,高谈快论:先是说些云山雾海、神仙玄幻之事,后便说到红尘中荣华富贵。此石听了,不觉打动凡心,也想要到人间去享一享这荣华富贵,但自恨粗蠢,不得已,便口吐人言,向那僧道说道:「大师,弟子蠢物,不能见礼了!适闻二位谈那人世间荣耀繁华,心切慕之。弟子质虽粗蠢,性却稍通,况见二师仙形道体,定非凡品,必有补天济世之材,利物济人之德。如蒙发一点慈心,携带弟子得入红尘,在那富贵场中,温柔乡里受享几年,自当永佩洪恩,万劫不忘也!」二仙师听毕,齐憨笑道:「善哉,善哉!那红尘中有却有些乐事,但不能永远依恃;况又有『美中不足,好事多磨』八个字紧相连属,瞬息间则又乐极悲生,人非物换,究竟是到头一梦,万境归空,倒不如不去的好。」这石凡心已炽,那里听得进这话去,乃复苦求再四。二仙知不可强制,乃叹道:「此亦静极思动,无中生有之数也!既如此,我们便携你去受享受享,只是到不得意时,切莫后悔!」石道:「自然,自然。」那僧又道:「若说你性灵,却又如此质蠢,并更无奇贵之处。如此也只好踮脚而已。也罢!我如今大施佛法,助你助,待劫终之日,复还本质,以了此案。你道好否?」石头听了,感谢不尽。那僧便念咒书符,大展幻术,将一块大石登时变成一块鲜明莹洁的美玉,且又缩成扇坠大小的可佩可拿。那僧托於掌上,笑道:「形体倒也是个宝物了!还只没有实在的好处,须得再镌上数字,使人一见便知是奇物方妙。然后好携你到那昌明隆盛之邦、诗礼簪缨之族、花柳繁华地、温柔富贵乡去安身乐业。」石头听了,喜不能禁,乃问:「不知赐了弟子那哪几件奇处?又不知携了弟子到何地方?望乞明示,使弟子不惑。」那僧笑道:「你且莫问,日后自然明白的。」说着,便袖了这石,同那道人飘然而去,竟不知投奔何方何舍。 </P>


==================================
标注的结果:
==================================

<P> /nx 第一/m 回/q  /x  /x /w 甄士隐/nr 梦幻/n 识/v 通/v 灵/a  /x 贾雨村/nr 风尘/n 怀闺秀/nr </P>/nx
<P> /nx 此/r 开卷/v 第一/m 回/q 也/y 。/w 作者/n 自/p 云/n :/w 因/p 曾/d 历/vg 过/ug 一/m 番/q 梦幻/n 之后/f ,/w 故/c 将/d 真/a 事/n 隐/v 去/v ,/w 而/c 借/v 「/x 通/vd 灵/a 」/x 之/u 说/v ,/w 撰/vg 此/r 《/w 石头/n 记/v 》/w 一/m 书/n 也/d 。/w 故/c 曰/vg 「/x 甄士隐/nr 」/x 云云/u 。/w 但/c 书/n 中/f 所/u 记/v 何事/r 何人/r ?/w 自/r 又/d 云/vg :/w 「/x 今/tg 风尘/n 碌/x 碌/x ,/w 一事无成/i ,/w 忽念及/nr 当日/t 所有/v 之/u 女子/n ,/w 一一/m 细/a 考/v 较/d 去/v ,/w 觉/v 其/r 行/ng 止/v 见识/n ,/w 皆/d 出/v 於我之/nr 上/v 。/w 何/r 我/r 堂堂/z 须眉/n ,/w 诚/dg 不/d 若/v 彼/r 裙/ng 钗/ng 哉/y ?/w 实/ad 愧/vg 则/d 有/v 馀/g ,/w 悔/vg 又/d 无益/v 之/u 大/a 无可/v 如何/r 之/u 日/ng 也/y !/w 当/p 此/r ,/w 则/c 自/p 欲/d 将/d 已/d 往/p 所/n 赖天恩/nr 祖德/nr ,/w 锦/ag 衣纨/nr ?/w 之/u 时/ng ,/w 饫/g 甘/vg 餍/g 肥/a 之/u 日/ng ,/w 背/v 父兄/n 教育/vn 之/u 恩/ng ,/w 负/v 师友规/nr 谈之德/nr ,/w 以至/c 今日/t 一/m 技/ng 无/v 成/v ,/w 半生/m 潦倒/a 之/u 罪/n ,/w 编/v 述/vg 一/m 集/q ,/w 以/p 告/v 天下/n 人/n :/w 我/r 之/u 罪/n 固/j 不免/d ,/w 然/r 闺阁/n 中/f 本/d 自/p 历历/d 有/v 人/n ,/w 万/m 不可/v 因/p 我/r 之/u 不肖/b ,/w 自/p 护/v 己/r 短/a ,/w 一/m 并/c 使/v 其/r 泯灭/v 也/y 。/w 虽/c 今日/t 之/r 茅/nr 椽/ng 蓬/v 牖/g ,/w 瓦/n 灶/n 绳/ng 床/n ,/w 其/r 晨/tg 夕/tg 风/n 露/v ,/w 阶/ng 柳庭花/nr ,/w 亦/d 未/d 有/v 妨/x 我/r 之/u 襟怀/n 笔墨/n 者/k 。/w 虽/c 我/r 未/d 学/v ,/w 下笔/v 无/v 文/ng ,/w 又/d 何妨/d 用/v 假/a 语/ng 村/n 言/vg ,/w 敷/v 演出/v 一/m 段/q 故事/n 来/f ,/w 亦可/v 使/v 闺阁/n 昭/ag 传/ng ,/w 复可悦/nr 世/ng 之/u 目/ng ,/w 破/v 人/n 愁闷/a ,/w 不/d 亦宜乎/nr ?/w 」/x 故/dg 曰/vg 「/x 贾雨村/nr 」/x 云云/u 。/w /w 此/r 回/v 中/f 凡/d 用/v 「/x 梦/vg 」/x 用/p 「/x 幻/vg 」/x 等/u 字/n ,/w 是/v 提醒/v 阅/vg 者/r 眼目/n ,/w 亦/d 是/v 此书/r 立意/v 本/r 旨/ng 。/w </P>/nx
<P> /nx 列/v 位/q 看/v 官/n :/w 你/r 道/v 此书/r 从/p 何/r 而/c 来/v ?/w 说/v 起/v 根由/n ,/w 虽/c 近/a 荒唐/a ,/w 细/ad 按/v 则/d 深/d 有/v 趣味/n 。/w 待/v 在/p 下/f 将/p 此/r 来历/n 注明/v ,/w 方/d 使/v 阅/vg 者/k 了然/v 不/d 惑/vg 。/w </P>/nx
<P> /nx 原来/b 女娲/n 氏/ng 炼石补天/i 之/u 时/ng ,/w 於大荒/nr 山/n 无/v 稽崖炼/nr 成/v 高/a 经/p 十二/m 丈/q 、/w 方/d 经/p 二十四/m 丈/q 顽石/n 三万六千五百零一/m 块/q 。/w 娲/x 皇/ng 氏/ng 只/d 用/v 了/ul 三万六千五百/m 块/q ,/w 只/d 单单/d 剩/v 了/ul 一/m 块/q 未/d 用/v ,/w 便/d 弃/vg 在/p 此/r 山/n 青埂/nr 峰/nr 下/v 。/w 谁知/v 此/r 石自经/nr ?/w 炼/v 之后/f ,/w 灵性/n 已/d 通/v ,/w 因/p 见众石/nr 俱/dg 得/v 补/v 天/n ,/w 独/d 自己/r 无/v 材/ng 不堪/v 入选/v ,/w 遂/d 自/p 怨/v 自/p 叹/v ,/w 日夜/d 悲/ag 号/n 惭愧/an 。/w </P>/nx
<P> /nx 一/m 日/q ,/w 正当/p 嗟/x 悼/vg 之际/f ,/w 俄/j 见/v 一/m 僧/ng 一道/d 远远/d 而/c 来/v ,/w 生得/nr 骨/ng 格/ng 不凡/z ,/w 丰神迥/nr 别/d ,/w 说说笑笑/v ,/w 来至峰/nr 下/v ,/w 坐/v 於石/nr 边/n ,/w 高谈/nr 快/d 论/v :/w 先是/d 说/v 些/q 云/n 山雾海/nr 、/w 神仙/n 玄幻之/nr 事/n ,/w 后/f 便/d 说/v 到/v 红尘/n 中/f 荣华富贵/i 。/w 此/r 石/ng 听/v 了/y ,/w 不觉/d 打动/v 凡心/nr ,/w 也/d 想/v 要/v 到/v 人间/n 去/v 享/vg 一/m 享/vg 这/r 荣华富贵/i ,/w 但/c 自/p 恨/v 粗/a 蠢/a ,/w 不得已/a ,/w 便/d 口/n 吐人/nr 言/vg ,/w 向那僧/nr 道/v 说道/v :/w 「/x 大师/n ,/w 弟子/n 蠢物/n ,/w 不能/v 见/v 礼/n 了/y !/w 适/ag 闻/v 二/m 位/q 谈/v 那/r 人世间/n 荣耀/a 繁华/a ,/w 心切/a 慕之/nr 。/w 弟子/n 质/ng 虽/c 粗/d 蠢/a ,/w 性/n 却/d 稍/d 通/v ,/w 况/nr 见/v 二/m 师仙形/nr 道/v 体/ng ,/w 定/v 非凡/z 品/v ,/w 必/d 有/v 补/v 天济世/nr 之/u 材/ng ,/w 利/vg 物/ng 济/vg 人/n 之/u 德/n 。/w 如/c 蒙/v 发/v 一点/m 慈心/n ,/w 携带/v 弟子/n 得/v 入/v 红尘/n ,/w 在/p 那/r 富贵/a 场/q 中/f ,/w 温柔/a 乡里/n 受/v 享/vg 几/m 年/q ,/w 自/r 当/p 永佩洪/nr 恩/ng ,/w 万/m 劫/ng 不/d 忘/v 也/y !/w 」/x 二/m 仙/ng 师/ng 听/v 毕/vg ,/w 齐憨/nr 笑/v 道/v :/w 「/x 善/ag 哉/y ,/w 善/ag 哉/y !/w 那/r 红尘/n 中/f 有/v 却/d 有些/r 乐事/n ,/w 但/c 不能/v 永远/d 依/v 恃/vg ;/w 况/nr 又/d 有/v 『/w 美中不足/i ,/w 好事多磨/i 』/w 八/m 个/q 字/n 紧/d 相连/v 属/v ,/w 瞬息间/t 则/d 又/d 乐/a 极/ng 悲/ag 生/v ,/w 人/n 非/vg 物/ng 换/v ,/w 究竟/d 是/v 到头/v 一/m 梦/n ,/w 万/m 境/ng 归/v 空/a ,/w 倒不如/v 不/d 去/v 的/uj 好/a 。/w 」/x 这/r 石凡心/nr 已/d 炽/ag ,/w 那里/r 听/v 得/ud 进/v 这话/r 去/v ,/w 乃/v 复/dg 苦/a 求/v 再/d 四/m 。/w 二/m 仙/ng 知/v 不可/v 强制/vn ,/w 乃/v 叹/v 道/v :/w 「/x 此/r 亦静极/nr 思/v 动/v ,/w 无中生有/i 之数/m 也/d !/w 既/c 如此/r ,/w 我们/r 便/d 携/v 你/r 去/v 受/v 享受/v 享/vg ,/w 只/d 是/v 到/v 不/d 得意/a 时/ng ,/w 切莫/d 后悔/v !/w 」/x 石道/nr :/w 「/x 自然/a ,/w 自然/n 。/w 」/x 那/c 僧又道/nr :/w 「/x 若/dg 说/v 你/r 性灵/n ,/w 却/d 又/d 如此/r 质/ng 蠢/a ,/w 并/c 更/d 无/v 奇/ag 贵/a 之/u 处/n 。/w 如此/r 也/d 只好/d 踮/v 脚/n 而已/y 。/w 也罢/y !/w 我/r 如今/t 大/a 施佛法/nr ,/w 助/v 你/r 助/v ,/w 待/v 劫/ng 终/vg 之/u 日/ng ,/w 复/dg 还/v 本质/n ,/w 以/p 了/ul 此案/r 。/w 你/r 道/q 好/a 否/y ?/w 」/x 石头/n 听/v 了/y ,/w 感谢/v 不尽/b 。/w 那/r 僧/ng 便/d 念咒/v 书/n 符/vg ,/w 大展/nz 幻术/n ,/w 将/p 一/m 块/q 大/a 石登时/nr 变成/v 一/m 块/q 鲜/a 明莹洁/nr 的/uj 美玉/n ,/w 且/c 又/d 缩/v 成/v 扇坠/n 大小/n 的/uj 可佩可/nr 拿/v 。/w 那/r 僧/ng 托/v 於掌上/nr ,/w 笑/v 道/v :/w 「/x 形体/n 倒/d 也/d 是/v 个/q 宝物/n 了/y !/w 还/d 只/d 没有/d 实在/a 的/uj 好处/n ,/w 须/v 得/ud 再/d 镌/vg 上/v 数字/n ,/w 使/v 人/n 一/d 见/v 便/d 知/v 是/v 奇/ag 物/ng 方妙/nr 。/w 然后/c 好/a 携/v 你/r 到/v 那/r 昌明隆/nr 盛之邦/nr 、/w 诗礼簪/nr 缨/ng 之/u 族/ng 、/w 花/n 柳繁华/nr 地/n 、/w 温柔/a 富贵/a 乡/n 去/v 安身/v 乐业/v 。/w 」/x 石头/n 听/v 了/y ,/w 喜/v 不能/v 禁/v ,/w 乃/v 问/v :/w 「/x 不知/v 赐/v 了/ul 弟子/n 那/r 哪/r 几/m 件/q 奇/ag 处/n ?/w 又/d 不知/v 携/v 了/ul 弟子/n 到/v 何/r 地方/n ?/w 望/v 乞/x 明示/vn ,/w 使/v 弟子/n 不/d 惑/vg 。/w 」/x 那/c 僧笑道/nr :/w 「/x 你/r 且/d 莫/d 问/v ,/w 日后/t 自然/d 明白/a 的/uj 。/w 」/x 说/v 着/uz ,/w 便/d 袖/v 了/ul 这/r 石/ng ,/w 同/p 那/r 道/q 人/n 飘/v 然而/c 去/v ,/w 竟/d 不知/v 投奔/v 何方/nr 何舍/nr 。/w </P>/nx
 
这里再贴上对应的霍克思翻译的英文,这样大家就可以用ParaConc分析一下了!

<P> CHAPTER 1 Zhen Shi-yin makes the Stone's acquaintance in a dream; And Jia Yu-cun finds that poverty is not incompatible with romantic feeling </P>
<P> This paragraph was not translated. </P>
<P> GENTLE READER, What, you may ask, was the origin of this book? Though the answer to this question may at first seem to border on the absurd, reflection will show that there is a good deal more in it than meets the eye. </P>
<P> Long ago, when the goddess Nuwa was repairing the sky, she melted down a great quantity of rock and, on the Incredible Crags of the Great Fable Mountains, moulded the amalgam into thirty-six thousand, five hundred and one large building blocks, each measuring seventy-two feet by a hundred and forty-four feet square. She used three hundred and six thousand five hundred of these blocks in the course of her building operations, leaving a single odd block unused, which lay, all on its own, at the foot of Greensickness Peak in the aforementioned mountains. Now this block of stone, having undergone the melting and moulding of a goddess, possessed magic powers. It could move about at will and could grow or shrink to any size it wanted. Observing that all the other blocks had been used for celestial repairs and that it was the only one to have been rejected as unworthy, it became filled with shame and resentment and passed its days in sorrow and lamentation. </P>
<P> One day, in the midst of its lamentings, it saw a monk and a Taoist approaching from a great distance, each of them remarkable for certain eccentricities of manner and appearance. When they arrived at the foot of Greensickness Peak, they sat down on the ground and began to talk. The monk, catching sight of a lustrous, translucent stone-it was in fact the rejected building block which had now shrunk itself to the size of a fan-pendant and looked very attractive in its new shape-took it up on the palm of his hand and addressed it with a smile: 'Ha, I see you have magical properties! But nothing to recommend you. I shall have to cut a few words on you so that anyone seeing you will know at once that you are something special. After that I shall take you to a certain brilliant, successful, poetical, cultivated, aristocratic, elegant, delectable, luxurious, opulent, locality on a little trip.' The stone was delighted. 'What words will you cut? Where is this place you will take me to? I beg to be enlightened.' 'Do not ask,' replied the monk with a laugh. 'You will know soon enough when the time comes.' And with that he slipped the stone into his sleeve and set off at a great pace with the Taoist. But where they both went to I have no idea. </P>


[本贴已被 作者 于 2006年03月18日 13时46分04秒 编辑过]
 
我也下载了打开之后是这样的,但是里面的应用程序双击单击都无法运行不知是怎么回事?望识者解疑!谢谢!
2006031816275894.jpg



[本贴已被 作者 于 2006年03月18日 16时28分02秒 编辑过]
 
这个是要在DOS运行的,不是Win32程序,不能直接双击的。这里是运行的简单步骤:

1、下载后解压到一个文件夹, 如,SXDtagger, 我这里是在C:盘下;
然后找到一篇中文纯文本文件(.txt格式,最好编码是GB的),方便处理就放在同一个文件夹下。

2、敲“开始(Start)”, “运行(Run)”,键入cmd,然后敲确定,来到DOS窗口下。

3、键入cd\回车后来到C:盘根目录下,在键入cd空格SXDtagger回车,来到SXDtagger目录下,然后就敲入找以下格式输入后回车就可以了:

segtag [-u] [-v] [-8|-n] [-s] filename [dir]
-u turn on Unknown Word Recognition
-v verbose mode
-s just seg, no tagging
-8 use 863 tagset instead of pku's
-n use neon-style seg
e.g.
segtag test1.txt >test1_seg.txt
segtag test*.txt d:\result

4、到指定的输出文件夹找标注好的结果。Good luck!
 
回复:中科院计算所汉语词法分析系统ICTCLAS

以下是引用 xusun5752006-3-18 14:45:18 的发言:
<p></P> 是预处理吗? 那这只是在段落层面上的对齐啊。

是的,只是段落层面的对齐。
 
回复:中科院计算所汉语词法分析系统ICTCLAS

以下是引用 laohong2006-3-18 16:56:25 的发言:
这个是要在DOS运行的,不是Win32程序,不能直接双击的。这里是运行的简单步骤:

1、下载后解压到一个文件夹, 如,SXDtagger, 我这里是在C:盘下;
然后找到一篇中文纯文本文件(.txt格式,最好编码是GB的),方便处理就放在同一个文件夹下。

2、敲“开始(Start)”, “运行(Run)”,键入cmd,然后敲确定,来到DOS窗口下。

3、键入cd\回车后来到C:盘根目录下,在键入cd空格SXDtagger回车,来到SXDtagger目录下,然后就敲入找以下格式输入后回车就可以了:

segtag [-u] [-v] [-8|-n] [-s] filename [dir]
-u turn on Unknown Word Recognition
-v verbose mode
-s just seg, no tagging
-8 use 863 tagset instead of pku's
-n use neon-style seg
e.g.
segtag test1.txt >test1_seg.txt
segtag test*.txt d:\result

4、到指定的输出文件夹找标注好的结果。Good luck!

thanks a lot, laohong!
 
回复:中科院计算所汉语词法分析系统ICTCLAS

以下是引用 ym2006-3-18 13:14:02 的发言:

为了尊重作者的版权,本来应该给个链接地址的。可惜年纪大了,记性越来越糟。
但为了方便大家,这里上传一个2003版的。谢谢史老师!

不知史老师是否又有新版公布,大家有兴趣自己搜一下啊。[DOWNLOAD]
ym 也是深藏不露的高人啊。
更新的版本呢?[emb2][emb2][emb2]
 
我刚才用它也标注了一个文件还挺好用的。只不过我的dos命令都忘了。要不是laohong提醒我,我还者不知怎么用它。谢谢!不知道还有没有更新的版本啊。另外哪里可以下载到比较全的dos命令集的?谢谢!
 
回复:中科院计算所汉语词法分析系统ICTCLAS

这比那个研修班更有价值。至少省了4千大洋。
Laohong, 有一处望细指教:
segtag [-u] [-v] [-8|-n] [-s] filename [dir]
-u turn on Unknown Word Recognition
-v verbose mode
-s just seg, no tagging
-8 use 863 tagset instead of pku's
-n use neon-style seg
dos下只是 segtag filename1 drive:\folder name 即可。上述参数可以改变吗?谢谢!
 
回复:中科院计算所汉语词法分析系统ICTCLAS

以下是引用 xusun5752006-3-18 20:14:12 的发言:
这比那个研修班更有价值。至少省了4千大洋。
Laohong, 有一处望细指教:
segtag [-u] [-v] [-8|-n] [-s] filename [dir]
-u turn on Unknown Word Recognition
-v verbose mode
-s just seg, no tagging
-8 use 863 tagset instead of pku's
-n use neon-style seg
dos下只是 segtag filename1 drive:\folder name 即可。上述参数可以改变吗?谢谢!


dos下 segtag filename1 drive:\folder name 是默认设置,你可以分别试着加上 -u, -v, -8, -s 看结果有何不同, 也可以合并一两个参数看,如这里用上面红楼梦第一回的前五段来试验:

segtag -u -v hlm001.txt C:\Temp 回车后就得到如下结果:

Total memory = 990M, Avail Physical Memory = 510M
pass 1: constructing ngrams...
ngram count=12425
pass 2: calculating MWU...

55 弟子
35 富贵
27 那僧
11 一块
9 我之
Total memory = 990M, Avail Physical Memory = 509M
UWR using 10 ms
我之: 我/r 之/u
那僧: 那/r 僧/ng
那僧
我之
5

1 file(s) using 40 ms
 
回复:中科院计算所汉语词法分析系统ICTCLAS

以下是引用 清风出袖2006-3-18 20:04:34 的发言:
我刚才用它也标注了一个文件还挺好用的。只不过我的dos命令都忘了。要不是laohong提醒我,我还者不知怎么用它。谢谢!不知道还有没有更新的版本啊。另外哪里可以下载到比较全的dos命令集的?谢谢!

这里有个从网上烤来的, 希望能有用。
逝去的DOS之DOS命令集
http://www.corpus4u.org/upload/forum/2006031822272414.txt
 
回复:中科院计算所汉语词法分析系统ICTCLAS

不敢当,我碰巧就知道这么些。再说还是Dr.Xu 先发的帖子,我只是路过跟了一下。
环顾四周,你们谁都比我高啊。
我在这里学到很多,谢谢各位热心共享和指导帮助的各位斑竹和朋友。
 
回复: 中科院计算所汉语词法分析系统ICTCLAS

老师你好,你给出的网络地址,为什么打不开啊?
能不能再给出一次?谢谢。我去baidu也找不到啊,这个语料库
 
回复: 中科院计算所汉语词法分析系统ICTCLAS

[FONT=黑体]NLPIR 2014[/FONT][FONT=黑体]大会:汉语分词系统NLPIR 2014发布暨ICTCLAS用户交流大会[/FONT]

汉语分词系统NLPIR(前身ICTCLAS)从2000年诞生以来,历时14年,全球用户突破30万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名,已经成为中文信息处理领域标杆性的工作。ICTCLAS创始人张华平博士倾力打造,即将推出的NLPIR2014版,是迄今为止最大的一次更新,在汉语分词体系架构下增加了对英文词法分析的支持,可以自动识别英文词汇的原型、词性标注、命名实体与关键词;并在当前汉语词法分析的基础上,实现了文档的完整语义分析,自动提取文档的人名、地名、机构名、文章作者、发布的媒体、关键词与摘要,是当前中文信息处理的必备神器,值得期待!
我们即将召开NLPIR2014发布暨ICTCLAS用户大会,由北京理工大学大数据搜索挖掘实验室主办,计算机世界与大数据论坛联合承办。张华平博士诚邀历年来所有支持我们前行的ICTCLAS用户,中文分词及中文信息处理的技术爱好者莅临参加,分享中文语言智能理解的美妙。届时,张华平博士将亲自讲解NLPIR2014背后的技术原理与最新进展,并由资深工程师在不同操作系统不同开发语言下NLPIR的实训技巧,同时还有不同背景的资深用户分享他们的使用开发经验。
[FONT=宋体]在线报名:[/FONT]http://118.192.14.52/bigdatatrain/bm.jsp[FONT=宋体](请注明NLPIR2014;场地有限,只接收前100名[/FONT][FONT=宋体])[/FONT]
 
回复: 中科院计算所汉语词法分析系统ICTCLAS

当然可能。
Change the default 二级标注 to 词语切分。
Default setting:
2005072301290076.jpg


Segmentation Only:
2005072301294484.jpg
许老师,您好,我也想不要词性标注,只分词,现在我下载了2014版的,但是怎么分词和标注是一起的,怎么设置只分词呢,你写的设置已经无法显示了,麻烦再解释一遍,谢谢
 
Back
顶部