求教:自建小型英汉平行语料库过程中的几个问题

[FONT=宋体][FONT=宋体][FONT=宋体]本人刚开始学习语料库,在建立自己的平行语料库的过程中遇到了几个问题,烦请前辈们赐教,谢谢![/FONT]
1. [FONT=宋体]英语文本中作者使用了少量的拉丁语、法语等词汇,这部分应该怎么处理呢?如果保留在文本里面,一是担心在[/FONT]claws[FONT=宋体]赋码的过程中可能出现错误,二是在进行数据统计的时候不是也不够准确么?[/FONT]
2. [FONT=宋体]王立非老师的《计算机辅助第二语言研究方法与应用》第[/FONT]107[FONT=宋体]页说[/FONT]claws[FONT=宋体]标注后,符号[/FONT]<s>[FONT=宋体]和[/FONT]</s>[FONT=宋体]标识句子的开头和结尾,可是我用[/FONT]claws[FONT=宋体]标注了以后怎么没有这两项呢,看了论坛里其他朋友传上来的标注材料好像也没有啊,这是怎么回事呢?[/FONT]
3. [FONT=宋体]把[/FONT]claws[FONT=宋体]标注后的材料导入[/FONT]paraconc[FONT=宋体],隐藏了[/FONT]special tag[FONT=宋体]后[/FONT], [FONT=宋体]其他标注内容果然不显示了,可是标点符号却依然是成对的出现,如[/FONT]; ; . . , ,[FONT=宋体]等,这个是哪里出了问题呢?[/FONT]
4. [FONT=宋体]中文的标注用的是[/FONT]ICTCLAS[FONT=宋体],从官网上下的免费版,可是每次处理的语料很有限,好像只有[/FONT]1024[FONT=宋体]字符,不知有没有可以处理大量语料的版本呢?[/FONT]
[FONT=宋体]麻烦各位前辈指点迷津,谢谢![/FONT]
[/FONT][/FONT]
 
Last edited:
Back
顶部