求教自建语料库开个问题

本人目前自建一小型语料库,上次在外研社组织的研修班培训时,梁茂成教授告知我们文本可以通过赋码,然后去码的过程,把文本清理干净。可是我发现去码之后,所有的标点符号前面多出了一个空格,请问,这对语料库软件分析有影响吗?还是一个想办法先去掉这些空格?
 
回复: 求教自建语料库开个问题

1)没有影响
2)如若还原,可以批量替换,如:
' ,'->','
' .'->'.'
......
 
Back
顶部