我在清洁文本中遇到了一些问题:
首先,将PDF等格式转化为WORD的时候,去除图表和图像之后就会有在WORD中文本行列无法调整的现象,清洁就遇到问题了。请教各位老师在做这个的时候都是怎么处理的呢?
第二,有的词语,尤其是非英语,例如化学方面的,计算机无法辨识,那么在文本中显示不出或者以乱码出现怎么办呢?
我才接触语料库不久,希望向各位老师学习。谢谢各位老师指教。
首先,将PDF等格式转化为WORD的时候,去除图表和图像之后就会有在WORD中文本行列无法调整的现象,清洁就遇到问题了。请教各位老师在做这个的时候都是怎么处理的呢?
第二,有的词语,尤其是非英语,例如化学方面的,计算机无法辨识,那么在文本中显示不出或者以乱码出现怎么办呢?
我才接触语料库不久,希望向各位老师学习。谢谢各位老师指教。