已经处理好了?各位前辈们好,我在自建一个小型的科技语篇语料库,在文本清理的时候遇到诸多问题,希望得到大家的帮助。问题如下:
文本中出现太多化学符号( 如HHPC2),转换格式之后数字跟字母都分开了,像水就变成了H2O,自动赋码的话能识别吗? 还是想办法把化学符号清理掉?
化学符号太多会不会影响对英语语言的研究?
另,文本中还出现很多单位、等式等又该如何清理呢?
比例的表达如w/c,还有20–400 °C 等等,都该如何处理呢?
多谢指点!
找到好的办法了吗?同问,顶一下!求经验分享~~