关于文本清洁问题~~

各位好!自己在尝试做一个科技文献语料库,目的是研究其文体特征。在文本清洁的过程中,发现有很多化学符号,如何整理这样的符号呢?保留?替代?还是删除?涉及到赋码的时候,这些符号通常会被被标注成NN名词,和那些经常出现的nouns是一样的。但觉得这样混在一起很奇怪。此外,一些计量单位像cm²,立方,温度等如何处理呢?

不知道大家是怎么做的?感谢大家提供的意见和建议~~~
 
Last edited:
Back
顶部