自己在尝试做一个科技文献语料库,目的是研究其文体特征,设计的是保存语料全文本,在转换格式过程中,发现有很多格式TXT无法读取,比如在科技论文中经常出现一些公式,符号,图表等(如图),那么该怎么整理类似的文本?怎么去赋码?还有就是标记引用文献出处的数字是不是要去掉?“保存全文本”指的是通篇所有包括author, title, abstract, ket words, body, acknowledgement, claims, references and tables and figures, 还是根据研究目的自己选择?