detagging tools在win11上无法运行

其实detag这种事情可以用EmEditor使用正则表达式就可以解决了,EmEditor也支持批量处理文件,EmEditor支持处理超大型的txt文件,大到G级别的都可以。正则表达式不会的人可以直接问ChatGPT就行,只要描述明白,它就会给出准确的regex,当然需要告诉ChatGPT你是用在perl下的regex还是java下的或者其他语言下的,不同语言的正则表达式有些区别的。当然对于能使用ChatGPT的人来说,你甚至都不用问如何写正则表达式,可以让ChatGPT直接给你把detag这事干完就行了,不过你让它给你干它有时候会给你修改一些内容。不过ChatGPT 4o版本确实比之前强悍了不知道多少倍,你甚至可以自己用手机摄像头对准你电脑屏幕直接用语音告诉它让它给你干什么具体的事情。这样你还省去了输入大量文字的麻烦。谷歌的Gemini 1.5 pro现在可以直接处理不止一本书的内容。
 
许教授,想问问xml这种带有元信息和标注的文件该如何进行检索研究?例如计算形次比时是否应当清除所有元信息和赋码标注?但具体清除方法是用正则表达式还是另有工具?
 
应该用正则表达式将元数据(metadata)清除后,再将正文中的XML标记内容也清除掉,得到生文本后计算TTR,才比较稳妥。

去除元数据时需要仔细一些,因为有可能库中不同文本所包含的元数据字段不完全相同。
 
Back
顶部