工具求助

各位大佬们,近期看到了一个工具BFSU Spoken Utterances Extractor,觉得很有使用价值就下载了使用。目前遇到的问题是提取的内容是引号之间的,这样就会导致有些加引号但并非对话内容的也被提取了出来。目前想到的解决思路可能有:1.将提取结果复制到excel,按字符数量排序,进行人工筛查。通常,字符数较少不会是Utterances。2.左右索引定位寻找对话动词或者人物标识,但这个应该比较难以穷尽。3.借助语义模型的筛查。不知道各位大佬有没有什么好的想法,可以分享一下
 
你可以先用简单的正则表达式或脚本处理提取出的文本,过滤掉那些看起来不像对话的引语。虽然不能完全过滤掉,但可以去除很多明显的非对话内容,从而节省你手动检查的时间。
 
你可以先用简单的正则表达式或脚本处理提取出的文本,过滤掉那些看起来不像对话的引语。虽然不能完全过滤掉,但可以去除很多明显的非对话内容,从而节省你手动检查的时间。
谢谢答复!
 
Back
顶部