K Key 2025-10-09 #1 各位大佬们,近期看到了一个工具BFSU Spoken Utterances Extractor,觉得很有使用价值就下载了使用。目前遇到的问题是提取的内容是引号之间的,这样就会导致有些加引号但并非对话内容的也被提取了出来。目前想到的解决思路可能有:1.将提取结果复制到excel,按字符数量排序,进行人工筛查。通常,字符数较少不会是Utterances。2.左右索引定位寻找对话动词或者人物标识,但这个应该比较难以穷尽。3.借助语义模型的筛查。不知道各位大佬有没有什么好的想法,可以分享一下
各位大佬们,近期看到了一个工具BFSU Spoken Utterances Extractor,觉得很有使用价值就下载了使用。目前遇到的问题是提取的内容是引号之间的,这样就会导致有些加引号但并非对话内容的也被提取了出来。目前想到的解决思路可能有:1.将提取结果复制到excel,按字符数量排序,进行人工筛查。通常,字符数较少不会是Utterances。2.左右索引定位寻找对话动词或者人物标识,但这个应该比较难以穷尽。3.借助语义模型的筛查。不知道各位大佬有没有什么好的想法,可以分享一下
xujiajin 管理员 Staff member 2025-10-14 #2 有一定的人工筛选工作量也属正常。如果量实在过大,可先随机抽取一定行数,之后再筛选。 随机抽取工具,可用:https://corpus.bfsu.edu.cn/BFSU_Text_Randomizer2.zip
有一定的人工筛选工作量也属正常。如果量实在过大,可先随机抽取一定行数,之后再筛选。 随机抽取工具,可用:https://corpus.bfsu.edu.cn/BFSU_Text_Randomizer2.zip
A anrea 昨天 5:08 下午 #3 你可以先用简单的正则表达式或脚本处理提取出的文本,过滤掉那些看起来不像对话的引语。虽然不能完全过滤掉,但可以去除很多明显的非对话内容,从而节省你手动检查的时间。
K Key 昨天 8:46 上午 #4 作者 anrea: 你可以先用简单的正则表达式或脚本处理提取出的文本,过滤掉那些看起来不像对话的引语。虽然不能完全过滤掉,但可以去除很多明显的非对话内容,从而节省你手动检查的时间。 Click to expand... 谢谢答复!
作者 anrea: 你可以先用简单的正则表达式或脚本处理提取出的文本,过滤掉那些看起来不像对话的引语。虽然不能完全过滤掉,但可以去除很多明显的非对话内容,从而节省你手动检查的时间。 Click to expand... 谢谢答复!