工具求助

Key · 2025-10-09

各位大佬们，近期看到了一个工具BFSU Spoken Utterances Extractor，觉得很有使用价值就下载了使用。目前遇到的问题是提取的内容是引号之间的，这样就会导致有些加引号但并非对话内容的也被提取了出来。目前想到的解决思路可能有：1.将提取结果复制到excel，按字符数量排序，进行人工筛查。通常，字符数较少不会是Utterances。2.左右索引定位寻找对话动词或者人物标识，但这个应该比较难以穷尽。3.借助语义模型的筛查。不知道各位大佬有没有什么好的想法，可以分享一下

xujiajin · 2025-10-14

有一定的人工筛选工作量也属正常。如果量实在过大，可先随机抽取一定行数，之后再筛选。
随机抽取工具，可用：https://corpus.bfsu.edu.cn/BFSU_Text_Randomizer2.zip

anrea · 2025-11-21

你可以先用简单的正则表达式或脚本处理提取出的文本，过滤掉那些看起来不像对话的引语。虽然不能完全过滤掉，但可以去除很多明显的非对话内容，从而节省你手动检查的时间。

Key · 2025-11-21

作者 anrea:
你可以先用简单的正则表达式或脚本处理提取出的文本，过滤掉那些看起来不像对话的引语。虽然不能完全过滤掉，但可以去除很多明显的非对话内容，从而节省你手动检查的时间。

谢谢答复！

工具求助

Key

xujiajin

管理员

anrea

Key