You are using an out of date browser. It may not display this or other websites correctly.
You should upgrade or use an
alternative browser.
-
A
你可以先用简单的正则表达式或脚本处理提取出的文本,过滤掉那些看起来不像对话的引语。虽然不能完全过滤掉,但可以去除很多明显的非对话内容,从而节省你手动检查的时间。
-
A
试试 BYU 语料库网站和 Sketch Engine 的免费练习工具。Tony McEnery 的《语料库语言学:方法、理论与实践》也提供了不错的备考练习。
-
A
你可以尝试 LF Aligner 或 HunAlign,因为它们非常适合处理较长的文本。它们还能帮助你在对齐之前将小说拆分成更小的部分。如果你懂 Python,fast_align 或 OpusTools 可以加快这个过程。