

Advice
技术辅助审查中多语言数据的审查策略
- Document Review Services
- 3 mins
随着数字化环境的不断扩展,在调查和诉讼过程中处理多语言数据,正为法律团队带来日益复杂的挑战。语言种类的持续多样化,可能对文件审查的准确性和效率产生显著影响,尤其是在为技术辅助审查(TAR)流程训练模型时。要有效应对多语言审查,案件团队需要对现有的工具和策略具备清晰而全面的理解。
简单主动学习(SAL)仍然是许多文件审查项目中的基础方法,且在实践中往往是必须采用的路径。与依赖大型语言模型(LLMs)提供专业知识的生成式人工智能不同,SAL 模型的训练依赖于案件主题专家(SME)对文件进行标注,从而构建一个二元分类模型。当审查数据中包含多种语言时,TAR 模型的训练难度会显著提升,因为 SME 不仅需要理解案件所涉的法律问题,还需要具备对相关语言的熟练掌握。如果 SME 在某一或多种语言上的熟练程度不足,案件团队就必须考虑采取额外措施,以确保数据能够被正确、合理地处理。
尽早识别多语言数据,是实现 TAR 审查可抗辩性的关键
识别数据 custodians 是否使用多种语言进行沟通,是降低后期风险、避免高昂返工成本、并确保审查流程准确且具备可辩护性的关键一步。数据收集中往往隐藏着意料之外的情况,因此,尽早进行语言识别对于制定科学、有效的审查方案至关重要。Custodian 访谈有助于识别数据来源和沟通方式,但这些访谈往往无法覆盖全部情况。通过在审查初期主动评估审查范围内多语言数据的占比和分布情况,案件团队可以就模型训练和审查规划展开更加充分、基于事实的讨论,从而与请求方在预期管理、成本控制和风险降低方面达成一致。
TAR 工作流中多语言审查的可选方案
在标准 TAR 工作流程下,针对非英文内容,通常有两种主要处理方式:多语言模型,或语言专用模型。如果涉及的语言种类较少,且每种语言的数据量较低,那么多语言模型往往是一个可行的方案。这一方式可以在单一 TAR 模型或翻译工作流中保留各自的原始语言。相反,如果仅有某些特定语言是审查重点,且这些语言对应的数据量较为可观,则采用针对特定语言的模型可能更加合理。
多语言 TAR 模型:实现高效审查的关键考量
在评估是否采用多语言模型时,案件团队应综合考虑 SME 的可用性及语言能力、数据构成以及文件数量,并据此完成成本与收益分析。
-
由具备语言能力的 SME 进行原文审查:该方案由熟练掌握相关语言的 SME 直接审查对应语言的文件。该方式在单模型方案中争议最小,但现实中往往难以找到既懂案件核心问题、又熟练掌握特定语言的 SME。此外,为模型训练获取足够数量的非英文样本,可能会显著增加 SME 的总体工作量。
-
为 SME 审查目的进行翻译:该方案将文件仅翻译为英文供 SME 审查,但 TAR 模型仍基于原始语言文本进行训练,依赖系统对语言的无关性(language agnosticism)。该方式的前期翻译成本最低,但如果非英文数据量较少,可能难以为模型训练提炼足够的特征。此外,翻译过程中也可能存在语境或细节信息的损失。
-
为模型训练进行翻译:该方案将文件翻译为英文,并将译文直接纳入 TAR 模型训练。通过将所有文档统一为单一语言,该方式可显著降低模型训练难度,简化特征提取流程,同时让 SME 在熟悉的语言环境下判断文件相关性,从而提升整体审查效率和一致性。但其前期翻译成本最高,同时仍需关注翻译可能导致语境偏差的问题。
语言专用模型的适用场景与考量因素
当多语言模型无法满足审查需求时,案件团队可考虑采用语言专用模型。这类模型在捕捉语言细微差异方面通常更具优势,特别是在语法或句法复杂的语言环境中,有助于降低误读和语境丢失的风险。然而,这一方案也存在明显的挑战。首先,寻找合适的 SME 通常成本高昂、周期较长;其次,如果 SME 对案件背景不够熟悉,可能会导致编码标准不一致。此外,每增加一种语言模型,就意味着需要分别进行训练、验证和指标管理,这会显著增加 SME 的工作负担和项目资源压力。因此,虽然语言专用模型在理论上可提升准确性,但其边际收益往往不足以抵消运营复杂性。实践中,案件团队往往更倾向于选择具备合理多语言处理能力的模型,以在控制成本的同时简化整体审查流程。
多语言 TAR 电子证据开示的实践启示
在多语言审查中,最优方案往往是对数据构成和复杂度(包括语言种类及数据量)与可用资源、时间限制之间的平衡。通过尽早识别语言范围、规划模型训练和审查策略、明确非英文文本的处理和交付方式,并在项目初期选择合适的方法,企业可以有效应对多语言数据带来的复杂挑战,降低后期风险并避免不必要的返工成本。多语言数据并不存在放之四海而皆准的解决方案。案件团队应与专业顾问合作,根据具体数据特征、项目目标和优先级,制定量身定制的审查策略。
尽管传统 TAR 为多语言数据提供了结构化处理路径,但新一代工具正在不断拓展可能性。在后续文章中,我们将进一步探讨生成式人工智能如何重塑多语言审查模式。

Desiree Marek,数据分析顾问,反垄断业务,Epiq
Desiree Marek 是 Epiq 先进技术团队的数据分析顾问,专注于政府调查相关业务。她与外部律师及审查团队密切合作,就技术辅助审查(TAR)的最佳实践和可选方案提供专业咨询。
Desiree 拥有超过二十年的电子证据开示(eDiscovery)行业经验。她于 2020 年加入 Epiq,此前曾就职于两家大型 eDiscovery 服务商,并曾在一家全球性律师事务所的内部团队任职。她拥有蒙大拿大学的学士和硕士学位,并取得多项 eDiscovery 相关专业认证。
Desiree 在蒙大拿州山区长大,目前居住于华盛顿州西北部。
本文的内容仅旨在传达一般信息,不提供法律建议或意见。