Advice

Pink and blue text bubbles over purple background

技术辅助审查中多语言数据的审查策略

Document Review Services
3 mins

随着数字化环境的不断扩展，在调查和诉讼过程中处理多语言数据，正为法律团队带来日益复杂的挑战。语言种类的持续多样化，可能对文件审查的准确性和效率产生显著影响，尤其是在为技术辅助审查（TAR）流程训练模型时。要有效应对多语言审查，案件团队需要对现有的工具和策略具备清晰而全面的理解。

简单主动学习（SAL）仍然是许多文件审查项目中的基础方法，且在实践中往往是必须采用的路径。与依赖大型语言模型（LLMs）提供专业知识的生成式人工智能不同，SAL 模型的训练依赖于案件主题专家（SME）对文件进行标注，从而构建一个二元分类模型。当审查数据中包含多种语言时，TAR 模型的训练难度会显著提升，因为 SME 不仅需要理解案件所涉的法律问题，还需要具备对相关语言的熟练掌握。如果 SME 在某一或多种语言上的熟练程度不足，案件团队就必须考虑采取额外措施，以确保数据能够被正确、合理地处理。

尽早识别多语言数据，是实现 TAR 审查可抗辩性的关键

识别数据 custodians 是否使用多种语言进行沟通，是降低后期风险、避免高昂返工成本、并确保审查流程准确且具备可辩护性的关键一步。数据收集中往往隐藏着意料之外的情况，因此，尽早进行语言识别对于制定科学、有效的审查方案至关重要。Custodian 访谈有助于识别数据来源和沟通方式，但这些访谈往往无法覆盖全部情况。通过在审查初期主动评估审查范围内多语言数据的占比和分布情况，案件团队可以就模型训练和审查规划展开更加充分、基于事实的讨论，从而与请求方在预期管理、成本控制和风险降低方面达成一致。

TAR 工作流中多语言审查的可选方案

在标准 TAR 工作流程下，针对非英文内容，通常有两种主要处理方式：多语言模型，或语言专用模型。如果涉及的语言种类较少，且每种语言的数据量较低，那么多语言模型往往是一个可行的方案。这一方式可以在单一 TAR 模型或翻译工作流中保留各自的原始语言。相反，如果仅有某些特定语言是审查重点，且这些语言对应的数据量较为可观，则采用针对特定语言的模型可能更加合理。

多语言 TAR 模型：实现高效审查的关键考量

在评估是否采用多语言模型时，案件团队应综合考虑 SME 的可用性及语言能力、数据构成以及文件数量，并据此完成成本与收益分析。

由具备语言能力的 SME 进行原文审查：该方案由熟练掌握相关语言的 SME 直接审查对应语言的文件。该方式在单模型方案中争议最小，但现实中往往难以找到既懂案件核心问题、又熟练掌握特定语言的 SME。此外，为模型训练获取足够数量的非英文样本，可能会显著增加 SME 的总体工作量。
为 SME 审查目的进行翻译：该方案将文件仅翻译为英文供 SME 审查，但 TAR 模型仍基于原始语言文本进行训练，依赖系统对语言的无关性（language agnosticism）。该方式的前期翻译成本最低，但如果非英文数据量较少，可能难以为模型训练提炼足够的特征。此外，翻译过程中也可能存在语境或细节信息的损失。
为模型训练进行翻译：该方案将文件翻译为英文，并将译文直接纳入 TAR 模型训练。通过将所有文档统一为单一语言，该方式可显著降低模型训练难度，简化特征提取流程，同时让 SME 在熟悉的语言环境下判断文件相关性，从而提升整体审查效率和一致性。但其前期翻译成本最高，同时仍需关注翻译可能导致语境偏差的问题。

语言专用模型的适用场景与考量因素

当多语言模型无法满足审查需求时，案件团队可考虑采用语言专用模型。这类模型在捕捉语言细微差异方面通常更具优势，特别是在语法或句法复杂的语言环境中，有助于降低误读和语境丢失的风险。然而，这一方案也存在明显的挑战。首先，寻找合适的 SME 通常成本高昂、周期较长；其次，如果 SME 对案件背景不够熟悉，可能会导致编码标准不一致。此外，每增加一种语言模型，就意味着需要分别进行训练、验证和指标管理，这会显著增加 SME 的工作负担和项目资源压力。因此，虽然语言专用模型在理论上可提升准确性，但其边际收益往往不足以抵消运营复杂性。实践中，案件团队往往更倾向于选择具备合理多语言处理能力的模型，以在控制成本的同时简化整体审查流程。

多语言 TAR 电子证据开示的实践启示

在多语言审查中，最优方案往往是对数据构成和复杂度（包括语言种类及数据量）与可用资源、时间限制之间的平衡。通过尽早识别语言范围、规划模型训练和审查策略、明确非英文文本的处理和交付方式，并在项目初期选择合适的方法，企业可以有效应对多语言数据带来的复杂挑战，降低后期风险并避免不必要的返工成本。多语言数据并不存在放之四海而皆准的解决方案。案件团队应与专业顾问合作，根据具体数据特征、项目目标和优先级，制定量身定制的审查策略。

尽管传统 TAR 为多语言数据提供了结构化处理路径，但新一代工具正在不断拓展可能性。在后续文章中，我们将进一步探讨生成式人工智能如何重塑多语言审查模式。

Desiree Marek，数据分析顾问，反垄断业务，Epiq
Desiree Marek 是 Epiq 先进技术团队的数据分析顾问，专注于政府调查相关业务。她与外部律师及审查团队密切合作，就技术辅助审查（TAR）的最佳实践和可选方案提供专业咨询。

Desiree 拥有超过二十年的电子证据开示（eDiscovery）行业经验。她于 2020 年加入 Epiq，此前曾就职于两家大型 eDiscovery 服务商，并曾在一家全球性律师事务所的内部团队任职。她拥有蒙大拿大学的学士和硕士学位，并取得多项 eDiscovery 相关专业认证。

Desiree 在蒙大拿州山区长大，目前居住于华盛顿州西北部。

本文的内容仅旨在传达一般信息，不提供法律建议或意见。

Subscribe to Future Blog Posts

Advice
Contracts Solutions
3 Mins

Advice
Regulatory & Compliance
3 Mins

Advice
eDiscovery
3 Mins

服务

产品与技术

Epiq Access

Epiq简介

Epiq 博客和案例研究