

Advice
Estratégias de revisão para dados multilíngues em revisões assistidas por tecnologia
- Document Review Services
- 3 mins
O crescente panorama digital apresenta uma complexidade cada vez maior para as equipes jurídicas que gerenciam dados multilíngues durante investigações e litígios. A diversidade crescente de idiomas pode afetar a precisão e a eficiência da revisão de documentos, especialmente ao treinar modelos para fluxos de trabalho de revisão assistida por tecnologia (TAR). Para navegar pela revisão multilíngue de maneira eficaz, as equipes responsáveis pelos casos precisam ter uma compreensão clara das ferramentas e estratégias disponíveis.
A Aprendizagem Ativa Simples (SAL) continua a ser a abordagem fundamental e, muitas vezes, necessária para muitas revisões de documentos. Ao contrário da IA generativa, que depende de grandes modelos de linguagem (LLMs) para obter conhecimento especializado sobre o assunto, a abordagem SAL depende de um especialista no assunto (SME) para treinar um modelo de classificação binária. O treinamento de modelos TAR torna-se mais complexo quando há dados multilíngues envolvidos, pois os SMEs devem compreender as questões jurídicas em questão e ser fluentes nos idiomas presentes no conjunto de dados. Se os SMEs não tiverem fluência em um ou mais idiomas, as equipes do caso devem considerar etapas adicionais para garantir o manuseio adequado dos dados.
A detecção precoce de dados multilíngues impulsiona uma revisão TAR defensável
Identificar se os custodiantes se comunicam em vários idiomas é uma etapa crítica para ajudar a mitigar riscos posteriores, evitar retrabalhos dispendiosos e garantir que os fluxos de trabalho de revisão sejam precisos e defensáveis. As coletas de dados muitas vezes trazem surpresas, tornando a identificação precoce do idioma essencial para um projeto de revisão informado e eficaz. As entrevistas com os custodiantes ajudam a identificar as fontes de dados e os métodos de comunicação, mas muitas vezes deixam lacunas. Ao avaliar proativamente a prevalência e o escopo dos dados multilíngues dentro do universo de revisão, uma equipe de caso pode conduzir uma discussão informada sobre o treinamento do modelo e o planejamento da revisão para alinhar as expectativas com a parte solicitante, estabelecer e controlar custos e reduzir riscos.
Opções para revisão multilíngue em fluxos de trabalho TAR
Ao usar um fluxo de trabalho TAR padrão, há duas opções principais para lidar com conteúdo que não seja em inglês: um modelo multilíngue ou um modelo específico para cada idioma. Se a revisão envolver poucos idiomas com baixo volume de dados em cada um, um modelo multilíngue pode ser uma solução prática, preservando os idiomas nativos em um único modelo TAR ou fluxo de trabalho de tradução. Alternativamente, se apenas determinados idiomas forem de interesse e seu volume for significativo, pode ser prático considerar um modelo específico para cada idioma.
Modelos TAR multilíngues: considerações importantes para revisões mais inteligentes
Para avaliar se uma abordagem de modelo multilíngue é apropriada, as equipes responsáveis pelo caso devem considerar a disponibilidade e fluência em idiomas dos especialistas no assunto, a composição dos dados e o volume de documentos para informar uma análise de custo-benefício.
-
Revisão por especialistas fluentes: essa opção envolve a revisão de documentos por especialistas fluentes em seus respectivos idiomas. Embora seja a opção menos controversa e de modelo único, pode ser difícil encontrar especialistas fluentes com conhecimento sobre os assuntos. Da mesma forma, a revisão de um número suficiente de documentos de treinamento em um idioma específico pode exigir mais trabalho total dos especialistas.
-
Tradução para revisão por SME: essa opção envolve a tradução de documentos para o inglês apenas para revisão por SME, deixando o texto no modelo no(s) idioma(s) nativo(s) e contando com a independência de idioma da ferramenta. Essa opção tem o custo inicial de tradução mais baixo; no entanto, se o volume de conteúdo que não está em inglês for baixo, pode ser difícil encontrar recursos suficientes para o treinamento do modelo. Além disso, é possível que algum contexto seja perdido na tradução.
-
Tradução para treinamento do modelo: essa opção envolve a tradução de documentos para o inglês e a adição do texto traduzido ao modelo para treinamento. O uso de texto traduzido em um modelo TAR pode reduzir significativamente a carga de treinamento, padronizando todos os documentos para um único idioma, o que simplifica o processo de extração de recursos. Essa abordagem também facilita uma revisão mais consistente, permitindo que os especialistas avaliem os documentos em um idioma familiar, aumentando assim a eficiência e a precisão geral do processo de revisão. No entanto, ela tem o maior custo inicial de tradução e preocupações semelhantes em relação à possibilidade de perda de contexto.
Considerações e opções específicas do modelo linguístico
Quando um modelo multilíngue é insuficiente, as equipes de caso podem considerar uma solução específica para cada idioma. Esses modelos podem oferecer maior precisão ao capturar melhor as nuances linguísticas, especialmente em idiomas com gramática ou sintaxe complexas. Eles também ajudam a reduzir o risco de interpretações errôneas e perda de contexto durante a tradução. No entanto, existem desvantagens. Contratar especialistas no assunto (SMEs) costuma ser caro e demorado, e podem surgir inconsistências de codificação se esses SMEs não estiverem familiarizados com as questões. A carga de treinamento e validação também é multiplicada para cada modelo, aumentando a carga de trabalho dos SMEs e sobrecarregando os recursos com o gerenciamento de conjuntos distintos de métricas. Portanto, embora um modelo específico para cada idioma possa melhorar o processo geral de revisão, os ganhos marginais em precisão podem não justificar a carga operacional, e as equipes responsáveis pelos casos frequentemente consideram que é mais eficiente e econômico escolher um modelo que possa lidar com vários idiomas com precisão razoável, reduzindo assim os custos e simplificando o processo de revisão.
Considerações finais sobre a análise automática de texto multilingue no eDiscovery
Escolher a melhor abordagem para a revisão multilíngue é muitas vezes um ato de equilibrar a composição e a complexidade dos dados (ou seja, o escopo e o volume dos idiomas) com os recursos e as restrições de tempo. Ao identificar o escopo do idioma, planejar o treinamento e a revisão do modelo, discutir o manuseio e a produção de textos em idiomas diferentes do inglês e escolher a abordagem apropriada desde o início, as organizações podem navegar pelas complexidades dos dados multilíngues para mitigar os riscos a jusante e evitar retrabalhos dispendiosos. Não existe uma solução universal para dados multilíngues. As equipes responsáveis pelos casos devem contratar um consultor para personalizar uma abordagem alinhada com seus dados, prioridades e objetivos específicos.
Embora o TAR tradicional ofereça uma abordagem estruturada para dados multilíngues, as ferramentas emergentes estão redefinindo o que é possível. Em publicações futuras, exploraremos como a IA generativa está transformando a revisão multilíngue.
Saiba mais sobre os serviços de revisão de documentos da Epiq.

Desiree Marek, Consultora de Análise, Antitruste, Epiq
Desiree Marek é Consultora de Análise para Tecnologias Avançadas na Epiq, especializada em investigações governamentais. Ela trabalha em parceria com consultores externos e equipes de revisão para prestar consultoria sobre as melhores práticas e opções para revisão assistida por tecnologia (TAR).
Desiree tem mais de duas décadas de experiência em eDiscovery. Antes de ingressar na Epiq em 2020, ela trabalhou para dois grandes fornecedores de eDiscovery e internamente para um escritório de advocacia global. Desiree é bacharel e mestre pela Universidade de Montana e possui uma ampla gama de certificações em eDiscovery.
Desiree cresceu nas montanhas de Montana e atualmente reside no noroeste de Washington.
O conteúdo deste artigo é destinado apenas a fornecer informações gerais e não a oferecer aconselhamento ou opiniões jurídicas.