Skip to Content (custom)

Pink and blue text bubbles over purple background

Stratégies d'examen des données multilingues dans le cadre de l'examen assisté par la technologie

  • Document Review Services
  • 3 mins

L'évolution du paysage numérique rend de plus en plus complexe la tâche des équipes juridiques chargées de gérer des données multilingues dans le cadre d'enquêtes et de litiges. La diversité croissante des langues peut avoir une incidence sur la précision et l'efficacité de l'examen des documents, en particulier lors de la formation des modèles pour les flux de travail d'examen assisté par la technologie (TAR). Pour mener à bien un examen multilingue, les équipes chargées des dossiers doivent bien comprendre les outils et les stratégies disponibles.

L'apprentissage actif simple (SAL) reste l'approche fondamentale, et souvent requise, pour de nombreuses révisions de documents. Contrairement à l'IA générative, qui s'appuie sur de grands modèles linguistiques (LLM) pour l'expertise en la matière, l'approche SAL s'appuie sur un expert en la matière (SME) pour former un modèle de classification binaire. La formation des modèles TAR devient plus complexe lorsque des données multilingues sont impliquées, car les SME doivent à la fois comprendre les questions juridiques en jeu et maîtriser les langues présentes dans l'ensemble de données. Si les SME ne maîtrisent pas une ou plusieurs langues, les équipes chargées des dossiers doivent envisager des mesures supplémentaires pour garantir un traitement approprié des données
.

La détection précoce des données multilingues favorise un examen TAR défendable

Déterminer si les dépositaires communiquent dans plusieurs langues est une étape cruciale pour aider à atténuer les risques en aval, éviter des retouches coûteuses et garantir que les flux de travail de révision sont à la fois précis et défendables. Les collectes de données réservent souvent des surprises, ce qui rend l'identification précoce des langues essentielle pour une conception éclairée et efficace de la révision. Les entretiens avec les dépositaires aident à identifier les sources de données et les méthodes de communication, mais ils laissent souvent des lacunes. En évaluant de manière proactive la prévalence et la portée des données multilingues dans l'univers de révision, une équipe chargée d'une affaire peut mener une discussion éclairée sur la formation des modèles et la planification de la révision afin d'aligner les attentes avec la partie requérante, d'établir et de contrôler les coûts et de réduire les risques.  

Options de révision multilingue dans les flux de travail TAR

Lorsqu'on utilise un flux de travail TAR standard, il existe deux options principales pour traiter le contenu non anglais : un modèle multilingue ou un modèle spécifique à une langue. Si l'examen porte sur un petit nombre de langues avec un faible volume de données pour chacune d'entre elles, un modèle multilingue peut être une solution pratique, permettant de conserver les langues natives dans un seul modèle TAR ou flux de travail de traduction. À l'inverse, si seules certaines langues présentent un intérêt et que leur volume est important, il peut être judicieux d'envisager un modèle spécifique à une langue.

Modèles TAR multilingues : considérations clés pour des examens plus intelligents

Pour évaluer si une approche multilingue est appropriée, les équipes chargées des dossiers doivent tenir compte de la disponibilité et de la maîtrise linguistique des experts, de la composition des données et du volume des documents afin d'étayer une analyse coûts-avantages.

  1. Révision par des experts linguistiques : cette option consiste à faire réviser les documents dans leur langue respective par des experts linguistiques. Bien qu'il s'agisse de l'option la moins controversée, car elle repose sur un modèle unique, il peut être difficile de trouver des experts linguistiques compétents et connaissant bien les sujets traités. De même, la révision d'un nombre suffisant de documents de formation dans une langue spécifique peut nécessiter un travail supplémentaire pour les experts linguistiques.
  2. Traduction pour révision par les experts : cette option consiste à traduire les documents en anglais uniquement pour révision par les experts, en laissant le texte du modèle dans la ou les langues d'origine et en s'appuyant sur l'agnosticisme linguistique de l'outil. Cette option présente le coût de traduction initial le moins élevé ; cependant, si le volume de contenu non anglais est faible, il peut être difficile de faire ressortir suffisamment de caractéristiques pour l'entraînement du modèle. De plus, il est possible que certains éléments de contexte soient perdus lors de la traduction.  
  3. Traduction pour la formation du modèle : cette option consiste à traduire les documents en anglais et à ajouter le texte traduit au modèle pour la formation. L'utilisation de texte traduit dans un modèle TAR peut réduire considérablement la charge de formation en normalisant tous les documents dans une seule langue, ce qui simplifie le processus d'extraction des caractéristiques. Cette approche facilite également un examen plus cohérent en permettant aux experts du domaine d'évaluer les documents dans une langue familière, améliorant ainsi l'efficacité et la précision globales du processus d'examen. Cependant, elle présente le coût de traduction initial le plus élevé et soulève des préoccupations similaires concernant le risque de perte de contexte. 

 

Considérations et options relatives aux modèles spécifiques à une langue

Lorsqu'un modèle multilingue s'avère insuffisant, les équipes chargées des dossiers peuvent envisager une solution spécifique à une langue. Ces modèles peuvent offrir une meilleure précision en capturant mieux les nuances linguistiques, en particulier dans les langues dont la grammaire ou la syntaxe est complexe. Ils contribuent également à réduire le risque d'interprétation erronée et de perte de contexte lors de la traduction. Cependant, ils présentent également des inconvénients. Le recours à des experts en la matière est souvent coûteux et prend beaucoup de temps, et des incohérences de codage peuvent survenir si ces experts ne sont pas familiarisés avec les questions traitées. La charge de formation et de validation est également multipliée pour chaque modèle, ce qui augmente la charge de travail des experts et sollicite les ressources avec la gestion d'ensembles distincts de mesures. Par conséquent, si un modèle spécifique à une langue peut améliorer le processus de révision global, les gains marginaux en termes de précision peuvent ne pas justifier la charge opérationnelle, et les équipes chargées des dossiers trouvent souvent qu'il est plus efficace et plus économique de choisir un modèle capable de traiter plusieurs langues avec une précision raisonnable, ce qui réduit les coûts et simplifie le processus de révision.

Conclusions finales sur le TAR multilingue dans l'eDiscovery

Choisir la meilleure approche pour la révision multilingue revient souvent à trouver un équilibre entre la composition et la complexité des données (c'est-à-dire la portée et le volume des langues) et les contraintes en termes de ressources et de temps. En identifiant la portée linguistique, en planifiant la formation et l'examen des modèles, en discutant du traitement et de la production des textes non anglais et en choisissant rapidement l'approche appropriée, les organisations peuvent naviguer dans les complexités des données multilingues afin d'atténuer les risques en aval et d'éviter des retouches coûteuses. Il n'existe pas de solution universelle pour les données multilingues. Les équipes chargées des dossiers doivent faire appel à un consultant afin d'élaborer une approche adaptée à leurs données, leurs priorités et leurs objectifs spécifiques.

Si le TAR traditionnel offre une approche structurée des données multilingues, les nouveaux outils redéfinissent les possibilités. Dans de prochains articles, nous explorerons comment l'IA générative transforme la révision multilingue.

En savoir plus sur les Services de Revue de document d'Epiq.

Desiree Marek
Desiree Marek, consultante en analyse, Antitrust, Epiq 
Desiree Marek est consultante en analyse pour les technologies avancées chez Epiq, spécialisée dans les enquêtes gouvernementales. Elle collabore avec des avocats externes et des équipes d'examen pour fournir des conseils sur les meilleures pratiques et les options en matière d'examen assisté par la technologie (TAR). 

Desiree a plus de vingt ans d'expérience dans le domaine de l'eDiscovery. Avant de rejoindre Epiq en 2020, elle a travaillé pour deux grands fournisseurs d'eDiscovery et en interne pour un cabinet d'avocats international. Desiree est titulaire d'une licence et d'une maîtrise de l'université du Montana et possède de nombreuses certifications en eDiscovery.

Desiree a grandi dans les montagnes du Montana et réside actuellement dans le nord-ouest de l'État de Washington. 


Cet article est destiné à fournir des informations générales et non des conseils ou des avis juridiques.

Subscribe to Future Blog Posts