Skip to Content (custom)

Advice

Pink and blue text bubbles over purple background

Überprüfungsstrategien für mehrsprachige Daten in der technologiegestützten Überprüfung

  • Document Review Services
  • 3 mins

Die wachsende digitale Landschaft stellt Rechtsabteilungen, die im Rahmen von Ermittlungen und Rechtsstreitigkeiten mehrsprachige Daten verwalten, vor immer größere Herausforderungen. Die zunehmende Sprachenvielfalt kann sich auf die Genauigkeit und Effizienz der Dokumentenprüfung auswirken, insbesondere bei der Schulung von Modellen für technologiegestützte Prüfungsabläufe (TAR). Um mehrsprachige Prüfungen effektiv durchführen zu können, müssen die mit den Fällen befassten Teams über ein klares Verständnis der verfügbaren Tools und Strategien verfügen.

Einfaches aktives Lernen (SAL) ist nach wie vor der grundlegende und oft erforderliche Ansatz für viele Dokumentenprüfungen. Im Gegensatz zur generativen KI, die sich für Fachwissen auf große Sprachmodelle (LLMs) stützt, basiert ein SAL-Ansatz auf einem Fachexperten (SME), der ein binäres Klassifizierungsmodell trainiert. Das Training von TAR-Modellen wird komplexer, wenn mehrsprachige Daten involviert sind, da die Fachexperten sowohl die rechtlichen Fragen verstehen als auch die in den Datensätzen vorkommenden Sprachen fließend beherrschen müssen. Wenn Fachexperten eine oder mehrere Sprachen nicht fließend beherrschen, müssen die Fallteams zusätzliche Schritte in Betracht ziehen, um eine ordnungsgemäße Verarbeitung der Daten sicherzustellen.

Die frühzeitige Erkennung mehrsprachiger Daten ermöglicht eine vertretbare TAR-Prüfung

Die Feststellung, ob die Datenverwalter in mehreren Sprachen kommunizieren, ist ein wichtiger Schritt, um nachgelagerte Risiken zu mindern, kostspielige Nacharbeiten zu vermeiden und sicherzustellen, dass die Prüfungsabläufe sowohl genau als auch vertretbar sind. Datenerfassungen bergen oft Überraschungen, weshalb eine frühzeitige Sprachidentifizierung für eine fundierte und effektive Überprüfungsgestaltung unerlässlich ist. Befragungen von Verwahrern helfen dabei, Datenquellen und Kommunikationsmethoden zu identifizieren, lassen jedoch oft Lücken offen. Durch die proaktive Bewertung der Verbreitung und des Umfangs mehrsprachiger Daten innerhalb des Überprüfungsuniversums kann ein Fallteam eine fundierte Diskussion über Modellschulungen und Überprüfungsplanungen führen, um die Erwartungen mit der anfragenden Partei abzustimmen, Kosten festzulegen und zu kontrollieren sowie Risiken zu reduzieren. 

Optionen für die mehrsprachige Überprüfung innerhalb von TAR-Workflows

Bei Verwendung eines Standard-TAR-Workflows gibt es zwei Hauptoptionen für die Bearbeitung nicht-englischer Inhalte: ein mehrsprachiges Modell oder ein sprachspezifisches Modell. Wenn die Überprüfung nur wenige Sprachen mit geringem Datenvolumen umfasst, kann ein mehrsprachiges Modell eine praktische Lösung sein, da die Originalsprachen in einem einzigen TAR-Modell oder Übersetzungs-Workflow beibehalten werden. Wenn hingegen nur bestimmte Sprachen von Interesse sind und deren Volumen erheblich ist, kann es sinnvoll sein, ein sprachspezifisches Modell in Betracht zu ziehen.

Mehrsprachige TAR-Modelle: Wichtige Überlegungen für intelligentere Überprüfungen

Um zu beurteilen, ob ein mehrsprachiger Modellansatz geeignet ist, sollten die Fallteams die Verfügbarkeit von Fachexperten und deren Sprachkenntnisse, die Zusammensetzung der Daten und das Dokumentenvolumen berücksichtigen, um eine Kosten-Nutzen-Analyse durchzuführen.

  1. Überprüfung durch fließend sprechende Fachexperten: Bei dieser Option überprüfen fließend sprechende Fachexperten Dokumente in ihrer jeweiligen Sprache. Dies ist zwar die am wenigsten umstrittene Option mit einem einzigen Modell, jedoch kann es schwierig sein, einen fließend sprechenden Fachexperten mit Kenntnissen zu den jeweiligen Themen zu finden. Ebenso kann die Überprüfung einer ausreichenden Anzahl von Schulungsdokumenten in einer bestimmten Sprache für die Fachexperten einen höheren Arbeitsaufwand bedeuten.
  2. Übersetzung zur Überprüfung durch SMEs: Bei dieser Option werden Dokumente ausschließlich zur Überprüfung durch SMEs ins Englische übersetzt, wobei der Text im Modell in der/den Originalsprache(n) belassen wird und man sich auf die Sprachunabhängigkeit des Tools verlässt. Diese Option hat die geringsten Vorabkosten für die Übersetzung. Wenn jedoch das Volumen der nicht-englischen Inhalte gering ist, könnte es schwierig sein, genügend Merkmale für das Modelltraining zu finden. Außerdem ist es möglich, dass bei der Übersetzung ein Teil des Kontexts verloren geht. 
  3. Übersetzung für das Modelltraining: Bei dieser Option werden Dokumente ins Englische übersetzt und der übersetzte Text dem Modell für das Training hinzugefügt. Die Verwendung von übersetztem Text in einem TAR-Modell kann den Trainingsaufwand erheblich senken, da alle Dokumente auf eine einzige Sprache standardisiert werden, was den Prozess der Merkmalsextraktion vereinfacht. Dieser Ansatz erleichtert auch eine konsistentere Überprüfung, da Fachexperten Dokumente in einer ihnen vertrauten Sprache bewerten können, wodurch die Gesamteffizienz und Genauigkeit des Überprüfungsprozesses verbessert wird. Allerdings sind die Vorabkosten für die Übersetzung am höchsten und es bestehen ähnliche Bedenken hinsichtlich des Potenzials für Kontextverluste. 

Sprachspezifische Modellüberlegungen und Optionen

Wenn ein mehrsprachiges Modell nicht ausreicht, können Fallteams eine sprachspezifische Lösung in Betracht ziehen. Diese Modelle können eine verbesserte Genauigkeit bieten, indem sie sprachliche Nuancen besser erfassen, insbesondere in Sprachen mit komplexer Grammatik oder Syntax. Sie tragen auch dazu bei, das Risiko von Fehlinterpretationen und Kontextverlusten während der Übersetzung zu verringern. Allerdings gibt es auch Nachteile. Die Suche nach Fachexperten ist oft kostspielig und zeitaufwändig, und es kann zu Inkonsistenzen bei der Kodierung kommen, wenn diese Fachexperten mit den Themen nicht vertraut sind. Der Aufwand für Schulung und Validierung vervielfacht sich zudem für jedes Modell, was die Arbeitsbelastung der Fachexperten erhöht und die Ressourcen durch die Verwaltung unterschiedlicher Metriken belastet. Daher kann ein sprachspezifisches Modell zwar den gesamten Überprüfungsprozess verbessern, doch rechtfertigen die marginalen Gewinne an Genauigkeit möglicherweise nicht den operativen Aufwand, und Fallteams stellen oft fest, dass es effizienter und wirtschaftlicher ist, ein Modell zu wählen, das mehrere Sprachen mit angemessener Genauigkeit verarbeiten kann, wodurch Kosten gesenkt und der Überprüfungsprozess vereinfacht werden.

Abschließende Erkenntnisse für mehrsprachige TAR in eDiscovery

Die Wahl des besten Ansatzes für die mehrsprachige Überprüfung ist oft ein Balanceakt zwischen der Zusammensetzung und Komplexität der Daten (d. h. dem Umfang und Volumen der Sprachen) und den Ressourcen- und Zeitbeschränkungen. Durch die Ermittlung des Sprachumfangs, die Planung des Modelltrainings und der Überprüfung, die Erörterung der Handhabung und Produktion von nicht-englischen Texten und die frühzeitige Wahl des geeigneten Ansatzes können Unternehmen die Komplexität mehrsprachiger Daten bewältigen, um nachgelagerte Risiken zu mindern und kostspielige Nacharbeiten zu vermeiden. Es gibt keine universelle Lösung für mehrsprachige Daten. Die Fallteams sollten einen Berater hinzuziehen, um einen Ansatz zu entwickeln, der auf ihre spezifischen Daten, Prioritäten und Ziele zugeschnitten ist.

Während traditionelle TAR einen strukturierten Ansatz für mehrsprachige Daten bietet, verändern neue Tools die Möglichkeiten. In zukünftigen Beiträgen werden wir untersuchen, wie generative KI die mehrsprachige Überprüfung verändert.

Erfahren Sie mehr über die Review von Dokumenten-Dienste von Epiq.

Desiree Marek
Desiree Marek, Analytics Consultant, Kartellrecht, Epiq 
Desiree Marek ist Analytics Consultant für Advanced Technologies bei Epiq und auf behördliche Ermittlungen spezialisiert. Sie arbeitet mit externen Rechtsberatern und Review-Teams zusammen, um sie zu Best Practices und Optionen für technologiegestützte Reviews (TAR) zu beraten. 

Desiree verfügt über mehr als zwei Jahrzehnte Erfahrung im Bereich eDiscovery. Bevor sie 2020 zu Epiq kam, arbeitete sie für zwei große eDiscovery-Anbieter und intern für eine globale Anwaltskanzlei. Desiree hat einen Bachelor- und Master-Abschluss der University of Montana und verfügt über eine Vielzahl von eDiscovery-Zertifizierungen.

Desiree wuchs in den Bergen von Montana auf und lebt derzeit im Nordwesten Washingtons. 
 

Der Inhalt dieses Artikels dient lediglich der allgemeinen Information und stellt keine Rechtsberatung dar.

Subscribe to Future Blog Posts

Related

Related

Related