Angle

Effizientes und effektives eDiscovery durch kontinuierliches aktives Lernen (CAL)

eDiscovery
3 Mins

Bei der Überprüfung von Dokumenten wird heute meist eine Form der technologiegestützten Überprüfung (TAR) eingesetzt. TAR verwendet Computersoftware, um Dokumente auf der Grundlage einer menschlichen Überprüfung einer Teilmenge von Dokumenten aus der Sammlung als relevant oder nicht relevant zu kategorisieren. TAR bietet die Möglichkeit, Dokumente auf einer Skala von höchstwahrscheinlich bis unwahrscheinlich zu priorisieren, so dass menschliche Prüfer eine immer kleiner werdende Menge von Dokumenten manuell prüfen können.

Auch wenn Anwälte befürchten, dass bei der computergestützten Durchsicht elektronisch gespeicherter Informationen (ESI) keine relevanten Dokumente gefunden werden, zeigen Studien, die die manuelle Durchsicht mit TAR vergleichen, dass TAR überlegen ist, vorausgesetzt, der zugrunde liegende Algorithmus wurde richtig kodiert und trainiert.

Die Liste des kontinuierlichen aktiven Lernens sieht aus wie die einer Suchmaschine

Die meisten TAR-Tools verwenden überwachtes maschinelles Lernen, um ihre Arbeit zu erledigen. Beim überwachten maschinellen Lernen ordnet ein Computeralgorithmus eine Dokumentensammlung ein, indem er sie im Hinblick auf die Merkmale von Trainingsdokumenten analysiert. Die für TAR verwendeten Lernalgorithmen sind nicht zu verwechseln mit den Algorithmen des unüberwachten maschinellen Lernens, die für das Clustering, die Erkennung von Beinahe-Duplikaten und die latente semantische Indizierung verwendet werden und die keine Eingaben vom Benutzer erhalten und die Dokumente nicht einordnen oder klassifizieren.

Beim überwachten maschinellen Lernen lernen die "Lerner" (Computer) anhand von Trainingsbeispielen, wie sie relevante von nicht relevanten Dokumenten unterscheiden können. Die Trainingsbeispiele bestehen aus Dokumenten, die ein menschlicher Lehrer zuvor als relevant oder nicht relevant eingestuft hat.

Drei Arten der technologiegestützten Überprüfung in eDiscovery

Bei der TAR wird in der Regel eines von drei Protokollen verwendet: SAL (einfaches aktives Lernen), SPL (einfaches passives Lernen) oder CAL (kontinuierliches aktives Lernen). CAL ist einfacher als SAL und SPL, da bei CAL keine sorgfältige Erstellung von Startsätzen erforderlich ist, nicht bestimmt werden muss, wann das Training zu beenden ist, und keine Auswahl und Überprüfung von großen zufälligen Kontrollsätzen, Trainingssätzen oder Validierungssätzen erforderlich ist.

Nachdem ein Computer, der CAL verwendet, mit dem anfänglichen Trainingsset in Berührung gekommen ist, wählt er wiederholt die nächstwahrscheinlich relevanten Dokumente zur Überprüfung, Codierung und zum Training aus und fährt damit fort, bis er keine weiteren relevanten Dokumente mehr finden kann. CAL ähnelt einer Internet-Suchmaschine, da es dem Nutzer die Dokumente in der Reihenfolge der wahrscheinlichsten bis unwahrscheinlichsten Relevanz präsentiert. Während der Arbeit verfeinert CAL seinen Entscheidungsprozess darüber, welche der Dokumente am wahrscheinlichsten relevant sind, auf der Grundlage des Feedbacks des Nutzers.

CAL spart Zeit und Geld

Untersuchungen, die CAL mit anderen Methoden des überwachten maschinellen Lernens vergleichen, zeigen, dass CAL eine bessere Effizienz und Effektivität erzielt. Vergleiche zeigen, dass ein Prüfungsteam mit anderen Protokollen als CAL wesentlich mehr Dokumente durchsehen müsste. In einem Beispiel müssten 50.000 Dokumente mehr manuell geprüft werden. Geht man davon aus, dass die Kosten für die Überprüfung 1 Dollar pro Dokument betragen, würde CAL Einsparungen in Höhe von 50.000 Dollar ermöglichen.

Vorausgesetzt, es werden die richtigen Algorithmen verwendet, die dem TAR-Tool zugrunde liegen, erzielt CAL bessere Ergebnisse bei geringerem Prüfaufwand als die anderen Protokolle.

Klicken Sie hier, um weitere eDiscovery TAR-Erfolgsgeschichten zu lesen.

Der Inhalt dieses Artikels dient nur der allgemeinen Information und stellt keine Rechtsberatung oder -meinung dar.

Der Inhalt dieses Artikels dient lediglich der allgemeinen Information und stellt keine Rechtsberatung dar.

Subscribe to Future Blog Posts

Article
Depositions and Trials
3 Mins

Article
Cyber Breach
3 Mins

Article
3 Minuten

Lösungen

Industrien

Technologien

Epiq Access

Über uns

Ressourcen-Center