Skip to Content (custom) - bh

Angle

Por que a pontuação de confiança com LLMs é perigosa

O que saber antes de confiar na pontuação de confiança dos LLMs em um ambiente de revisão de documentos.
 

Quando se trata de avaliações de confiança de LLMs, as previsões de pontuação são essenciais. O mais importante não são as pontuações em si, mas a classificação resultante que essas pontuações produzem.

Quando o nosso modelo (TAR 1.0, TAR 2.0, CAL ou LLM) dá uma pontuação, classificamos os exemplos e traçamos uma linha de corte: 

Decidimos sobre a capacidade de resposta de cada documento desenhando uma linha para separar o que o modelo chamaria de Responsivo e Não Responsivo. A separação resultante ocasionalmente apresentaria erros, sejam eles falsos positivos ou falsos negativos.



Quando alteramos o limite de pontuação, obtemos resultados e taxas de erro diferentes. Por exemplo, a inclusão pode gerar mais falsos positivos, mas perder menos falsos negativos, uma troca que devemos aceitar como parte do uso de qualquer modelo de aprendizado de máquina. Não existe uma resposta correta; em vez disso, é um julgamento de valor.

Predicted Not Responsive vs. Predicted Responsive
O processo descrito acima tem sido padrão desde que a TAR existe. Desde que um modelo nos forneça uma pontuação de algum tipo, o método acima pode ser usado para fazer previsões. 

A única diferença entre os modelos TAR e os LLMs é que as pontuações obtidas de um LLM não são determinísticas. Executar o mesmo modelo repetidamente com os mesmos dados exatos resultaria em pontuações diferentes e, portanto, em uma classificação diferente.

Por exemplo, ao solicitar uma pontuação repetidamente a um modelo TAR, esperaríamos algo assim:


Por outro lado, pedir uma pontuação a um LLM seria mais ou menos assim:



Como pontuações diferentes resultariam em classificações diferentes, toda vez que você pedir previsões a um LLM, também esperará métricas de desempenho diferentes, como recall e precisão.

Qual é a solução?

Mencionamos anteriormente que a única maneira de aumentar a consistência da previsão de um modelo é calcular a média das próprias previsões ou das pontuações, por exemplo, solicitando repetidamente ao LLM a pontuação do mesmo documento e calculando a média dos resultados. Com um número suficiente de consultas, a média convergiria para a pontuação de previsão verdadeira e se estabilizaria, parecendo mais próxima da determinística, como nos modelos tradicionais.

O problema que esse método apresentaria é que repetir uma consulta a um LLM muitas vezes é impraticável, especialmente com algo como o GPT-4, em que os custos costumam ser proibitivos.

Quais são as consequências?

Vejamos o que acontece quando simplesmente confiamos no resultado de confiança de um LLM como ele é.

Para ilustrar as consequências, comparamos a curva Precisão-Recall do modelo determinístico e do modelo com ruído em suas previsões, como um LLM.

Para simular isso, pegamos um conjunto hipotético de pontuações e adicionamos algum ruído a elas. Em seguida, comparamos as curvas de precisão-recall:



Se o modelo ruidoso (ou seja, um LLM) for executado várias vezes nos mesmos dados e suas pontuações forem calculadas, a precisão e a recuperação se aproximarão das de um modelo determinístico, ou seja, a curva azul. No entanto, ao depender de uma única execução de suas previsões (a curva vermelha), o desempenho é prejudicado, sempre subestimando o verdadeiro desempenho do modelo. No exemplo acima, o desempenho pode ser relatado como sendo até a metade do que realmente é.

Quais são as implicações práticas?

Na prática, quando você observa a curva Precision-Recall de um LLM (a curva vermelha acima), tudo o que você vê é um desempenho insuficiente e não sabe a causa. O instinto é melhorar o desempenho do modelo, talvez ajustando os prompts ou adicionando alguns exemplos.

Nesse caso — todo esse esforço seria em vão. A lacuna de desempenho não se deve ao fato de o modelo em si não ser bom o suficiente, mas ao fato de sua natureza não determinística subestimar o desempenho do modelo. A única maneira de fechar essa lacuna de desempenho é solicitar pontuações ao LLM várias vezes e calcular a média de suas previsões. 

Considerando que você não executará o modelo 10 vezes em cada documento simplesmente por motivos de custo e tempo, há alguma solução para garantir que o desempenho do modelo seja relatado com precisão? A resposta é sim — analisaremos esse assunto em nossa próxima postagem no blog. Fique ligado!


Igor Labutov

Igor Labutov, vice-presidente, Epiq AI Labs 

Igor Labutov é vice-presidente da Epiq e co-lidera o Epiq AI Labs. Igor é um cientista da computação com grande interesse no desenvolvimento de algoritmos de aprendizado de máquina que aprendem com a supervisão humana natural, como a linguagem natural. Ele tem mais de 10 anos de experiência em pesquisa em Inteligência Artificial e Aprendizado de Máquina. Labutov obteve seu Ph.D. em Cornell e foi pesquisador de pós-doutorado na Carnegie Mellon, onde realizou pesquisas pioneiras na interseção de IA centrada no ser humano e aprendizado de máquina. Antes de ingressar na Epiq, Labutov foi cofundador da LAER AI, onde aplicou sua pesquisa para desenvolver tecnologia transformadora para o setor jurídico. 

O conteúdo deste artigo é destinado apenas a fornecer informações gerais e não a oferecer aconselhamento ou opiniões jurídicas.

Subscribe to Future Blog Posts