INVESTIGADORES
PULIDO Manuel Arturo
congresos y reuniones científicas
Título:
Extracción de entidades en sentencias judiciales usando LLaMA-2
Autor/es:
VARGAS FRANCISCO, A. G. COENE, G. ESCALANTE, E. LOBON AND M. PULIDO
Reunión:
Conferencia; ASAID, Simposio Argentino de Inteligencia Artificial y Ciencia de Datos; 2024
Resumen:
 La extracción de información de accidentes viales disponibleen sentencias judiciales es de relevancia para la cuantificación de costosde las aseguradoras. La extracción de entidades tales como porcentajesde incapacidad física y/o psicológica y montos involucrados es un procesodifícil aun para expertos por las sutiles argumentaciones en las sentencias.Se propone un procedimiento que se divide en dos pasos, la segmentaciónde la sentencia e identificación del segmento relevante y luego la extrac-ción de las entidades. Se comparan dos metodologías, un método clásicobasado en expresiones regulares. La segunda metodología esta basada enla división del documento en bloques de n-tokens para luego vectorizarloscon modelos multi-lenguajes para búsquedas semánticas (text-embedding-ada-002/MiniLM-L12-v2 ). Posteriormente se aplican LLMs (LLaMA-27b, 70b y GPT4) con prompting al bloque relevante para la extracción.En el caso de LLaMA-2 se realiza un sintonizado fino (finetuning) conLoRA. LLaMA-2 7b aun con temperatura nula presenta un significativonúmero de alucinaciones en las extracciones que disminuye sustancial-mente con el sintonizado. El rendimiento de la metodología basada en elvectorizado de los segmentos y el posterior uso de los LLMs supera am-pliamente al método clásico. La exactitud del método clásico es 39,5 %,la de LLaMA-2 70b base 61,7 % y con sintonizado 79,4 %, mientras quepara GPT-4 Turbo es 86,1 %.