CAMBRIDGE, MA – Los modelos de aprendizaje automático pueden dar predicciones falsas, por lo que los investigadores a menudo los equipan con la capacidad de decir a un usuario con qué confianza tienen una determinada decisión. Esto es especialmente importante en entornos de alto riesgo, como cuando los modelos se utilizan para ayudar a identificar enfermedades en imágenes médicas o para filtrar solicitudes de empleo.
Pero las cuantificaciones de incertidumbre de un modelo solo son útiles si son precisas. Si un modelo dice que tiene un 49% de confianza en que una imagen médica muestra un derrame pleural, entonces el 49% de las veces, el modelo debería estar en lo correcto.
Los investigadores del MIT han presentado un nuevo enfoque que puede mejorar las estimaciones de incertidumbre en los modelos de aprendizaje automático. Su método no solo genera estimaciones de incertidumbre más precisas que otras técnicas, sino que lo hace de manera más eficiente.
Además, debido a que la técnica es escalable, se puede aplicar a modelos de aprendizaje profundo masivos que se están implementando cada vez más en el cuidado de la salud y otras situaciones críticas para la seguridad.
Esta técnica podría brindar a los usuarios finales, muchos de los cuales carecen de experiencia en aprendizaje automático, mejor información que pueden usar para determinar si deben confiar en las predicciones de un modelo o si el modelo debe implementarse para una tarea en particular.
“Es fácil ver que estos modelos funcionan muy bien en escenarios donde son muy buenos, y luego asumir que serán igual de buenos en otros escenarios. Esto hace que sea especialmente importante impulsar este tipo de trabajo que busca calibrar mejor la incertidumbre de estos modelos para asegurarse de que se alineen con las nociones humanas de incertidumbre”, dice el autor principal Nathan Ng, un estudiante graduado de la Universidad de Toronto que es estudiante visitante en el MIT.
Ng escribió el artículo con Roger Grosse, profesor asistente de informática en la Universidad de Toronto, y el autor principal Marzyeh Ghassemi, profesor asociado del Departamento de Ingeniería Eléctrica y Ciencias de la Computación y miembro del Instituto de Ingeniería Médica y el Laboratorio de Información y Sistemas de Decisión. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático.
Cuantificando la incertidumbre
Los métodos de cuantificación de incertidumbre a menudo requieren cálculos estadísticos complejos que no se escalan bien a modelos de aprendizaje automático con millones de parámetros. Estos métodos también requieren que los usuarios hagan suposiciones sobre el modelo y los datos utilizados para entrenarlo.
Los investigadores del MIT tomaron un enfoque diferente. Utilizan lo que se conoce como el principio de longitud de descripción mínima (MDL), que no requiere las suposiciones que pueden obstaculizar la precisión de otros métodos. MDL se utiliza para cuantificar y calibrar mejor la incertidumbre para los puntos de prueba que el modelo se le ha pedido que etiquete.
La técnica que desarrollaron los investigadores, conocida como IF-COMP, hace que MDL sea lo suficientemente rápido para usar con los tipos de modelos de aprendizaje profundo a gran escala implementados en muchos entornos del mundo real.
MDL implica considerar todas las etiquetas posibles que un modelo podría dar a un punto de prueba. Si hay muchas etiquetas alternativas para este punto que encajan bien, su confianza en la etiqueta que eligió debería disminuir en consecuencia.
“Una forma de entender cuán seguro es un modelo sería decirle alguna información contrafáctica y ver qué tan probable es que te crea”, dice Ng.
Por ejemplo, considere un modelo que dice que una imagen médica muestra un derrame pleural. Si los investigadores le dicen al modelo que esta imagen muestra un edema, y está dispuesto a actualizar su creencia, entonces el modelo debería tener menos confianza en su decisión original.
Con MDL, si un modelo tiene confianza al etiquetar un punto de datos, debería usar un código muy corto para describir ese punto. Si tiene incertidumbre sobre su decisión porque el punto podría tener muchas otras etiquetas, usa un código más largo para capturar estas posibilidades.
La cantidad de código utilizado para etiquetar un punto de datos se conoce como complejidad de datos estocásticos. Si los investigadores le preguntan al modelo qué tan dispuesto está a actualizar su creencia sobre un punto de datos dados evidencia contraria, la complejidad de datos estocásticos debería disminuir si el modelo tiene confianza.
Pero probar cada punto de datos usando MDL requeriría una enorme cantidad de cómputo.
Acelerando el proceso
Con IF-COMP, los investigadores desarrollaron una técnica de aproximación que puede estimar con precisión la complejidad de datos estocásticos utilizando una función especial, conocida como función de influencia. También emplearon una técnica estadística llamada escalado de temperatura, que mejora la calibración de las salidas del modelo. Esta combinación de funciones de influencia y escalado de temperatura permite aproximaciones de alta calidad de la complejidad de datos estocásticos.
Al final, IF-COMP puede producir eficientemente cuantificaciones de incertidumbre bien calibradas que reflejan la verdadera confianza de un modelo. La técnica también puede determinar si el modelo ha etiquetado incorrectamente ciertos puntos de datos o revelar qué puntos de datos son valores atípicos.
Los investigadores probaron su sistema en estas tres tareas y encontraron que era más rápido y más preciso que otros métodos.
“Es realmente importante tener cierta certeza de que un modelo está bien calibrado, y existe una necesidad creciente de detectar cuándo una predicción específica no se ve del todo bien. Las herramientas de auditoría se están volviendo más necesarias en los problemas de aprendizaje automático a medida que usamos grandes cantidades de datos no examinados para crear modelos que se aplicarán a problemas orientados a humanos”, dice Ghassemi.
IF-COMP es independiente del modelo, por lo que puede proporcionar cuantificaciones de incertidumbre precisas para muchos tipos de modelos de aprendizaje automático. Esto podría permitir su implementación en una gama más amplia de entornos del mundo real, lo que en última instancia ayudará a más profesionales a tomar mejores decisiones.
“La gente necesita entender que estos sistemas son muy falibles y pueden inventar cosas sobre la marcha. Un modelo puede parecer que tiene mucha confianza, pero hay muchas cosas diferentes que está dispuesto a creer dada la evidencia contraria”, dice Ng.
En el futuro, los investigadores están interesados en aplicar su enfoque a modelos de lenguaje a gran escala y estudiar otros casos de uso potenciales para el principio de longitud de descripción mínima.