CAMBRIDGE, MA — Los modelos de base son modelos masivos de aprendizaje profundo que se han entrenado previamente con una enorme cantidad de datos de propósito general no etiquetados. Se pueden aplicar a una variedad de tareas, como generar imágenes o responder preguntas de los clientes.
Pero estos modelos, que sirven como columna vertebral de poderosas herramientas de inteligencia artificial como ChatGPT y DALL-E, pueden ofrecer información incorrecta o engañosa. En una situación crítica para la seguridad, como un peatón que se acerca a un automóvil autónomo, estos errores podrían tener graves consecuencias.
Para ayudar a evitar estos errores, investigadores del MIT y del MIT-IBM Watson AI Lab desarrollaron una técnica para estimar la confiabilidad de los modelos de base antes de que se implementen para una tarea específica.
Lo hacen considerando un conjunto de modelos de base que son ligeramente diferentes entre sí. Luego, utilizan su algoritmo para evaluar la coherencia de las representaciones que cada modelo aprende sobre el mismo punto de datos de prueba. Si las representaciones son coherentes, significa que el modelo es confiable.
Cuando compararon su técnica con los métodos de referencia de vanguardia, fue mejor para capturar la confiabilidad de los modelos de base en una variedad de tareas de clasificación descendentes.
Alguién podría usar esta técnica para decidir si un modelo debe aplicarse en un determinado entorno, sin necesidad de probarlo en un conjunto de datos del mundo real. Esto podría ser especialmente útil cuando los conjuntos de datos pueden no ser accesibles debido a problemas de privacidad, como en entornos de atención médica. Además, la técnica podría utilizarse para clasificar los modelos en función de las puntuaciones de confiabilidad, permitiendo al usuario seleccionar el mejor para su tarea.
“Todos los modelos pueden estar equivocados, pero los modelos que saben cuándo están equivocados son más útiles. El problema de cuantificar la incertidumbre o la confiabilidad es más desafiante para estos modelos de base porque sus representaciones abstractas son difíciles de comparar. Nuestro método permite cuantificar qué tan confiable es un modelo de representación para cualquier dato de entrada dado”, dice el autor principal Navid Azizan, profesor adjunto Esther y Harold E. Edgerton en el Departamento de Ingeniería Mecánica del MIT y el Instituto de Datos, Sistemas y Sociedad (IDSS), y miembro del Laboratorio de Información y Sistemas de Decisión (LIDS).
Se une en un artículo sobre el trabajo el autor principal, Young-Jin Park, un estudiante graduado de LIDS; Hao Wang, un científico investigador en el MIT-IBM Watson AI Lab; y Shervin Ardeshir, un científico investigador senior en Netflix. El artículo se presentará en la Conferencia sobre Incertidumbre en la Inteligencia Artificial.
Medición del consenso
Los modelos tradicionales de aprendizaje automático están entrenados para realizar una tarea específica. Estos modelos suelen hacer una predicción concreta basada en una entrada. Por ejemplo, el modelo podría decirte si una determinada imagen contiene un gato o un perro. En este caso, evaluar la confiabilidad podría ser una cuestión de mirar la predicción final para ver si el modelo está en lo cierto.
Pero los modelos de base son diferentes. El modelo se preentrena utilizando datos generales, en un entorno en el que sus creadores no conocen todas las tareas descendentes a las que se aplicará. Los usuarios lo adaptan a sus tareas específicas después de que ya se ha entrenado.
A diferencia de los modelos tradicionales de aprendizaje automático, los modelos de base no dan salidas concretas como etiquetas de “gato” o “perro”. En cambio, generan una representación abstracta basada en un punto de datos de entrada.
Para evaluar la confiabilidad de un modelo de base, los investigadores utilizaron un enfoque de conjunto entrenando varios modelos que comparten muchas propiedades pero que son ligeramente diferentes entre sí.
“Nuestra idea es como medir el consenso. Si todos esos modelos de base dan representaciones consistentes para cualquier dato en nuestro conjunto de datos, entonces podemos decir que este modelo es confiable”, dice Park.
Pero se encontraron con un problema: ¿Cómo podían comparar representaciones abstractas?
“Estos modelos solo emiten un vector, compuesto por algunos números, por lo que no podemos compararlos fácilmente”, agrega.
Resolvieron este problema utilizando una idea llamada coherencia de vecindad.
Para su enfoque, los investigadores preparan un conjunto de puntos de referencia confiables para probar en el conjunto de modelos. Luego, para cada modelo, investigan los puntos de referencia ubicados cerca de la representación de ese modelo del punto de prueba.
Al observar la coherencia de los puntos vecinos, pueden estimar la confiabilidad de los modelos.
Alinear las representaciones
Los modelos de base asignan puntos de datos a lo que se conoce como un espacio de representación. Una forma de pensar en este espacio es como una esfera. Cada modelo asigna puntos de datos similares a la misma parte de su esfera, por lo que las imágenes de gatos van a un lugar y las imágenes de perros van a otro.
Pero cada modelo mapearía los animales de manera diferente en su propia esfera, por lo que si bien los gatos pueden estar agrupados cerca del Polo Sur de una esfera, otro modelo podría mapear los gatos en algún lugar del Hemisferio Norte.
Los investigadores utilizan los puntos vecinos como anclas para alinear esas esferas para que puedan hacer comparables las representaciones. Si los vecinos de un punto de datos son coherentes en múltiples representaciones, entonces uno debe tener confianza en la confiabilidad de la salida del modelo para ese punto.
Cuando probaron este enfoque en una amplia gama de tareas de clasificación, encontraron que era mucho más consistente que los métodos de referencia. Además, no fue engañado por puntos de prueba desafiantes que hicieron que otros métodos fallaran.
Además, su enfoque se puede utilizar para evaluar la confiabilidad para cualquier dato de entrada, por lo que uno podría evaluar qué tan bien funciona un modelo para un tipo particular de individuo, como un paciente con ciertas características.
“Incluso si todos los modelos tienen un rendimiento promedio en general, desde el punto de vista individual, uno preferiría el que funciona mejor para ese individuo”, dice Wang.
Sin embargo, una limitación proviene del hecho de que deben entrenar un conjunto de modelos de base, lo cual es computacionalmente costoso. En el futuro, planean encontrar formas más eficientes de construir múltiples modelos, quizás utilizando pequeñas perturbaciones de un solo modelo.
##
Este trabajo está financiado, en parte, por el MIT-IBM Watson AI Lab, MathWorks y Amazon.