En los últimos años se ha observado un creciente interés en los modelos de base, lo que puede atribuirse a su preentrenamiento suficiente en conjuntos de datos a escala web y a su capacidad superior para generalizar a diversas tareas posteriores. No mucho después, ChatGPT, potenciado por el modelo de base GPT, se ha convertido en un gran éxito comercial, debido a su generación de lenguaje en tiempo real y razonable y su interacción con el usuario. Volviendo al ámbito de la visión, la exploración de los modelos de base aún se encuentra en sus primeras etapas. El trabajo pionero del preentrenamiento contrastivo de lenguaje e imagen (CLIP) combina eficazmente las modalidades imagen-texto, permitiendo una generalización de cero disparos a nuevos conceptos visuales. Sin embargo, su capacidad de generalización para las tareas de visión sigue siendo insatisfactoria debido a la escasez de datos de entrenamiento abundantes, a diferencia del procesamiento del lenguaje natural (PNL).
Más recientemente, Meta AI Research publicó un modelo de segmentación de todo lo que se puede pedir (SAM). Mediante la incorporación de una única interfaz de usuario como solicitud, SAM es capaz de segmentar cualquier objeto en cualquier imagen o vídeo sin necesidad de entrenamiento adicional, lo que a menudo se denomina transferencia de cero disparos en la comunidad de la visión. Como sugieren los autores, las capacidades de SAM están impulsadas por un modelo de base de visión que ha sido entrenado en un conjunto de datos masivo SA-1B que contiene más de 11 millones de imágenes y mil millones de máscaras. Mientras tanto, los autores han publicado una impresionante demostración en línea para mostrar las capacidades de SAM en SAM está diseñado para generar un resultado de segmentación válido para cualquier solicitud, donde las solicitudes pueden incluir puntos de primer plano/fondo, un cuadro o máscara aproximado, texto de forma libre o cualquier otra información que indique qué segmentar en una imagen. El último proyecto ofrece tres modos de solicitud: modo de clic, modo de cuadro y modo de todo. El modo de clic permite a los usuarios segmentar objetos con uno o más clics, incluyéndolos o excluyéndolos del objeto. El modo de cuadro permite la segmentación de objetos dibujando aproximadamente un cuadro delimitador y utilizando alternativas de clic. El modo de todo identifica y enmascara automáticamente todos los objetos de una imagen.
La aparición de SAM ha demostrado sin duda una fuerte generalización en diversas imágenes y objetos, abriendo nuevas posibilidades y caminos para aplicaciones en el análisis y la comprensión inteligentes de imágenes, como la realidad aumentada y la interacción humano-ordenador. Algunos profesionales de la industria y la academia han llegado a afirmar que “la segmentación ha llegado a su fin” y que “la comunidad de la visión por ordenador está experimentando un cambio sísmico”. En realidad, es difícil que un conjunto de datos dedicado al preentrenamiento englobe la vasta gama de escenarios inusuales del mundo real y las modalidades de imagen, en particular para la comunidad de la visión por ordenador con una variedad de condiciones (por ejemplo, poca luz, vista de pájaro, niebla, lluvia), o empleando diversas modalidades de entrada (por ejemplo, profundidad, infrarrojo, evento, nube de puntos, TC, RM), y con numerosas aplicaciones del mundo real. Por lo tanto, es de gran interés práctico investigar hasta qué punto SAM puede inferir o generalizar en diferentes escenarios y aplicaciones.
Esto lleva a realizar este estudio, examinando el rendimiento de SAM en una gama diversa de aplicaciones de segmentación del mundo real, como se ilustra en la Fig. 1. Específicamente, los investigadores emplean SAM en diversos escenarios prácticos, incluyendo imágenes naturales, agricultura, manufactura, teledetección y salud. Mientras tanto, discuten los beneficios y las limitaciones de SAM en la práctica. Basándose en estos estudios, han realizado las siguientes observaciones:
1) Excelente generalización en escenas comunes. Los experimentos en diversas imágenes validan la eficacia de SAM en los diferentes modos de solicitud, demostrando su capacidad de generalizar bien a los escenarios típicos de imágenes naturales, especialmente cuando las regiones objetivo se distinguen prominentemente de sus alrededores. Esto subraya la superioridad del diseño del modelo de SAM solicitable y la fortaleza de su fuente de datos de entrenamiento masiva y diversa.
2) Requiere un fuerte conocimiento previo. Durante el uso de SAM, los investigadores observan que en el caso de escenas complejas, por ejemplo, la segmentación de cultivos y la segmentación de imágenes del fondo del ojo, se requieren más solicitudes manuales con conocimiento previo, lo que podría dar lugar a una experiencia de usuario subóptima. Además, observan que SAM tiende a favorecer la selección de la máscara de primer plano. Al aplicar el modelo SAM a la tarea de detección de sombras, incluso con un gran número de solicitudes de clic, su rendimiento sigue siendo deficiente. Esto puede deberse al fuerte sesgo de primer plano en su conjunto de datos de preentrenamiento, lo que obstaculiza su capacidad para manejar ciertos escenarios de forma eficaz.
3) Menos eficaz en aplicaciones de bajo contraste. Segmentar objetos con elementos circundantes similares se considera una situación difícil, especialmente cuando se trata de objetos transparentes o camuflados que están “sin problemas” integrados en sus alrededores. Los experimentos revelan que hay mucho margen para explorar y mejorar la robustez de SAM en escenas complejas con elementos de bajo contraste.
4) Comprensión limitada de los datos profesionales. Los investigadores aplican SAM a escenarios médicos e industriales del mundo real y descubren que produce resultados insatisfactorios para los datos profesionales, en particular cuando se utiliza el modo de cuadro y el modo de todo. Esto revela las limitaciones de SAM a la hora de comprender estos escenarios prácticos. Además, incluso con el modo de clic, tanto el usuario como el modelo deben poseer un cierto conocimiento y comprensión específicos del dominio de la tarea en cuestión.
5) Los objetos más pequeños e irregulares pueden suponer un reto para SAM. La teledetección y la agricultura presentan retos adicionales, como edificios irregulares y calles de pequeño tamaño captadas por los sensores de imagen aérea. Estas complejidades dificultan que SAM produzca una segmentación completa. La forma de diseñar estrategias eficaces para SAM en estos casos sigue siendo un tema abierto.
Este estudio examina el rendimiento de SAM en diversos escenarios y proporciona algunas observaciones y conocimientos para promover el desarrollo de modelos de base en el ámbito de la visión. Aunque los investigadores han probado muchas tareas, no se han cubierto todas las aplicaciones posteriores. Se anima a explorar en futuras investigaciones una multitud de fascinantes tareas y escenarios de segmentación.
Ver el artículo:
Ji, W., Li, J., Bi, Q. et al. Segment Anything Is Not Always Perfect: An Investigation of SAM on Different Real-world Applications. Mach. Intell. Res. (2024).
Revista
Machine Intelligence Research
Título del artículo
Segment Anything Is Not Always Perfect: An Investigation of SAM on Different Real-world Applications
Fecha de publicación del artículo
12-Abr-2024