El aprendizaje automático enfrenta su desafío más difícil hasta ahora: donas exigentes de bagels

El aprendizaje automático puede bordear la magia y proporcionar muchos de los mayores beneficios técnicos que hemos disfrutado en la última década, pero tiene muchos "puntos débiles". Una de las mayores preocupaciones de Google es que los modelos a menudo se entrenan utilizando datos de ejemplo que son demasiado fáciles de interpretar, por lo que no están preparados para la mayor ambigüedad del mundo real. Caso en cuestión: distinguir una dona de un bagel.

Es un error fácil de cometer, comparten muchas características: ambos son redondos, tienen un agujero y, a veces, una textura visible en la parte superior. Incluso puede ser algo que usted o yo podríamos tener dificultades para reconocer la diferencia en las circunstancias correctas, pero en realidad no termina siendo un gran problema para nosotros, a menudo gracias al contexto.

ANDROIDPOLICE VÍDEO DEL DÍA

Es un problema fundamental basado en cómo entrenamos modelos de aprendizaje automático. Los conjuntos de datos para cosas como el reconocimiento de imágenes, por ejemplo, a menudo se recortan para contener imágenes que son intencionalmente fáciles de discernir, con un enfoque claro en el sujeto. La esperanza es claramente que a partir de estos ejemplos bien enfocados, el modelo adquiera la capacidad de reconocer imágenes en contexto, pero eso no siempre funciona y los deja vulnerables al examinar ejemplos del mundo real que pueden no ser tan indulgentes. . Pero, por mucho, la parte más difícil es determinar exactamente cuáles son estos modelos que no conocen sus "puntos débiles".

En última instancia, hay dos categorías de puntos débiles, con nombres que solo los ingenieros de software podrían haber inventado: incógnitas conocidas y incógnitas desconocidas. Hablando en términos generales, una incógnita conocida es cuando el propio modelo reporta poca confianza en su respuesta, es decir, sabe que no sabe lo que está mirando. Y eso es bastante fácil de arreglar. Si el modelo puede confiar en su falta de confianza, puede dejar de lado esa imagen para una respuesta humana. Las incógnitas desconocidas son las difíciles de abordar porque el modelo termina confiando completamente en su respuesta incorrecta. Eso no es algo que puedas autocorregir de la misma manera.

Las incógnitas desconocidas también toman algunas formas diferentes. Por ejemplo, una imagen puede manipularse intencionalmente de manera sutil para engañar a un modelo y cometer un error, como en el caso del panda que ves arriba. Un poco de ruido, invisible para nuestros propios ojos humanos, puede introducir detalles que un modelo podría captar para clasificarlo incorrectamente, probablemente algo que se exagere aún más si un modelo está sobreentrenado en un conjunto de datos de ejemplo disponible públicamente. Pero eso es el resultado de una acción intencional. Son los ejemplos del mundo real los que tienen más preocupados a los investigadores, cosas como fotos normales que usted o yo podríamos tomar de nuestra cena o la naturaleza que terminan siendo mal clasificadas con extrema confianza.

Las incógnitas desconocidas pueden clasificarse además como "raras", en el caso de cosas que son tan oscuras que es posible que un modelo no haya sido entrenado para ellas (como razas de perros específicas); "complicado", si el encuadre, el ángulo o las posiciones pueden ser confusos, pero qué contexto deja claro de inmediato para un observador humano (es más probable que una dona esté helada o en polvo, un perro probablemente no se encontraría en un árbol, etc.); o tanto "raro" como "complicado" si ambos se combinan (como un auto de carreras en una pista, visto desde un ángulo inusual a través del brillo de la superficie caliente). Hay una cantidad sorprendente de formas en que un modelo de aprendizaje automático puede estar equivocado con seguridad.

Posibles "incógnitas desconocidas" del conjunto de datos de imágenes abiertas.

Con ese fin, Google está abriendo un desafío. Los investigadores de ML, los desarrolladores de software e incluso los entusiastas dispuestos a trabajar un poco están invitados a seleccionar imágenes del conjunto de datos de imágenes abiertas de 24 etiquetas objetivo para encontrar ejemplos del mundo real de estas incógnitas desconocidas. Más detalles, incluidas las instrucciones, están disponibles en el sitio CATS4ML, junto con una presentación que explica estos mismos conceptos con mayor detalle.

Nuevamente, esto no es para el consumidor promedio, ni siquiera para mí. Google está buscando desarrolladores e investigadores para que participen, y hay muchas reglas sobre cómo debe realizar sus envíos. Pero los entusiastas del aprendizaje automático o los desarrolladores de Android que buscan expandir un poco sus horizontes mientras todos estamos atrapados en el interior podrían estar interesados ????en echar un vistazo. Hay todo un sistema de puntuación y, aunque no hay premios, Google incluso coronará a un "ganador". El reto cierra el 30 de abril de 2021.

Fuente: Google, Desafío CATS4ML

Video:

Ir arriba