Qué es la Visión por Computador y Cómo Permite a las Máquinas Ver el Mundo

Ver parece algo tan natural y sencillo que apenas pensamos en ello. Abres los ojos, y en una fracción de segundo reconoces caras, lees texto, interpretas escenas complejas y detectas movimiento. Lo que tu cerebro hace de forma instantánea y sin esfuerzo consciente es, en realidad, uno de los procesos cognitivos más complejos que existen. Enseñar a una máquina a hacer algo parecido ha sido uno de los grandes retos de la inteligencia artificial durante décadas. Y hoy, gracias a la visión por computador, ese reto está en gran medida resuelto.

Qué es la visión por computador

La visión por computador es la rama de la inteligencia artificial que permite a los sistemas informáticos interpretar y entender información visual del mundo real: imágenes, vídeos y datos de sensores como cámaras o escáneres. Su objetivo es dotar a las máquinas de la capacidad de «ver», no en el sentido físico de captar luz, sino en el sentido cognitivo de extraer significado de lo que captan.

Una cámara ya podía captar imágenes desde hace más de un siglo. Lo que la visión por computador añade es la capacidad de entender lo que hay en esa imagen: identificar que hay una persona, que esa persona está sonriendo, que lleva un abrigo rojo, que está en una calle concreta de una ciudad concreta. Pasar del píxel al significado es exactamente lo que hace esta tecnología.

Inteligencia Artificial, Cerebro, Pensar

El problema de fondo: ¿qué es una imagen para un ordenador?

Para entender por qué la visión por computador es un problema difícil, conviene entender cómo ve un ordenador una imagen.

Para un humano, una fotografía de un perro es un perro. Para un ordenador, esa misma fotografía es una matriz de números: millones de píxeles, cada uno con valores numéricos que representan su color y brillo. No hay «perro» en esos números. Solo hay datos.

El reto de la visión por computador es aprender a pasar de esa matriz de números al concepto de «perro», y hacerlo de forma robusta: aunque el perro esté en distintas posiciones, con distintas iluminaciones, parcialmente oculto, con distintas razas o en distintos fondos. Esa generalización, que para un niño de dos años es trivial, resultó ser un problema computacional enormemente difícil.

Cómo las redes neuronales lo cambiaron todo

Durante décadas, los investigadores intentaron resolver la visión por computador con enfoques basados en reglas y características definidas manualmente: detectar bordes, buscar patrones de color, identificar formas geométricas. Los resultados eran limitados y frágiles.

El punto de inflexión llegó en 2012, cuando una red neuronal convolucional llamada AlexNet ganó el concurso ImageNet con una ventaja tan aplastante sobre los métodos anteriores que cambió el rumbo de toda la disciplina. Las redes neuronales convolucionales, conocidas como CNNs, aprenden automáticamente qué características visuales son relevantes para cada tarea, sin que nadie se las programe explícitamente.

Una CNN procesa las imágenes en capas sucesivas. Las primeras capas aprenden a detectar características simples como bordes y gradientes de color. Las capas intermedias combinan esas características para detectar formas más complejas. Las capas finales combinan esas formas para reconocer objetos, escenas o conceptos completos. Todo esto emerge del entrenamiento con datos, sin intervención humana en el diseño de las características.

Desde entonces, los avances han sido continuos y espectaculares. Hoy los modelos de visión por computador superan a los humanos en varias tareas de reconocimiento de imágenes en condiciones controladas.

Las tareas principales de la visión por computador

La visión por computador no es una sola tarea sino un conjunto de capacidades relacionadas:

Clasificación de imágenes: Determinar qué hay en una imagen asignándole una o varias categorías. Es la tarea más básica y la que primero alcanzó niveles sobrehumanos.

Detección de objetos: No solo identificar qué hay en una imagen sino dónde está exactamente, marcando cada objeto con un recuadro delimitador. Permite detectar múltiples objetos de diferentes clases en la misma imagen simultáneamente.

Segmentación semántica: Asignar una categoría a cada píxel individual de la imagen, no solo a objetos como unidades. Es la base de los sistemas de conducción autónoma, que necesitan entender con precisión de píxel qué parte de la escena es carretera, qué parte es acera y qué parte es un peatón.

Reconocimiento facial: Detectar y identificar caras humanas en imágenes o vídeo. Tiene aplicaciones en seguridad, acceso a dispositivos y, de forma más polémica, en vigilancia masiva.

Estimación de pose: Determinar la posición y orientación del cuerpo humano a partir de imágenes, identificando las articulaciones y su relación espacial.

Reconocimiento óptico de caracteres (OCR): Extraer texto de imágenes, desde documentos escaneados hasta señales de tráfico fotografiadas.

Aplicaciones que ya están en tu vida

La visión por computador lleva años integrada en productos y servicios que millones de personas usan cada día sin ser necesariamente conscientes de ello.

El desbloqueo facial de tu smartphone usa visión por computador. Los filtros de cámara que detectan tu cara y añaden efectos en tiempo real también. Las cámaras de seguridad modernas que detectan automáticamente intrusos o comportamientos sospechosos. Los sistemas de etiquetado automático de fotos en servicios como Google Fotos o iCloud. Los escáneres de documentos que convierten imágenes en texto editable.

En el mundo industrial, los sistemas de inspección visual automatizada detectan defectos en productos de fabricación con una precisión y velocidad que ningún inspector humano puede igualar. En medicina, los sistemas de análisis de imágenes radiológicas ayudan a detectar tumores, lesiones y otras anomalías. En agricultura, los drones equipados con visión por computador monitorizan cultivos e identifican zonas con problemas.

Los retos que persisten

A pesar de los impresionantes avances, la visión por computador sigue teniendo puntos débiles importantes.

Los modelos pueden ser engañados por cambios pequeños e imperceptibles para el ojo humano, los llamados ejemplos adversariales. Una imagen ligeramente modificada en sus píxeles puede hacer que un sistema de alta precisión la clasifique de forma completamente errónea.

Los modelos también generalizan mal cuando el dominio de aplicación es diferente al de entrenamiento. Un sistema entrenado con imágenes de alta calidad puede fallar con imágenes de baja resolución o tomadas en condiciones de luz inusuales.

Y los problemas de sesgo son reales: si los datos de entrenamiento no representan adecuadamente la diversidad del mundo real, el sistema puede funcionar mucho mejor para algunos grupos que para otros, con consecuencias potencialmente graves en aplicaciones como el reconocimiento facial en contextos de seguridad o justicia.

Conclusión

La visión por computador ha transformado la capacidad de las máquinas para interactuar con el mundo visual de una forma que hace apenas una década hubiera parecido imposible. Es la tecnología que permite a los coches autónomos leer la carretera, a los médicos apoyarse en diagnósticos visuales automáticos y a los sistemas de fabricación detectar defectos con precisión microscópica. Entender qué es y cómo funciona es entender una de las piezas más importantes del puzzle de la inteligencia artificial moderna.