Visión artificial

Compártelo

El campo de visión artificial de la inteligencia artificial (IA) permite que las computadoras y los sistemas obtengan datos relevantes de fotos digitales, videos y otras entradas visuales, actúen sobre esos datos o brinden recomendaciones, todo mientras permanece transparente para el usuario. La visión artificial permite que las computadoras vean, observen y comprendan el mundo al igual que la IA permite que las computadoras piensen.

Los humanos tienen una ventaja sobre las máquinas en términos de cómo funciona la visión. La vista humana tiene el beneficio de toda una vida de contexto para entrenar cómo distinguir objetos, qué tan lejos están, si se están moviendo y si hay algún problema con una imagen.

Con cámaras, datos y algoritmos en lugar de retinas, nervios ópticos y una corteza visual, la visión artificial les enseña a las máquinas a realizar estas tareas en mucho menos tiempo. Un sistema que ha sido entrenado para inspeccionar productos o mirar un activo de producción puede superar rápidamente a los humanos porque puede analizar miles de productos o procesos por minuto mientras encuentra fallas o problemas invisibles.

El mercado de la visión artificial aún se está expandiendo y se utiliza en una variedad de sectores, incluidos la fabricación, la energía y los servicios públicos. Para 2022, se proyectaba que tuviese un valor de $ 48.6 mil millones.

¿Cómo se implementa la visión artificial?

Se requieren muchos datos para la visión artificial. Una vez que nota las diferencias y reconoce las imágenes, ejecuta repetidamente el análisis de datos. Por ejemplo, para enseñarle a una computadora a reconocer llantas de automóviles, se le deben proporcionar muchas imágenes de llantas y elementos relacionados con las llantas para que pueda aprender las diferencias y reconocer las llantas, especialmente las que no tienen fallas.

Esto se logra utilizando la red neuronal convolucional (CNN) y el aprendizaje profundo, un tipo de aprendizaje automático.

Usando modelos algorítmicos, el aprendizaje automático permite que una computadora aprenda a sí misma a interpretar datos visuales. La computadora "mirará" los datos y desarrollará la capacidad de distinguir entre diferentes imágenes si se alimentan suficientes datos a través del modelo. En lugar de tener que programarse para reconocer una imagen, los algoritmos permiten que la máquina aprenda por sí misma.

Al dividir las imágenes en píxeles y asignar etiquetas a cada una, una CNN ayuda a un modelo de aprendizaje automático o aprendizaje profundo a "mirar". Utiliza las etiquetas para realizar circunvoluciones (una operación matemática en dos funciones para producir una tercera función), predecir lo que está "viendo" y hacer predicciones. La red neuronal realiza convoluciones y evalúa la precisión de sus predicciones repetidamente hasta que las predicciones comienzan a hacerse realidad. Así logra reconocer o ver imágenes de manera similar a los humanos.

De manera similar a cómo un humano reconocería inicialmente los bordes afilados y las formas básicas en una imagen cuando la ve desde la distancia, una CNN primero completa los detalles a medida que hace predicciones. Para comprender imágenes particulares, se utiliza una CNN. De manera similar, las redes neuronales recurrentes (RNN) se emplean en aplicaciones de video para ayudar a las computadoras a comprender las relaciones entre las imágenes en una secuencia de cuadros.

La historia de la visión artificial

Durante aproximadamente 60 años, los investigadores han trabajado para crear métodos que permitan a las máquinas percibir y comprender datos visuales. En un esfuerzo por correlacionar una respuesta en el cerebro del gato, un grupo de neurofisiólogos expuso por primera vez a un gato a una matriz de imágenes en 1959. Descubrieron que respondía primero a los bordes afilados o líneas, lo que indica que el procesamiento de imágenes comienza con formas básicas como líneas rectas bordes.

Paralelamente a esto, surgió la primera tecnología de escaneo de imágenes, que permitía a las computadoras digitalizar y recopilar imágenes. Cuando las computadoras pudieron convertir imágenes bidimensionales en formas tridimensionales en 1963, se realizó otro desarrollo significativo. La búsqueda de una solución de IA para el problema de la visión humana comenzó en la década de 1960, cuando la IA se convirtió por primera vez en un campo de estudio académico legítimo.

La tecnología OCR, que podía reconocer texto impreso en cualquier fuente o tipo de letra, se introdujo por primera vez en 1974. Al igual que las redes neuronales se pueden usar para descifrar texto escrito a mano, el Reconocimiento inteligente de caracteres (ICR) puede hacer lo mismo.

David Marr, un neurocientífico, estableció que la visión opera de manera jerárquica en 1982 y desarrolló algoritmos para que las computadoras reconozcan bordes, esquinas, curvas y otras formas fundamentales similares. Al mismo tiempo, Kunihiko Fukushima, un científico informático, creó una red de células que podían reconocer patrones. La red Neocognitron presentaba capas convolucionales dentro de una red neuronal.

Las primeras aplicaciones de reconocimiento facial en tiempo real debutaron en 2001, mientras que el enfoque inicial del estudio en 2000 fue el reconocimiento de objetos. A lo largo de la década de 2000, surgieron prácticas estandarizadas de etiquetado y anotación para conjuntos de datos visuales. El conjunto de datos de ImageNet se puso a disposición del público en 2010. Sirvió como base para las CNN y los modelos de aprendizaje profundo actualmente en uso y contenía millones de imágenes que se etiquetaron en decenas de miles de clases de objetos.

Si deseas ampliar esta información no dejes de inscribirte en la Maestría en Inteligencia Artificial de CEUPE.

Visión artificial

¿Cómo se implementa la visión artificial?

La historia de la visión artificial

Sobre el autor

Alexander Rosquez

Entradas recientes del autor

Comentarios

Masters Destacados

Oferta Académica

Conócenos

Información Legal

Este sitio usa cookies y tecnologías similares.