¿Qué es la visión artificial?
La visión artificial es una tecnología que utilizan las máquinas para reconocer automáticamente las imágenes y describirlas de manera precisa y eficiente. Hoy en día, los sistemas informáticos tienen acceso a un gran volumen de imágenes y datos de video procedentes o creados por teléfonos inteligentes, cámaras de tráfico, sistemas de seguridad y otros dispositivos. Las aplicaciones de visión artificial utilizan inteligencia artificial y el machine learning (IA/ML) para procesar estos datos con precisión para la identificación de objetos y el reconocimiento facial, así como para la clasificación, recomendación, supervisión y detección.
¿Por qué es importante la visión artificial?
Si bien la tecnología de procesamiento de información visual existe desde hace algún tiempo, gran parte del proceso requería la intervención humana, consumía mucho tiempo y era propenso a errores. Por ejemplo, la implementación de un sistema de reconocimiento facial en el pasado requería que los desarrolladores etiquetaran de forma manual miles de imágenes con puntos de datos clave, como el ancho del puente de la nariz y la distancia entre los ojos. La automatización de estas tareas requería una gran potencia de cálculo, ya que los datos de imágenes no están estructurados y su organización resulta compleja para las computadoras. Por lo tanto, las aplicaciones de visión eran costosas e inaccesibles para la mayoría de las organizaciones.
Hoy en día, el progreso en este campo, combinado con un aumento considerable de la potencia computacional, ha mejorado tanto la escala como la precisión del procesamiento de datos de imágenes. Los sistemas de visión artificial impulsados por recursos de computación en la nube ahora son accesibles para todos. Cualquier organización puede utilizar la tecnología para la verificación de identidad, la moderación del contenido, el análisis de transmisiones de video y la detección de errores, entre otras tareas.
Casos de uso
¿Cómo funciona la visión artificial?
Los sistemas de visión artificial utilizan la tecnología de inteligencia artificial (IA) para imitar las capacidades del cerebro humano que son responsables del reconocimiento y la clasificación de objetos. Los científicos informáticos entrenan a las computadoras para que reconozcan datos visuales ingresando grandes cantidades de información. Los algoritmos de machine learning (ML) identifican patrones comunes en estas imágenes o videos y aplican ese conocimiento para identificar imágenes desconocidas con precisión. Por ejemplo, si las computadoras procesan millones de imágenes de automóviles, comenzarán a crear patrones de identidad que puedan detectar con precisión un vehículo en una imagen. La visión artificial utiliza tecnologías como las que se indican a continuación.
Aprendizaje profundo
El aprendizaje profundo es un tipo de ML que utiliza redes neuronales. Las redes neuronales de aprendizaje profundo están formadas por muchas capas de módulos de software llamados neuronas artificiales que trabajan juntas dentro de la computadora. Utilizan cálculos matemáticos para procesar de forma automática diferentes aspectos de los datos de la imagen y desarrollar gradualmente una comprensión combinada de la imagen.
Redes neuronales convolucionales
Las convolutional neural networks (CNN, redes neuronales convolucionales) utilizan un sistema de etiquetado para clasificar los datos visuales y comprender la imagen completa. Analizan las imágenes como píxeles y asignan a cada píxel un valor de etiqueta. El valor se introduce para realizar una operación matemática llamada convolución y hacer predicciones sobre la imagen. Al igual que un humano que intenta reconocer un objeto a distancia, una CNN primero identifica contornos y formas simples antes de completar detalles adicionales como el color, las formas internas y la textura. Por último, repite el proceso de predicción en varias iteraciones para mejorar la precisión.
Redes neuronales recurrentes
Las redes neuronales recurrentes (RNN) son similares a las CNN, pero pueden procesar una serie de imágenes para encontrar enlaces entre ellas. Si bien las CNN se utilizan para el análisis de imágenes individuales, las RNN pueden analizar videos y comprender las relaciones entre las imágenes.
¿Cuál es la diferencia entre visión artificial y procesamiento de imágenes?
El procesamiento de imágenes utiliza algoritmos para alterar las imágenes, como la nitidez, el suavizado, el filtrado o la mejora. La visión artificial es diferente, ya que no cambia una imagen, sino que da sentido a lo que ve y lleva a cabo una tarea, como etiquetar. En algunos casos, puede utilizar el procesamiento de imágenes para modificar una imagen para que un sistema de visión artificial pueda entenderla mejor. En otros casos, utiliza la visión artificial para identificar imágenes o partes de una imagen y, a continuación, utiliza el procesamiento de imágenes para modificarla aún más.
¿Cuáles son las tareas comunes que puede realizar la visión artificial?
Clasificación de imágenes
La clasificación de imágenes permite a las computadoras ver una imagen y clasificar con precisión a qué clase pertenece. La visión artificial entiende las clases y las etiqueta, por ejemplo, árboles, aviones o edificios. Un ejemplo es que una cámara puede reconocer rostros en una fotografía y enfocarse en ellos.
Detección de objetos
La detección de objetos es una tarea de visión artificial para detectar y localizar imágenes. Utiliza la clasificación para identificar, ordenar y organizar las imágenes. La detección de objetos se utiliza en procesos industriales y de fabricación para controlar aplicaciones autónomas y supervisar las líneas de producción. Los fabricantes y proveedores de servicios de cámaras domésticas conectadas también confían en la detección de objetos para procesar las transmisiones de video en directo de las cámaras a fin de detectar personas y objetos en tiempo real y proporcionar alertas procesables a los usuarios finales.
Seguimiento de objetos
El seguimiento de objetos utiliza modelos de aprendizaje profundo para identificar y rastrear los elementos que pertenecen a categorías. Tiene varias aplicaciones en el mundo real en varias industrias. El primer elemento del seguimiento de objetos es la detección de objetos; el objeto tiene un cuadro delimitador creado a su alrededor, se le asigna un identificador de objeto y se le puede rastrear a través de marcos. Por ejemplo, el seguimiento de objetos se puede utilizar para supervisar el tráfico en entornos urbanos, la vigilancia humana y la obtención de imágenes médicas.
Segmentación
La segmentación es un algoritmo de visión artificial que identifica un objeto dividiendo sus imágenes en diferentes regiones en función de los píxeles que se ven. La segmentación también simplifica una imagen, por ejemplo, al colocar una forma o un contorno de un elemento para determinar de qué se trata. De este modo, la segmentación también reconoce si hay más de un objeto en una imagen o marco.
Por ejemplo, si hay un gato y un perro en una imagen, se puede utilizar la segmentación para reconocer los dos animales. A diferencia de la detección de objetos, que crea una caja alrededor de un objeto, la segmentación rastrea los píxeles para determinar la forma de un objeto, lo que facilita su análisis y etiquetado.
Recuperación de imágenes basada en el contenido
La recuperación de imágenes basada en el contenido es una aplicación de técnicas de visión artificial que permite buscar imágenes digitales específicas en bases de datos de gran tamaño. Analiza metadatos como etiquetas, descripciones, etiquetas y palabras clave. La recuperación semántica utiliza comandos como “buscar imágenes de edificios” para recuperar el contenido apropiado.
¿Cómo lo ayuda AWS en sus tareas de visión artificial?
AWS proporciona el conjunto más amplio y completo de servicios de inteligencia artificial y machine learning (IA/ML) conectados a un amplio conjunto de origen de datos para clientes de todos los niveles de experiencia.
Para los clientes que se basan en marcos y administran su propia infraestructura, optimizamos las versiones de los marcos de aprendizaje profundo más populares, incluidos PyTorch, MXNet y TensorFlow. AWS ofrece una cartera amplia y completa de servicios de ML de infraestructura de computación, redes y almacenamiento con una variedad de procesadores y aceleradores para satisfacer necesidades presupuestarias y de rendimiento únicas.
Para los clientes que desean crear una solución de visión artificial estándar en toda su empresa, Amazon SageMaker facilita la preparación de datos y la creación, el entrenamiento y la implementación de modelos de ML para cualquier caso de uso con una infraestructura, herramientas y flujos de trabajo totalmente administrados, incluidas las ofertas sin código para las empresas analistas.
Para los clientes que carecen de conocimientos de ML, necesitan un tiempo de lanzamiento al mercado más rápido o desean agregar inteligencia a un proceso o una aplicación existentes, AWS ofrece una gama de servicios de visión artificial basados en ML. Estos servicios le permiten agregar inteligencia con facilidad a sus aplicaciones de IA mediante API preentrenadas. Amazon Rekognition automatiza el análisis de imágenes y videos con ML y analiza millones de imágenes, transmisiones en directo y videos almacenados en cuestión de segundos.
Para comenzar a utilizar la visión artificial, cree una cuenta gratuita de AWS hoy mismo.