Guía de aprendizaje profundo de CNN

Publicado: 2022-10-14

La capacidad de la inteligencia artificial para cerrar la brecha entre las habilidades humanas y mecánicas ha aumentado drásticamente. Tanto los profesionales como los aficionados se enfocan en muchas facetas del campo para lograr grandes resultados. El campo de la visión artificial es una de varias disciplinas de este tipo.

Tabla de contenido

Nuestros programas de IA y ML en EE. UU.

Maestría en Ciencias en Aprendizaje Automático e IA de LJMU y IIITB Programa Executive PG en Machine Learning e Inteligencia Artificial del IIITB
Para explorar todos nuestros cursos, visite nuestra página a continuación.
Cursos de aprendizaje automático

El campo tiene como objetivo brindar a las computadoras la capacidad de ver y comprender el mundo como los humanos y utilizar esta comprensión para diversas tareas, incluido el reconocimiento de imágenes y videos, el análisis y la categorización de imágenes, la recreación de medios, los sistemas de recomendación, el procesamiento del lenguaje natural, etc. Red neuronal convolucional es el algoritmo principal utilizado para desarrollar y refinar las mejoras de aprendizaje profundo en la visión artificial a lo largo del tiempo. ¡Averigüemos más sobre el algoritmo de aprendizaje profundo!

Obtenga la certificación de aprendizaje automático de las mejores universidades del mundo. Obtenga programas de maestría, PGP ejecutivo o certificado avanzado para acelerar su carrera.

¿Qué es la red neuronal de convolución?

Una red neuronal convolucional o CNN es un método de aprendizaje profundo que puede tomar una imagen de entrada, dar importancia a varios elementos y objetos en la imagen, como pesos y sesgos que se pueden aprender, y distinguir entre ellos. En términos comparativos, una CNN requiere mucho menos preprocesamiento que otras técnicas de clasificación. CNN tiene la capacidad de aprender estos filtros y propiedades, mientras que, en técnicas primitivas, los filtros se diseñan a mano.

La arquitectura de una CNN está influenciada por cómo se organiza Visual Cortex y se asemeja a la red de conectividad de las neuronas en el cerebro humano. Las neuronas individuales reaccionan a los estímulos solo en esta área restringida del campo visual, conocida como Campo Receptivo. Una serie de tales superposiciones cubren todo el campo visual.

La arquitectura de la red neuronal de convolución

La arquitectura de las redes neuronales convolucionales difiere de la de las redes neuronales convencionales. Una red neuronal regular transforma una entrada, pasándola a través de varias capas ocultas. Cada capa consta de un conjunto de neuronas vinculadas a todas las neuronas de la capa inferior. La capa de salida final totalmente conectada es donde se representan las predicciones.

Las redes neuronales convolucionales están estructuradas de manera un poco diferente. Las capas se organizan primero en tres dimensiones: ancho, alto y profundidad. Además, solo una parte de las neuronas de la siguiente capa están conectadas con las de la capa inferior. La salida se condensará en un solo vector de puntaje de probabilidad y se agrupará junto con la capa de convolución.

CNN consta de dos partes:

La extracción de características de capas ocultas

La red realizará una serie de operaciones convolucionales y de agrupación en esta sección para detectar las características. Aquí es donde la red identificaría las rayas de un tigre, dos orejas y cuatro patas si tuviera una imagen de uno.

Clasificación de secciones

Además de estas características recuperadas, las capas de convolución funcionarán como un clasificador en este caso. Darán la probabilidad de que el objeto de la imagen coincida con la predicción del algoritmo.

Extracción de características

Uno de los componentes clave de CNN es la convolución. La combinación matemática de dos funciones para producir una tercera función se conoce como convolución. Combina dos conjuntos de datos. Un mapa de características se crea realizando una convolución en los datos de entrada en el caso de una CNN que usa un filtro o kernel. La convolución se lleva a cabo moviendo el filtro sobre la entrada. Cada ubicación realiza una multiplicación de matriz y suma la salida en el mapa de características.

Hacemos varias circunvoluciones en la entrada, usando un filtro diferente para cada operación. Como resultado, se producen varios mapas de características. La salida de la capa de convolución finalmente se ensambla utilizando todos estos mapas de características.

Como cualquier otra red neuronal, empleamos un proceso de activación para hacer que nuestra salida no sea lineal, donde la función de activación se usa para enviar la salida de la convolución en una red neuronal convolucional.

Tipos de red neuronal de convolución

Capa de convolución:

El componente fundamental de CNN es la capa de convolución. Lleva la mayor parte de la carga computacional en la red. Esta capa crea un producto escalar entre dos matrices, una de las cuales es el núcleo, una colección de parámetros que se pueden aprender, y la otra es el área restringida del campo receptivo. Comparado con una imagen, el kernel es más pequeño en espacio pero más profundo. Esto indica que el ancho y el alto del kerne serán espacialmente pequeños si la imagen consta de tres canales; sin embargo, la profundidad aumentará a los tres canales.

El núcleo se mueve a lo largo y ancho de la imagen durante el pase hacia adelante, creando una representación de imagen de esa región receptiva. Como resultado, se crea una representación bidimensional de la imagen denominada mapa de activación, que revela la respuesta del kernel en cada ubicación de la imagen. Un paso es un nombre para el tamaño deslizable del kernel.

Capa de agrupación:

Esta capa solo reduce la potencia informática necesaria para procesar los datos. Se logra reduciendo aún más las dimensiones de la matriz resaltada. Intentamos extraer las características dominantes de una pequeña porción del vecindario en esta capa.

La agrupación promedio y la agrupación máxima son dos tipos diferentes de estrategias de agrupación.

A diferencia de Max-pooling, que simplemente toma el valor más alto entre todos los que están dentro de la región de agrupación, Average-pooling promedia todos los valores dentro de la región de agrupación.

Ahora tenemos una matriz con los elementos clave de la imagen después de agrupar las capas, y esta matriz tiene dimensiones aún más pequeñas, lo que será muy útil en la siguiente etapa.

Capa totalmente conectada:

Un método económico para aprender permutaciones no lineales de las características de alto nivel proporcionadas por la salida de la capa convolucional es agregar una capa totalmente conectada. En esa área, la capa totalmente conectada ahora está aprendiendo una función que puede no ser lineal.

Después de convertirlo a un formato apropiado para nuestro perceptrón multinivel, aplanaremos la imagen de entrada en un vector de columna. Una red neuronal de alimentación hacia adelante recibe la salida aplanada y se utiliza la retropropagación para cada iteración de entrenamiento. El modelo puede categorizar imágenes utilizando el método de clasificación Softmax mediante la identificación de características dominantes y específicas de bajo nivel en muchas épocas.

Capas de no linealidad:

Las capas de no linealidad se incluyen con frecuencia justo después de la capa convolucional para agregar no linealidad al mapa de activación porque la convolución es una operación lineal y las imágenes son cualquier cosa menos lineales.

Las operaciones no lineales vienen en una variedad de formas, siendo las más comunes:

Sigmoideo

La fórmula matemática para la no linealidad sigmoidea es () = 1/(1+e). Demuele un número de valor real en el rango entre 0 y 1. El gradiente de un sigmoide se vuelve casi cero cuando la activación está en la cola, que es una característica sigmoidea muy desfavorable. La retropropagación matará efectivamente el gradiente si el gradiente local se vuelve demasiado pequeño. Además, suponga que la entrada a la neurona es exclusivamente positiva. En ese caso, la salida sigmoidea será exclusivamente positiva o exclusivamente negativa, lo que generará una dinámica en zigzag de actualizaciones de gradientes para el peso.

Tanh

Tanh condensa un número de valor real en el rango [-1, 1]. Al igual que las neuronas sigmoideas, la activación se satura, pero a diferencia de ellas, su salida está centrada en cero.

ReLU

La Unidad Lineal Rectificada (ReLU) ha ganado recientemente mucha popularidad. Realiza el cálculo de la función ()=max (0,). Para decirlo de otra manera, la activación solo existe en umbrales cero. ReLU acelera la convergencia seis veces y es más confiable que sigmoid y tanh.

Desafortunadamente, ReLU puede ser frágil durante el entrenamiento, lo cual es un inconveniente. Un fuerte gradiente puede actualizarlo al evitar que la neurona se actualice más. Sin embargo, podemos hacer que esto funcione eligiendo una tasa de aprendizaje adecuada.

Blogs populares sobre aprendizaje automático e inteligencia artificial

IoT: Historia, Presente y Futuro Tutorial de aprendizaje automático: Aprenda ML ¿Qué es Algoritmo? Simplemente fácil
Salario del ingeniero de robótica en la India: todos los roles Un día en la vida de un ingeniero de aprendizaje automático: ¿qué hacen? ¿Qué es IoT (Internet de las Cosas)?
Permutación vs Combinación: Diferencia entre Permutación y Combinación Las 7 principales tendencias en inteligencia artificial y aprendizaje automático Aprendizaje automático con R: todo lo que necesita saber

Comience su guía de CNN Deep Learning con UpGrad

Inscríbase para la Maestría en Ciencias en Aprendizaje Automático e Inteligencia Artificial en UpGrad en colaboración con LJMU.

El programa de certificación prepara a los estudiantes para los roles técnicos actuales y futuros al brindarles temas relevantes para la industria. Los proyectos reales, los estudios de casos múltiples y los académicos internacionales ofrecidos por expertos en la materia también se enfatizan mucho en el programa.

Al registrarse, puede aprovechar las funciones exclusivas de UpGrad, como la supervisión de la red, las sesiones de estudio y el soporte de aprendizaje de 360 ​​grados.

¿Qué es el algoritmo de aprendizaje profundo de CNN?

La forma en que CNN opera es obtener una imagen, asignarle un peso dependiendo de los diversos elementos de la imagen y luego separarlos unos de otros. En comparación con otros algoritmos de aprendizaje profundo, CNN requiere muy poco preprocesamiento de los datos.

¿Qué distingue a CNN del aprendizaje profundo?

El aprendizaje profundo se usa más a menudo en marketing para sonar más profesional de lo que es. Existen numerosas variedades de redes neuronales profundas, incluida CNN. Las CNN son populares debido a sus numerosos usos ventajosos en la identificación de imágenes.

¿Por qué CNN es superior a la conexión total?

Las convoluciones no tienen conexiones densas y no todos los nodos de entrada tienen un impacto en todos los nodos de salida. Gracias a esto, las capas convolucionales ahora pueden aprender con más flexibilidad. Además, hay menos pesos por capa, lo que beneficia las entradas de gran dimensión, como los datos de imagen.

¿CNN solo se usa para imágenes?

Sí. Cualquier matriz de datos 2D y 3D se puede procesar usando CNN.