Top 10 des architectures de réseaux de neurones en 2022 que les ingénieurs ML doivent apprendre
Publié: 2021-01-09Deux des algorithmes les plus populaires et les plus puissants sont Deep Learning et Deep Neural Networks. Les algorithmes d'apprentissage en profondeur transforment le monde tel que nous le connaissons. Le principal succès de ces algorithmes réside dans la conception de l'architecture de ces réseaux de neurones. Parlons maintenant de la célèbre architecture de réseau de neurones.
Table des matières
Architectures de réseaux neuronaux populaires
1. LeNet5
LeNet5 est une architecture de réseau de neurones créée par Yann LeCun en 1994. LeNet5 a propulsé le domaine de l'apprentissage profond. On peut dire que LeNet5 a été le tout premier réseau de neurones convolutionnels qui a joué un rôle de premier plan au début du domaine du Deep Learning.
LeNet5 a une architecture très fondamentale. Sur l'ensemble de l'image sera distribué avec des fonctionnalités d'image. Des caractéristiques similaires peuvent être extraites de manière très efficace en utilisant des paramètres apprenables avec des convolutions. Lorsque le LeNet5 a été créé, les processeurs étaient très lents et aucun GPU ne peut être utilisé pour aider à la formation.
Le principal avantage de cette architecture est l'économie de calcul et de paramètres. Dans un vaste réseau de neurones multicouches, chaque pixel était utilisé comme une entrée distincte, et LeNet5 l'a opposé. Il existe des corrélations spatiales élevées entre les images et l'utilisation du pixel unique car différentes caractéristiques d'entrée seraient un inconvénient de ces corrélations et ne seraient pas utilisées dans la première couche. Introduction à l'apprentissage en profondeur et aux réseaux de neurones avec Keras
Fonctionnalités de LeNet5 :
- Le coût des grands calculs peut être évité en éparpillant la matrice de connexion entre les couches.
- Le classificateur final sera un réseau neuronal multicouche
- Sous forme de sigmoïdes ou tanh, il y aura non-linéarité
- La moyenne spatiale des cartes est utilisée dans le sous-échantillon
- L'extraction des caractéristiques spatiales se fait en utilisant la convolution
- La non-linéarité, la mise en commun et la convolution sont les trois couches de séquence utilisées dans le réseau neuronal convolutif
En quelques mots, on peut dire que l'architecture de réseau de neurones LeNet5 a inspiré de nombreuses personnes et architectures dans le domaine du Deep Learning.

L'écart dans l'avancement de l'architecture des réseaux de neurones :
Le réseau de neurones n'a pas beaucoup progressé entre 1998 et 2010. De nombreux chercheurs s'amélioraient lentement et de nombreuses personnes n'ont pas remarqué leur puissance croissante. Avec l'essor des appareils photo numériques et des téléphones portables bon marché, la disponibilité des données a augmenté. Le GPU est maintenant devenu un outil informatique à usage général, et les processeurs sont également devenus plus rapides avec l'augmentation de la puissance de calcul. Au cours de ces années, le rythme de progression du réseau neuronal s'est prolongé, mais lentement, les gens ont commencé à remarquer la puissance croissante du réseau neuronal.
2. Filet Dan Ciresan
La toute première implémentation des réseaux de neurones GPU a été publiée par Jurgen Schmidhuber et Dan Claudiu Ciresan en 2010. Il y avait jusqu'à 9 couches du réseau de neurones. Il a été implémenté sur un processeur graphique NVIDIA GTX 280, et il avait à la fois en arrière et en avant.
Apprenez les cours AI ML des meilleures universités du monde. Gagnez des programmes de maîtrise, Executive PGP ou Advanced Certificate pour accélérer votre carrière.
3. AlexNet
Cette architecture de réseau neuronal a remporté la compétition difficile d'ImageNet par une marge considérable. Il s'agit d'une version beaucoup plus large et plus approfondie de LeNet. Alex Krizhevsky l'a sorti en 2012.
Des hiérarchies et des objets complexes peuvent être appris à l'aide de cette architecture. Le réseau de neurones beaucoup plus étendu a été créé en mettant à l'échelle les connaissances de LeNet dans AlexNet Architecture.
Les apports de travail sont les suivants :
- Le temps de formation a été réduit en utilisant les GPU NVIDIA GTX 580.
- Les effets de moyenne de la mise en commun moyenne sont évités et la mise en commun maximale se chevauche.
- Le surajustement du modèle est évité en ignorant sélectivement les neurones uniques en utilisant la technique de décrochage.
- Les unités linéaires rectifiées sont utilisées comme non-linéarités
Des images plus grandes et des ensembles de données plus volumineux ont été autorisés à être utilisés car le temps de formation était 10 fois plus rapide et le GPU offrait un nombre de cœurs plus considérable que les processeurs. Le succès d'AlexNet a conduit à une révolution dans les sciences des réseaux de neurones. Des tâches utiles ont été résolues par de grands réseaux de neurones, à savoir des réseaux de neurones convolutifs. Il est maintenant devenu le cheval de bataille du Deep Learning.
4. Dépassement
Overfeat est un nouveau dérivé d'AlexNet qui est apparu en décembre 2013 et a été créé par le laboratoire NYU de Yann LeCun. De nombreux articles ont été publiés sur l'apprentissage des boîtes englobantes après avoir pris connaissance de l'article proposant des boîtes englobantes. Mais les objets Segment peuvent également être découverts plutôt que d'apprendre des cadres de délimitation artificiels.

5. VGG
La première fois, les réseaux VGG d'Oxford utilisaient des filtres 3 × 3 plus petits dans chaque couche convolutive. Des filtres 3 × 3 plus petits ont également été utilisés en combinaison comme une séquence de convolutions.
VGG oppose les principes de LeNet comme dans LeNet. Des caractéristiques similaires dans une image ont été capturées en utilisant de grandes convolutions. Dans VGG, des filtres plus petits ont été utilisés sur les premières couches du réseau, ce qui a été évité dans l'architecture LeNet. Dans VGG, les grands filtres d'AlexNet comme 9 x 9 ou 11 x 11 n'étaient pas utilisés. L'émulation par la compréhension de l'effet de champs récepteurs plus grands tels que 7 x 7 et 5 x 5 était possible en raison de la convolution multiple 3 x 3 en séquence. C'était aussi l'avantage le plus important de VGG. Les architectures de réseau récentes telles que ResNet et Inception utilisent cette idée de multiples convolutions 3 × 3 en série.
6. Réseau en réseau
Network-in-network est une architecture de réseau neuronal qui fournit une puissance combinatoire plus élevée et offre un aperçu simple et excellent. Une résistance plus élevée de la combinaison est fournie aux caractéristiques d'une couche convolutive en utilisant des convolutions 1x1.
7. GoogLeNet et lancement
GoogLeNet est la première architecture de lancement qui vise à réduire la charge de calcul des réseaux de neurones profonds. La catégorisation des images vidéo et du contenu des images a été effectuée à l'aide de modèles d'apprentissage en profondeur. Les grands déploiements et l'efficacité des architectures sur les fermes de serveurs sont devenus le principal intérêt des grands géants de l'internet tels que Google. Beaucoup de gens étaient d'accord en 2014 sur les réseaux de neurones, et l'apprentissage en profondeur n'est nulle part où revenir.
8. Couche de goulot d'étranglement
Le temps d'inférence a été maintenu bas à chaque couche grâce à la réduction du nombre d'opérations et de fonctionnalités par la couche de goulot d'étranglement d'Inception. Le nombre de fonctionnalités sera réduit à 4 fois avant que les données ne soient transmises aux coûteux modules de convolution. C'est le succès de l'architecture de couche de goulot d'étranglement car elle a permis d'économiser très largement le coût de calcul.

9. ResNet
L'idée de ResNet est simple, et c'est de contourner l'entrée des couches suivantes et également d'alimenter la sortie de deux couches convolutives successives. Plus de cent mille couches du réseau ont été formées pour la première fois à ResNet.
10. SqueezeNet
Les concepts d'Inception et de ResNet ont été remaniés dans SqueezeNet dans la version récente. Les besoins des algorithmes de compression complexes ont été supprimés, et la livraison de paramètres et de petites tailles de réseau est devenue possible grâce à une meilleure conception de l'architecture.
Bonus : 11. ENet
Adam Paszke a conçu l'architecture de réseau neuronal appelée ENet. C'est un réseau très léger et efficace. Il utilise très peu de calculs et de paramètres dans l'architecture en combinant toutes les fonctionnalités des architectures modernes. L'analyse de scène et l'étiquetage au niveau des pixels ont été effectués en l'utilisant.
Conclusion
Voici les architectures de réseaux de neurones couramment utilisées. Nous espérons que cet article vous a aidé à apprendre les réseaux de neurones.
Vous pouvez consulter notre programme Executive PG en Machine Learning & AI , qui propose des ateliers pratiques, un mentor individuel de l'industrie, 12 études de cas et missions, le statut d'ancien IIIT-B, et plus encore.
A quoi sert un réseau de neurones ?
Le but d'un réseau de neurones est d'apprendre des modèles à partir de données en y réfléchissant et en les traitant de la même manière que nous le faisons en tant qu'humain. Nous ne savons peut-être pas comment un réseau de neurones fait cela, mais nous pouvons lui dire d'apprendre et de reconnaître des modèles tout au long du processus de formation. Le réseau de neurones s'entraîne en ajustant constamment les connexions entre ses neurones. Cela permet au réseau de neurones de s'améliorer constamment et d'ajouter aux modèles qu'il a appris. Un réseau de neurones est une construction d'apprentissage automatique et est utilisé pour résoudre des problèmes d'apprentissage automatique qui nécessitent des limites de décision non linéaires. Les limites de décision non linéaires sont courantes dans les problèmes d'apprentissage automatique, de sorte que les réseaux de neurones sont très courants dans les applications d'apprentissage automatique.
Comment fonctionnent les réseaux de neurones ?
Réseaux de neurones artificiels Les RNA sont des modèles informatiques inspirés des réseaux de neurones du cerveau. Le réseau neuronal artificiel traditionnel consiste en un ensemble de nœuds, chaque nœud représentant un neurone. Il existe également un nœud de sortie, qui est activé lorsqu'un nombre suffisant de nœuds d'entrée sont activés. Chaque cas d'apprentissage a un vecteur d'entrée et un vecteur de sortie. La fonction d'activation de chaque neurone est différente. Nous appelons cette fonction d'activation fonction sigmoïde ou fonction en forme de S. Le choix de la fonction d'activation n'est pas critique pour le fonctionnement de base du réseau et d'autres types de fonctions d'activation peuvent également être utilisés dans les ANN. La sortie d'un neurone est combien le neurone est activé. Un neurone est activé lorsqu'un nombre suffisant de neurones d'entrée sont activés.