CNN 深度学习指南

已发表: 2022-10-14

人工智能缩小人类和机器技能之间差距的能力已显着提高。 专业人士和业余爱好者都专注于该领域的许多方面以取得出色的成绩。 计算机视觉领域是几个这样的学科之一。

目录

我们在美国的 AI 和 ML 项目

LJMU 和 IIITB 的机器学习和人工智能理学硕士 IIITB 机器学习和人工智能执行 PG 计划
要探索我们所有的课程,请访问下面的页面。
机器学习课程

该领域旨在让计算机能够像人类一样看待和理解世界,并将这种理解用于各种任务,包括图像和视频识别、图像分析和分类、媒体娱乐、推荐系统、自然语言处理等。是用于随着时间的推移开发和改进计算机视觉深度学习改进的主要算法。 让我们进一步了解深度学习算法!

获得世界顶尖大学的机器学习认证。 获得硕士、Executive PGP 或高级证书课程以加快您的职业生涯。

什么是卷积神经网络?

卷积神经网络或 CNN 是一种深度学习方法,它可以接收输入图像,赋予图像中各种元素和对象的重要性,例如可学习的权重和偏差,并区分它们。 相比之下,CNN 所需的预处理比其他分类技术要少得多。 CNN 有能力学习这些过滤器和属性,而在原始技术中,过滤器是手工设计的。

CNN 的架构受视觉皮层组织方式的影响,类似于人脑中神经元的连接网络。 单个神经元仅在这个受限的视野区域(称为感受野)中对刺激作出反应。 一连串这样的重叠覆盖了整个视野。

卷积神经网络的架构

卷积神经网络的架构不同于传统的神经网络。 常规神经网络转换输入,将其通过几个隐藏层。 每一层都由一组神经元组成,这些神经元与下一层中的所有神经元相连。 最终的全连接输出层是表示预测的地方。

卷积神经网络的结构略有不同。 这些层首先按三个维度排列:宽度、高度和深度。 此外,下一层中只有一部分神经元与下一层中的神经元相连。 然后将输出压缩为单个概率分数向量,并与卷积层一起分组。

CNN由两部分组成:

从隐藏层提取特征

网络将在本节中进行一系列卷积和池化操作来检测特征。 如果您有老虎的图像,网络将在这里识别出老虎、两只耳朵和四只腿的条纹。

部分分类

在这些检索到的特征之上,在这种情况下,卷积层将用作分类器。 他们将给出图像的对象与算法的预测相匹配的可能性。

特征提取

CNN 的关键组件之一是卷积。 两个函数的数学组合以产生第三个函数称为卷积。 它结合了两组数据。 在使用滤波器或内核的 CNN 的情况下,通过对输入数据执行卷积来创建特征图。 通过在输入上移动滤波器来执行卷积。 每个位置执行矩阵乘法并将输出求和到特征图上。

我们对输入进行多次卷积,对每个操作使用不同的过滤器。 结果,产生了各种特征图。 卷积层的输出最终使用所有这些特征图进行组装。

与其他所有神经网络一样,我们采用激活过程来使输出非线性,其中激活函数用于在卷积神经网络中发送卷积的输出。

卷积神经网络的类型

卷积层:

CNN 的基础组件是卷积层。 它承载了网络上的大部分计算负载。 该层在两个矩阵之间进行点积,其中一个是内核,一个可学习参数的集合,另一个是感受野的约束区域。 与图片相比,内核空间更小,但更深。 这表明如果图像由三个通道组成,kerne'sl 的宽度和高度在空间上会很小; 但是,深度将上升到所有三个通道。

在前向传递过程中,内核在图片的高度和宽度上移动,创建了该感受区域的图像表示。 结果,创建了称为激活图的图像的二维表示,揭示了内核在图像中每个位置的响应。 步幅是内核可滑动大小的名称。

池化层:

该层仅降低了处理数据所需的计算能力。 它是通过进一步减少突出显示的矩阵的维度来实现的。 我们试图从这一层的一小部分邻域中提取主要特征。

平均池化和最大池化是两种不同类型的池化策略。

与 Max-pooling 相比,Max-pooling 在池化区域内的所有值中取最高值,Average-pooling 对池化区域内的所有值进行平均。

我们现在有了一个包含层池化后图像关键元素的矩阵,而且这个矩阵的维数更小,这在接下来的阶段会很有帮助。

全连接层:

学习卷积层输出提供的高级特征的非线性排列的一种廉价方法是添加一个全连接层。 在那个区域,全连接层现在正在学习一个可能不是线性的函数。

将其转换为适合我们的多级感知器的格式后,我们会将输入图像展平为列向量。 前馈神经网络接收扁平化的输出,并在每次训练迭代中使用反向传播。 该模型可以使用 Softmax 分类方法通过识别多个时期的主要和特定低级特征来对图像进行分类。

非线性层:

非线性层通常包含在卷积层之后,以向激活图添加非线性,因为卷积是线性操作,图像不是线性的。

非线性操作有多种形式,最常见的是:

乙状结肠

sigmoid 非线性的数学公式是 () = 1/(1+e)。 它将实数值分解为 0 到 1 之间的范围。当激活位于尾部时,sigmoid 的梯度几乎为零,这是一个非常不利的 sigmoid 特征。 如果局部梯度变得太小,反向传播将有效地杀死梯度。 此外,假设神经元的输入完全是正的。 在这种情况下,Sigmoid 输出要么完全为正,要么完全为负,从而导致权重梯度更新的锯齿形动态。

Tanh 将实数值压缩到 [-1, 1] 范围内。 像 sigmoid 神经元一样,激活饱和,但与它们不同的是,它的输出是零中心的。

ReLU

整流线性单元 (ReLU) 最近广受欢迎。 它执行函数 ()=max (0,) 计算。 换句话说,激活只存在于零阈值处。 ReLU 将收敛速度提高了六倍,并且比 sigmoid 和 tanh 更可靠。

不幸的是,ReLU 在训练期间可能很脆弱,这是一个缺点。 强梯度可以通过阻止神经元进一步更新来更新它。 但是,我们可以通过选择适当的学习率来完成这项工作。

流行的机器学习和人工智能博客

物联网:历史、现在和未来 机器学习教程:学习机器学习 什么是算法? 简单易行
印度机器人工程师的薪水:所有角色 机器学习工程师的一天:他们在做什么? 什么是物联网(物联网)
排列与组合:排列与组合之间的区别 人工智能和机器学习的 7 大趋势 使用 R 进行机器学习:您需要知道的一切

使用 UpGrad 开始您的 CNN 深度学习指南

与 LJMU 合作,在 UpGrad 注册机器学习和人工智能理学硕士。

证书课程通过提供与行业相关的主题,让学生为当前和未来的技术角色做好准备。 该计划还重点强调了主题专家提供的真实项目、多个案例研究和国际学术。

通过注册,您可以利用 UpGrad 的独家功能,例如网络监控、学习课程和 360 度学习支持。

CNN的深度学习算法是什么?

CNN 的操作方式是获取一张图像,根据图像中的各个项目为其分配权重,然后将它们相互分离。 与其他深度学习算法相比,CNN 需要极少的数据预处理。

CNN 与深度学习的区别是什么?

深度学习更常用于营销,听起来比实际更专业。 深度神经网络有很多种,包括 CNN。 CNN 因其在图像识别中的众多优势用途而广受欢迎。

为什么CNN优于全连接?

卷积没有密集连接,并且并非所有输入节点都对每个输出节点都有影响。 多亏了这一点,卷积层现在可以更灵活地学习。 此外,每层的权重更少,这有利于图像数据等高维输入。

CNN只用于图片吗?

是的。 任何 2D 和 3D 数据数组都可以使用 CNN 进行处理。