每个数据科学家都应该拥有的终极数据科学备忘单

已发表: 2021-01-29

对于所有正在考虑潜入蓬勃发展的数据科学世界的初露头角的专业人士和新手,我们编制了一份快速备忘单,让您了解强调该领域的基础知识和方法论。

目录

数据科学-基础

在我们的世界中生成的数据是原始形式,即数字、代码、单词、句子等。数据科学利用这些非常原始的数据使用科学方法对其进行处理,将其转换为有意义的形式,以获得知识和见解.

数据

在深入探讨数据科学的原则之前,让我们先谈谈数据、它的类型和数据处理。

数据类型

结构化– 以表格格式存储在数据库中的数据。 它可以是数字或文本

非结构化数据——不能用任何明确的结构制成表格的数据称为非结构化数据

半结构化——具有结构化和非结构化数据特征的混合数据

定量的——具有可量化的明确数值的数据

大数据——存储在跨越多台计算机或服务器场的巨大数据库中的数据称为大数据。 生物特征数据、社交媒体数据等被视为大数据。 大数据的特点是 4 V

数据预处理

数据分类——这是将数据分类或标记为数字、文本或图像、文本、视频等类别的过程。

数据清理——它包括清除丢失/不一致/不兼容的数据或使用以下方法之一替换数据。

  1. 插值
  2. 启发式
  3. 随机分配
  4. 最近邻

数据屏蔽– 隐藏或屏蔽机密数据以维护敏感信息的隐私,同时仍能对其进行处理。

数据科学是由什么组成的?

统计概念

回归

线性回归

线性回归用于建立供需、价格和消费等两个变量之间的关系。它将一个变量 x 作为另一个变量 y 的线性函数,如下所示

Y = f(x) 或 Y =mx + c,其中 m = 系数

逻辑回归

逻辑回归建立了一种概率关系,而不是变量之间的线性关系。 结果答案是 0 或 1,我们寻找概率,曲线是 S 形曲线。

如果 p < 0.5,则为 0,否则为 1

公式:

Y = e^ (b0 + b1x) / (1 + e^ (b0 +b1x))

其中 b0 = 偏差和 b1 = 系数

可能性

概率有助于预测事件发生的可能性。 一些术语:

样本:一组可能的结果

事件:它是样本空间的子集

随机变量:随机变量有助于将可能的结果映射或量化为样本空间中的数字或线条

概率分布

离散分布:以一组离散值(整数)的形式给出概率

P[X=x] = p(x)

图片来源

连续分布:给出多个连续点或区间而不是离散值的概率。 公式:

P[a ≤ x ≤ b] = a∫bf(x) dx,其中 a, b 是点

图片来源

相关性和协方差

标准偏差:给定数据集与其平均值的变化或偏差

σ = √ {(Σi=1N ( xi – x ) ) / (N -1)}

协方差

它定义了随机变量 X 和 Y 与数据集的平均值的偏差程度。

Cov(X,Y) = σ2XY ​= E[(X−μX​)(Y−μY​)] = E[XY]−μX​μY​​

相关性

相关性定义变量之间线性关系的程度及其方向,+ve 或 -ve

ρXY​= σ2XY/​​​ σX *​ *σY​

人工智能

机器获取知识并根据输入做出决策的能力称为人工智能或简称 AI。

类型

  1. 反应式机器:反应式机器人工智能通过缩小到最快和最好的选项来学习对预定义的场景做出反应。 它们缺乏内存,最适合具有定义的参数集的任务。 高度可靠和一致。
  2. 内存有限:这个人工智能有一些现实世界的观察数据和遗留数据。 它可以根据给定的数据进行学习和决策,但无法获得新的经验。
  3. 心智理论:它是一种交互式人工智能,可以根据周围实体的行为做出决策。
  4. 自我意识:这个人工智能意识到它的存在和远离周围环境的功能。 它可以发展认知能力,理解和评估自己的行为对周围环境的影响。

人工智能术语

神经网络

神经网络是一组互连节点或网络,它们在系统中中继数据和信息。 神经网络被建模为模仿我们大脑中的神经元,并且可以通过学习和预测来做出决定。

启发式

启发式方法是在可用信息不完整的情况下使用先前经验快速基于近似值和估计进行预测的能力。 它很快但不准确或不精确。

基于案例的推理

从以前的问题解决案例中学习并在当前情况下应用它们以得出可接受的解决方案的能力

自然语言处理

这只是机器直接理解人类语音或文本并与之交互的能力。 例如,汽车中的语音命令

机器学习

机器学习只是人工智能的一种应用,它使用各种模型和算法来预测和解决问题。

类型

监督

此方法依赖于与输出数据相关联的输入数据。 机器有一组目标变量 Y,它必须在优化算法的监督下通过一组输入变量 X 到达目标变量。 监督学习的例子有神经网络、随机森林、深度学习、支持向量机等。

无监督

在这种方法中,输入变量没有标签或关联,算法致力于寻找模式和集群,从而产生新的知识和见解。

加强型

强化学习侧重于即兴创作技巧,以提高或完善学习行为。 这是一种基于奖励的方法,机器逐渐改进其技术以赢得目标奖励。

建模方法

回归

回归模型总是通过连续数据的插值或外推将数字作为输出。

分类

分类模型将输出作为类或标签提出,并且更擅长预测离散结果,例如“什么样的”

回归和分类都是监督模型。

聚类

聚类是一种基于特征、属性、特征等识别聚类的无监督模型。

机器学习算法

决策树

决策树使用二元方法根据每个阶段的连续问题得出解决方案,这样结果就是“是”或“否”等两个可能的问题之一。 决策树易于实现和解释。

随机森林或套袋

随机森林是一种高级的决策树算法。 它使用了大量的决策树,使得结构像森林一样密集而复杂。 它产生多种结果,从而导致更准确的结果和性能。

K-最近邻(KNN)

kNN 利用绘图上最近数据点相对于新数据点的接近度来预测它属于哪个类别。新数据点被分配给具有更多邻居数的类别。

k = 最近邻居的数量

朴素贝叶斯

朴素贝叶斯在两个支柱上工作,首先,数据点的每个特征都是独立的、彼此无关的,即唯一的,其次是基于条件或假设预测结果的贝叶斯定理。

贝叶斯定理:

P(X|Y) = {P(Y|X) * P(X)} / P(Y)

其中 P(X|Y) = 给定 Y 出现时 X 的条件概率

P(Y|X) = 给定 X 出现时 Y 的条件概率

P(X), P(Y) = X 和 Y 的概率

支持向量机

该算法尝试根据可以是线或平面的边界在空间中分离数据。 该边界称为“超平面”,由每个类的最近数据点定义,这些数据点又称为“支持向量”。 两边支持向量之间的最大距离称为边距。

神经网络

感知器

基本的神经网络通过基于阈值的加权输入和输出来工作。

前馈神经网络

FFN 是最简单的网络,仅在一个方向上传输数据。 可能有也可能没有隐藏层。

卷积神经网络

CNN 使用卷积层批量处理输入数据的某些部分,然后使用池化层完成输出。

递归神经网络

RNN 由 I/O 层之间的几个循环层组成,可以存储“历史”数据。 数据流是双向的,并被馈送到循环层以改进预测。

深度神经网络和深度学习

DNN 是一个在 I/O 层之间具有多个隐藏层的网络。 隐藏层在将数据发送到输出层之前对数据进行连续转换。

通过 DNN 促进“深度学习” ,由于具有多个隐藏层,因此可以处理大量复杂数据并实现高精度

获得世界顶尖大学的数据科学认证学习行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。

结论

数据科学是一个广阔的领域,它贯穿不同的流派,但对我们来说却是一场革命和启示。 数据科学正在蓬勃发展,并将改变我们系统在未来的工作方式和感觉。

如果您想了解数据科学,请查看 IIIT-B 和 upGrad 的数据科学 PG 文凭,该文凭专为在职专业人士而设,提供 10 多个案例研究和项目、实用的实践研讨会、与行业专家的指导、1-与行业导师面对面交流,400 多个小时的学习和顶级公司的工作协助。

哪种编程语言最适合数据科学,为什么?

数据科学有几十种编程语言,但大多数数据科学社区认为,如果你想在数据科学方面表现出色,那么 Python 是正确的选择。 以下是支持这一信念的一些原因:
1. Python 具有广泛的模块和库,例如 TensorFlow 和 PyTorch,可以轻松处理数据科学概念。
2. 庞大的 Python 开发者社区不断帮助新手进入数据科学之旅的下一阶段。

3. 这种语言是迄今为止最方便、最容易编写的语言之一,其语法简洁,提高了可读性。

使数据科学完整的概念是什么?

数据科学是一个广阔的领域,可以作为各种其他关键领域的保护伞。 以下是构成数据科学的最突出的概念:
统计数据
统计学是一个重要的概念,你必须精通才能在数据科学中取得进步。 它还有一些子主题:
1. 线性回归
2.概率
3. 概率分布
人工智能
为机器提供大脑并让它们根据输入做出自己的决定的科学被称为人工智能。 反应性机器、有限记忆、心理理论和自我意识是人工智能的一些类型。

机器学习
机器学习是数据科学的另一个重要组成部分,它处理教学机器根据提供的数据预测未来结果。 机器学习具有三种突出的建模方法——聚类、回归和分类。

描述机器学习的类型?

机器学习或简单 ML 根据其工作方法分为三大类型。 这些类型如下:
1.监督学习
这是最原始的 ML 类型,其中输入数据被标记。 该机器提供了一组较小的数据,可以让机器深入了解问题并对其进行训练。
2.无监督学习
这种类型的最大优点是这里的数据没有标记,人工几乎可以忽略不计。 这为将更大的数据集引入模型打开了大门。
3.强化学习这是最先进的机器学习类型,它受到人类生活的启发。 期望的输出得到加强,而无用的输出则被劝阻。