2022 年 20 个常见的 R 面试问题和答案

已发表: 2021-01-10

在过去的几年里,R 编程语言在数据科学和机器学习社区中获得了巨大的关注。 这主要是因为它是一种多用途语言,可用于统计分析、数据可视化、数据操作、预测建模、预测分析等等。

随着围绕 R 的工作机会迅速增加和数据科学课程蓬勃发展,今天,我们将专注于在该领域找到工作的第一部分——R 面试。 以下是 R 面试中最常见的问题列表!

  1. 什么是R?

R 是一种专门为统计计算和图形设计的编程语言和环境。 它带有广泛的统计和图形方法目录,包括线性回归、分类、聚类、时间序列分析、统计推断和 ML 算法等等。

  1. 命名 R 中的不同数据结构。

R 有四种主要的数据结构:

  • 向量——它是属于同一类型的数据元素序列。 Vector 中的成员称为组件。
  • 列表——它是一个 R 对象,可以包含不同类型的元素,包括数字、字符串、向量或其他列表。
  • 矩阵——它是一种二维数据结构,可以绑定相同长度的向量。 Matrix 中的元素必须是相同的类型——数字、字符、逻辑或复数。
  • 数据框——它是矩阵的更通用版本,即它可以包含不同数据类型的元素。 Dataframe 像矩形列表一样结合了矩阵和列表的特性,其列通常具有不同的数据类型。
  1. 命名图形语法的各个组成部分?

图形语法的不同组成部分是:

  • 数据层
  • 刻面层
  • 主题层
  • 美学层
  • 几何层
  • 坐标层
  1. 如何在 R 中安装包?

要在 R 中安装软件包,您必须编写以下命令:

install.packages(“<package_name>”)

  1. R中如何导入数据?

要在 R 中导入数据,您必须通过在 R 控制台中键入命令“Rcmdr”来使用 R 命令 GUI。 R中导入数据的三种方式:

您可以输入数据集的名称,也可以在对话框中选择您认为合适的数据集。

  • 您可以使用 R Commander 的编辑器直接输入数据:Data->New Data Set。 这最适合中小型数据集。
  • 您可以从剪贴板、URL、纯文本文件 (ASCII) 或任何统计包导入数据。
  1. 什么是降价?

RMarkdown 是 R 的报告工具。 它允许您创建高质量的 R 代码报告。

Rmarkdown的输出格式有3种:

  • HTML
  • 单词
  • PDF格式
  1. 什么是 R 中的“t-tests()”?

在 R 中,t-test() 用于确定两组的均值是否相等。

  1. 用于数据插补的 R 包是什么?

最常用于数据插补的 R 包是:

  • 老鼠
  • 混杂
  • 阿米莉亚
  • 估算
  • 森林小姐
  1. 什么是 R 中的“混淆矩阵”?

在 R 中,混淆矩阵用于评估开发模型的准确性。 它通过使用“caTools”包中包含的“confusionmatrix()”函数提供观察和预测类的交叉表计算。

10.什么是随机森林? 如何在 R 中构建和评估随机森林?

随机森林是由许多决策树模型组合而成的集成分类器。 由于它结合了众多决策树模型的结果,因此结果比单个模型的结果准确得多。

要在 R 中构建随机森林模型,您必须有一个训练数据集。 然后继续执行以下操作:

首先,将数据集分为训练集和测试集->

  • 现在,在训练集上构建随机森林模型->
  • 最后,在测试集上预测随机森林模型->
  1. 什么是 ShinyR?

ShinyR 是一个 R 包,它允许直接使用 R 轻松安全地开发交互式 Web 应用程序。

使用 ShinyR,您可以在网页上托管独立的应用程序,也可以将它们嵌入到 Rmarkdown 文档中。 此外,您可以扩展闪亮的应用程序以使用 CSS 主题、JavaScript 操作和 HTML 小部件。

  1. 命名用于 R 中数据挖掘的包。

用于数据挖掘的 R 包是:

  • Rpart 和插入符号
  • 数据表
  • 预报
  • GG图
  • 阿鲁斯
  • Tm值
  1. 逻辑回归和泊松回归的目的是什么?

虽然逻辑回归有助于从给定的一组连续预测变量预测二元结果,但泊松回归用于预测表示来自给定连续预测变量集的“计数”的结果变量。

  1. R中的缺失值如何表示?

在 R 中,缺失值由 NA(不可用)函数表示。 但是,对于不可能的值,使用 NaN(不是数字)。

  1. 哪个函数用于在 R 中添加数据集?

在 R 中,“rbind”函数用于连接两个数据帧或数据集。 但是,两个数据框/数据集必须包含相同类型的变量。

  1. 你如何在R中保存数据?

虽然有很多方法可以在 R 中保存数据,但最有效的方法是:

数据 > 活动数据集 > 导出活动数据集

之后,您将看到一个对话框出现在您面前。 当您单击该对话框时,您可以像往常一样保存数据。

  1. R中的排序算法是什么?

R有五种排序算法:

  • 选择排序
  • 桶排序
  • 冒泡排序
  • 合并排序
  • 快速排序
  1. 什么是白噪声模型?

白噪声 (WN) 模型是一种时间序列模型。 这是描述平稳过程的最简单方法。

WN 模型包括:

  • 固定不变的平均值
  • 固定不变的方差
  • 随着时间的推移没有相关性
  1. 在 R 中命名导入函数。

R 中的不同导入函数包括:

  • 读取.csv()->
  • read_sas()->
  • read_excel()->
  • read_sav()->
  1. 命名在 R 中用于调试的函数。

R中用于调试的函数有:

  • 追溯()
  • 调试()
  • 浏览器()
  • 痕迹()
  • 恢复()

所以,给你! 这些是一些最常见的 R 面试问题。 希望这将帮助您打破僵局并在您前进的过程中稳步深入了解该语言。

快乐学习!

R中的数据结构是什么?

数据结构是存储数据以有效使用数据的容器。 R 语言主要有 4 种数据结构: Vector 是一种动态分配的数据结构,它充当容器并存储具有相似数据类型的值。 存储在向量中的数据值称为分量。 列表可以被认为是一个 R 对象,可以存储多种数据类型的数据值,例如整数、字符串、字符或另一个列表。 矩阵是一种类似网格的数据结构,它绑定了相同长度的向量。 它是一个二维数据结构,其中的所有元素必须是相同的数据类型。 数据框类似于矩阵,只是它更通用。 它可以保存具有不同数据类型的值,例如整数、字符串和字符。 它显示了列表和矩阵的特征的组合。

什么是随机森林?

随机森林是一个集成分类器。 顾名思义,它构建并绑定了多个决策树,以提高模型的预测精度。 每个观察都提供给每个决策树,并且它本质上是非线性的。 为了在 R 中构建随机森林,训练数据集是必要的。收集训练数据集后,为了实现随机森林,必须遵循两个重要步骤:将数据集划分为训练数据集和测试数据集。 使用训练数据集构建随机森林,使用测试数据集预测随机森林模型。

什么是 ShinyR,它的意义是什么?

ShinyR 是 R 语言的一个开源包,它提供了一个强大的 Web 框架,用于开发交互式 Web 应用程序和项目。 使用 ShinyR,您可以将分析转换为 Web 应用程序,而无需 HTML、CSS 或 JavaScript 等突出的 Web 技术。 尽管它是一个如此强大的工具,但它很容易学习和暗示。 使用 ShinyR 开发的应用程序可以扩展为与 HTML 小部件、CSS 主题和 JavaScript 操作一起有效使用。 此外,使用 ShinyR,您可以在网页上托管独立的应用程序,也可以将它们嵌入到 Rmarkdown 文档中。