2022 年 20 個常見的 R 面試問題和答案

已發表: 2021-01-10

在過去的幾年裡,R 編程語言在數據科學和機器學習社區中獲得了巨大的關注。 這主要是因為它是一種多用途語言,可用於統計分析、數據可視化、數據操作、預測建模、預測分析等等。

隨著圍繞 R 的工作機會迅速增加和數據科學課程蓬勃發展,今天,我們將專注於在該領域找到工作的第一部分——R 面試。 以下是 R 面試中最常見的問題列表!

  1. 什麼是R?

R 是一種專門為統計計算和圖形設計的編程語言和環境。 它帶有廣泛的統計和圖形方法目錄,包括線性回歸、分類、聚類、時間序列分析、統計推斷和 ML 算法等等。

  1. 命名 R 中的不同數據結構。

R 有四種主要的數據結構:

  • 向量——它是屬於同一類型的數據元素序列。 Vector 中的成員稱為組件。
  • 列表——它是一個 R 對象,可以包含不同類型的元素,包括數字、字符串、向量或其他列表。
  • 矩陣——它是一種二維數據結構,可以綁定相同長度的向量。 Matrix 中的元素必須是相同的類型——數字、字符、邏輯或複數。
  • 數據框——它是矩陣的更通用版本,即它可以包含不同數據類型的元素。 Dataframe 像矩形列表一樣結合了矩陣和列表的特性,其列通常具有不同的數據類型。
  1. 命名圖形語法的各個組成部分?

圖形語法的不同組成部分是:

  • 數據層
  • 刻面層
  • 主題層
  • 美學層
  • 幾何層
  • 坐標層
  1. 如何在 R 中安裝包?

要在 R 中安裝軟件包,您必須編寫以下命令:

install.packages(“<package_name>”)

  1. R中如何導入數據?

要在 R 中導入數據,您必須通過在 R 控制台中鍵入命令“Rcmdr”來使用 R 命令 GUI。 R中導入數據的三種方式:

您可以輸入數據集的名稱,也可以在對話框中選擇您認為合適的數據集。

  • 您可以使用 R Commander 的編輯器直接輸入數據:Data->New Data Set。 這最適合中小型數據集。
  • 您可以從剪貼板、URL、純文本文件 (ASCII) 或任何統計包導入數據。
  1. 什麼是降價?

RMarkdown 是 R 的報告工具​​。 它允許您創建高質量的 R 代碼報告。

Rmarkdown的輸出格式有3種:

  • HTML
  • 單詞
  • PDF格式
  1. 什麼是 R 中的“t-tests()”?

在 R 中,t-test() 用於確定兩組的均值是否相等。

  1. 用於數據插補的 R 包是什麼?

最常用於數據插補的 R 包是:

  • 老鼠
  • 混雜
  • 阿米莉亞
  • 估算
  • 森林小姐
  1. 什麼是 R 中的“混淆矩陣”?

在 R 中,混淆矩陣用於評估開發模型的準確性。 它通過使用“caTools”包中包含的“confusionmatrix()”函數提供觀察和預測類的交叉表計算。

10.什麼是隨機森林? 如何在 R 中構建和評估隨機森林?

隨機森林是由許多決策樹模型組合而成的集成分類器。 由於它結合了眾多決策樹模型的結果,因此結果比單個模型的結果準確得多。

要在 R 中構建隨機森林模型,您必須有一個訓練數據集。 然後繼續執行以下操作:

首先,將數據集分為訓練集和測試集->

  • 現在,在訓練集上構建隨機森林模型->
  • 最後,在測試集上預測隨機森林模型->
  1. 什麼是 ShinyR?

ShinyR 是一個 R 包,它允許直接使用 R 輕鬆安全地開發交互式 Web 應用程序。

使用 ShinyR,您可以在網頁上託管獨立的應用程序,也可以將它們嵌入到 Rmarkdown 文檔中。 此外,您可以擴展閃亮的應用程序以使用 CSS 主題、JavaScript 操作和 HTML 小部件。

  1. 命名用於 R 中數據挖掘的包。

用於數據挖掘的 R 包是:

  • Rpart 和插入符號
  • 數據表
  • 預報
  • GG圖
  • 阿魯斯
  • Tm值
  1. 邏輯回歸和泊松回歸的目的是什麼?

雖然邏輯回歸有助於從給定的一組連續預測變量預測二元結果,但泊松回歸用於預測表示來自給定連續預測變量集的“計數”的結果變量。

  1. R中的缺失值如何表示?

在 R 中,缺失值由 NA(不可用)函數表示。 但是,對於不可能的值,使用 NaN(不是數字)。

  1. 哪個函數用於在 R 中添加數據集?

在 R 中,“rbind”函數用於連接兩個數據幀或數據集。 但是,兩個數據框/數據集必須包含相同類型的變量。

  1. 你如何在R中保存數據?

雖然有很多方法可以在 R 中保存數據,但最有效的方法是:

數據 > 活動數據集 > 導出活動數據集

之後,您將看到一個對話框出現在您面前。 當您單擊該對話框時,您可以像往常一樣保存數據。

  1. R中的排序算法是什麼?

R有五種排序算法:

  • 選擇排序
  • 桶排序
  • 冒泡排序
  • 合併排序
  • 快速排序
  1. 什麼是白噪聲模型?

白噪聲 (WN) 模型是一種時間序列模型。 這是描述平穩過程的最簡單方法。

WN 模型包括:

  • 固定不變的平均值
  • 固定不變的方差
  • 隨著時間的推移沒有相關性
  1. 在 R 中命名導入函數。

R 中的不同導入函數包括:

  • 讀取.csv()->
  • read_sas()->
  • read_excel()->
  • read_sav()->
  1. 命名在 R 中用於調試的函數。

R中用於調試的函數有:

  • 追溯()
  • 調試()
  • 瀏覽器()
  • 痕跡()
  • 恢復()

所以,給你! 這些是一些最常見的 R 面試問題。 希望這將幫助您打破僵局並在您前進的過程中穩步深入了解該語言。

快樂學習!

R中的數據結構是什麼?

數據結構是存儲數據以有效使用數據的容器。 R 語言主要有 4 種數據結構: Vector 是一種動態分配的數據結構,它充當容器並存儲具有相似數據類型的值。 存儲在向量中的數據值稱為分量。 列表可以被認為是一個 R 對象,可以存儲多種數據類型的數據值,例如整數、字符串、字符或另一個列表。 矩陣是一種類似網格的數據結構,它綁定了相同長度的向量。 它是一個二維數據結構,其中的所有元素必須是相同的數據類型。 數據框類似於矩陣,只是它更通用。 它可以保存具有不同數據類型的值,例如整數、字符串和字符。 它顯示了列表和矩陣的特徵的組合。

什麼是隨機森林?

隨機森林是一個集成分類器。 顧名思義,它構建並綁定了多個決策樹,以提高模型的預測精度。 每個觀察都提供給每個決策樹,並且它本質上是非線性的。 為了在 R 中構建隨機森林,訓練數據集是必要的。收集訓練數據集後,為了實現隨機森林,必須遵循兩個重要步驟:將數據集劃分為訓練數據集和測試數據集。 使用訓練數據集構建隨機森林,使用測試數據集預測隨機森林模型。

什麼是 ShinyR,它的意義是什麼?

ShinyR 是 R 語言的一個開源包,它提供了一個強大的 Web 框架,用於開發交互式 Web 應用程序和項目。 使用 ShinyR,您可以將分析轉換為 Web 應用程序,而無需 HTML、CSS 或 JavaScript 等突出的 Web 技術。 儘管它是一個如此強大的工具,但它很容易學習和暗示。 使用 ShinyR 開發的應用程序可以擴展為與 HTML 小部件、CSS 主題和 JavaScript 操作一起有效使用。 此外,使用 ShinyR,您可以在網頁上託管獨立的應用程序,也可以將它們嵌入到 Rmarkdown 文檔中。