20 häufige Fragen und Antworten zu R-Interviews für 2022

Veröffentlicht: 2021-01-10

In den letzten Jahren hat die Programmiersprache R in den Data Science- und Machine Learning-Communities erheblich an Bedeutung gewonnen. Dies liegt hauptsächlich daran, dass es sich um eine Mehrzwecksprache handelt, die für statistische Analysen, Datenvisualisierung, Datenmanipulation, Vorhersagemodellierung, Prognoseanalyse und vieles mehr verwendet werden kann.

Da die Jobmöglichkeiten rund um R schnell zunehmen und Data-Science-Kurse florieren, werden wir uns heute auf den ersten Teil der Jobsuche in der Domäne konzentrieren – das R-Interview. Hier ist eine Liste der am häufigsten gestellten Fragen in R-Interviews!

  1. Was ist R?

R ist eine Programmiersprache und -umgebung, die speziell für statistische Berechnungen und Grafiken entwickelt wurde. Es enthält einen umfangreichen Katalog statistischer und grafischer Methoden, darunter lineare Regression, Klassifizierung, Clustering, Zeitreihenanalyse, statistische Inferenz und ML-Algorithmen, um nur einige zu nennen.

  1. Nennen Sie die verschiedenen Datenstrukturen in R.

R hat vier primäre Datenstrukturen:

  • Vektor – Es ist eine Folge von Datenelementen, die zum gleichen Typ gehören. Mitglieder innerhalb eines Vektors werden als Komponenten bezeichnet.
  • Liste – Es ist ein R-Objekt, das Elemente verschiedener Typen enthalten kann, einschließlich Zahlen, Zeichenfolgen, Vektoren oder einer anderen Liste.
  • Matrix – Es ist eine zweidimensionale Datenstruktur, die Vektoren gleicher Länge binden kann. Die Elemente innerhalb einer Matrix müssen vom gleichen Typ sein – numerisch oder Zeichen oder logisch oder komplex.
  • Datenrahmen – Es ist eine allgemeinere Version einer Matrix, das heißt, sie kann Elemente verschiedener Datentypen enthalten. Ein Datenrahmen kombiniert die Eigenschaften von Matrizen und Listen wie eine rechteckige Liste, und seine Spalten haben normalerweise unterschiedliche Datentypen.
  1. Nennen Sie die verschiedenen Bestandteile der Grafikgrammatik?

Die verschiedenen Komponenten der Grafikgrammatik sind:

  • Datenschicht
  • Facettenschicht
  • Themenebene
  • Ästhetik-Schicht
  • Geometrieebene
  • Koordinatenebene
  1. Wie installiere ich ein Paket in R?

Um ein Paket in R zu installieren, müssen Sie diesen Befehl schreiben:

install.packages(“<Paketname>“)

  1. Wie werden Daten in R importiert?

Um Daten in R zu importieren, müssen Sie die R Commander-GUI verwenden, indem Sie den Befehl „Rcmdr“ in die R-Konsole eingeben. Es gibt drei Möglichkeiten, Daten in R zu importieren:

Sie können entweder den Namen des Datensatzes eingeben oder den Datensatz nach Belieben im Dialogfeld auswählen.

  • Sie können die Daten direkt über den Editor von R Commander eingeben: Daten->Neuer Datensatz. Dies funktioniert am besten für kleine bis mittelgroße Datensätze.
  • Sie können Daten aus der Zwischenablage, einer URL, einer einfachen Textdatei (ASCII) oder einem beliebigen Statistikpaket importieren.
  1. Was ist Rmarkdown?

RMarkdown ist das Reporting-Tool von R. Es ermöglicht Ihnen, hochwertige Berichte von R-Code zu erstellen.

Es gibt drei Arten von Ausgabeformaten von Rmarkdown:

  • HTML
  • WORT
  • Pdf
  1. Was ist „t-tests()“ in R?

In R wird der t-test() verwendet, um zu bestimmen, ob die Mittelwerte zweier Gruppen einander gleich sind oder nicht.

  1. Welche R-Pakete werden für die Datenimputation verwendet?

Die am häufigsten für die Datenimputation verwendeten R-Pakete sind:

  • Mi
  • MÄUSE
  • Hmisch
  • Amelia
  • unterstellenR
  • MissWald
  1. Was ist eine „Verwirrungsmatrix“ in R?

In R wird eine Konfusionsmatrix verwendet, um die Genauigkeit eines entwickelten Modells zu bewerten. Es bietet eine Kreuztabellenberechnung von beobachteten und vorhergesagten Klassen unter Verwendung der Funktion „confusionmatrix()“, die im Paket „caTools“ enthalten ist.

10. Was ist ein Random Forest? Wie kann man einen Random Forest in R aufbauen und auswerten?

Random Forest ist ein Ensemble-Klassifikator, der aus einer Kombination vieler Entscheidungsbaummodelle aufgebaut ist. Da es die Ergebnisse zahlreicher Entscheidungsbaummodelle kombiniert, ist das Ergebnis viel genauer als das der einzelnen Modelle.

Um ein Random Forest-Modell in R zu erstellen, benötigen Sie ein Trainingsdataset. Fahren Sie dann wie folgt fort:

Trennen Sie zuerst den Datensatz in den Trainingssatz und den Testsatz->

  • Bauen Sie nun das Modell Random Forest auf dem Zugset->
  • Sagen Sie schließlich das Random Forest-Modell auf dem Testsatz voraus ->
  1. Was ist ShinyR?

ShinyR ist ein R-Paket, das die einfache und sichere Entwicklung interaktiver Web-Apps direkt mit R ermöglicht.

Mit ShinyR können Sie eigenständige Apps auf einer Webseite hosten oder sie auch in Rmarkdown-Dokumente einbetten. Außerdem können Sie Ihre glänzenden Apps so erweitern, dass sie mit CSS-Designs, JavaScript-Aktionen und HTML-Widgets funktionieren.

  1. Benennen Sie die Pakete, die für das Data Mining in R verwendet werden.

Die für Data Mining verwendeten R-Pakete sind:

  • Rpart und Caret
  • Datentabelle
  • Vorhersage
  • GGplot
  • Regeln
  • tm
  1. Was sind die Zwecke der logistischen Regression und der Poisson-Regression?

Während die logistische Regression dabei hilft, das binäre Ergebnis aus dem gegebenen Satz von kontinuierlichen Prädiktorvariablen vorherzusagen, wird die Poisson-Regression verwendet, um die Ergebnisvariable vorherzusagen, die „Zählungen“ aus dem gegebenen Satz von kontinuierlichen Prädiktorvariablen darstellt.

  1. Wie werden fehlende Werte in R dargestellt?

In R werden die fehlenden Werte durch die Funktion NA (Not Available) dargestellt. Für unmögliche Werte wird jedoch NaN (keine Zahl) verwendet.

  1. Welche Funktion wird zum Hinzufügen von Datensätzen in R verwendet?

In R wird die Funktion „rbind“ verwendet, um zwei Datenrahmen oder Datensätze zu verbinden. Die beiden Datenrahmen/Datensätze müssen jedoch Variablen desselben Typs enthalten.

  1. Wie speichert man Daten in R?

Obwohl es viele Möglichkeiten gibt, Daten in R zu speichern, ist die effizienteste Methode die folgende:

Daten > Aktiver Datensatz > Aktiven Datensatz exportieren

Danach wird vor Ihnen ein Dialogfeld angezeigt. Wenn Sie auf dieses Dialogfeld klicken, können Sie Ihre Daten wie gewohnt speichern.

  1. Was sind die Sortieralgorithmen in R?

R hat fünf Arten von Sortieralgorithmen:

  • Auswahl sortieren
  • Bucket-Sortierung
  • Blasensortierung
  • Zusammenführen, sortieren
  • Schnelle Sorte
  1. Was ist ein White-Noise-Modell?

Ein White Noise (WN)-Modell ist ein Zeitreihenmodell. Es ist die einfachste Art, einen stationären Prozess darzustellen.

Ein WN-Modell besteht aus:

  • Ein fester konstanter Mittelwert
  • Eine feste konstante Varianz
  • Keine zeitliche Korrelation
  1. Benennen Sie die Importfunktionen in R.

Zu den verschiedenen Importfunktionen in R gehören:

  • read.csv()->
  • read_sas()->
  • read_excel()->
  • read_sav()->
  1. Nennen Sie die Funktionen, die zum Debuggen in R verwendet werden.

Die zum Debuggen in R verwendeten Funktionen sind:

  • zurück verfolgen()
  • debuggen()
  • Browser()
  • verfolgen()
  • Wiederherstellung()

Hier bitteschön! Dies sind einige der am häufigsten gestellten Fragen in R-Interviews. Ich hoffe, dies wird Ihnen helfen, das Eis zu brechen und sich dabei stetig in die Sprache einzuarbeiten.

Viel Spaß beim Lernen!

Was sind Datenstrukturen in R?

Datenstrukturen sind die Container, die die Daten speichern, um sie effizient zu nutzen. In erster Linie hat die Sprache R 4 Datenstrukturen: Vector ist eine dynamisch zugewiesene Datenstruktur, die als Container fungiert und die Werte mit ähnlichen Datentypen speichert. In einem Vektor gespeicherte Datenwerte werden als Komponenten bezeichnet. Eine Liste kann als ein R-Objekt betrachtet werden, das Datenwerte mehrerer Datentypen wie Ganzzahlen, Zeichenfolgen, Zeichen oder eine andere Liste speichern kann. Die Matrix ist eine gitterartige Datenstruktur, die Vektoren gleicher Länge bindet. Es ist eine 2-D-Datenstruktur und alle darin enthaltenen Elemente müssen vom gleichen Datentyp sein. Ein Datenrahmen ähnelt einer Matrix, außer dass er allgemeiner ist. Es kann Werte mit verschiedenen Datentypen wie Ganzzahlen, Zeichenfolgen und Zeichen enthalten. Es zeigt die Kombination der Merkmale einer Liste und einer Matrix.

Was ist Random Forest?

Random Forest ist ein Ensemble-Klassifikator. Wie der Name schon sagt, erstellt und bindet es mehrere Entscheidungsbäume, um die Vorhersagegenauigkeit des Modells zu verbessern. Jede Beobachtung wird jedem Entscheidungsbaum bereitgestellt und ist von Natur aus nichtlinear. Ein Trainingsdatensatz ist erforderlich, um eine zufällige Gesamtstruktur in R zu erstellen. Nachdem Sie den Trainingsdatensatz gesammelt haben, müssen zwei wichtige Schritte befolgt werden, um die zufällige Gesamtstruktur zu erreichen: Unterteilen Sie den Datensatz in den Trainingsdatensatz und den Testdatensatz. Verwenden Sie das Trainingsdataset, um die Random Forest zu erstellen, und verwenden Sie das Testdataset, um das Random Forest-Modell vorherzusagen.

Was ist ShinyR und welche Bedeutung hat es?

ShinyR ist ein Open-Source-Paket der R-Sprache, das ein leistungsstarkes Web-Framework bereitstellt, das zur Entwicklung interaktiver Webanwendungen und -projekte verwendet wird. Mit ShinyR wandeln Sie Ihre Analysen ohne prominente Webtechnologien wie HTML, CSS oder JavaScript in Webanwendungen um. Obwohl es ein so mächtiges Werkzeug ist, ist es leicht zu erlernen und zu implizieren. Die mit ShinyR entwickelten Apps können erweitert werden, um sie effizient mit HTML-Widgets, CSS-Designs und JavaScript-Aktionen zu verwenden. Außerdem können Sie mit ShinyR eigenständige Apps auf einer Webseite hosten oder sie in Rmarkdown-Dokumente einbetten.