20 de întrebări și răspunsuri comune la interviu R pentru 2022

Publicat: 2021-01-10

În ultimii câțiva ani, limbajul de programare R a câștigat o acțiune semnificativă în comunitățile Data Science și Machine Learning. Acest lucru se datorează în principal pentru că este un limbaj multifuncțional care poate fi utilizat pentru analiză statistică, vizualizare a datelor, manipulare a datelor, modelare predictivă, analiză de prognoză și multe altele.

Pe măsură ce oportunitățile de angajare din jurul R cresc rapid și cursurile de știință a datelor prosperă, astăzi, ne vom concentra pe prima parte a obținerii unui loc de muncă în domeniu – interviul R. Iată o listă cu cele mai frecvente întrebări din interviurile R!

Ce este R?

R este un limbaj de programare și un mediu special conceput pentru calcul statistic și grafică. Vine cu un catalog extins de metode statistice și grafice, inclusiv regresia liniară, clasificarea, gruparea, analiza serii de timp, inferența statistică și algoritmi ML, pentru a numi câteva.

Denumiți diferitele structuri de date din R.

R are patru structuri de date primare:

Vector – Este o secvență de elemente de date aparținând aceluiași tip. Membrii dintr-un Vector sunt cunoscuți ca componente.
Listă – Este un obiect R care poate conține elemente de diferite tipuri, inclusiv numere, șiruri, vectori sau altă listă.
Matrice – Este o structură de date bidimensională care poate lega vectori de aceeași lungime. Elementele dintr-o Matrice trebuie să fie de același tip – numerice, sau de caractere, sau logice sau complexe.
Dataframe – Este o versiune mai generică a unei matrice, adică poate conține elemente de diferite tipuri de date. Un cadru de date combină caracteristicile Matricelor și Listelor ca o listă dreptunghiulară, iar coloanele sale au, de obicei, diferite tipuri de date.

Numiți diferitele componente ale gramaticii graficii?

Diferitele componente ale gramaticii graficii sunt:

Stratul de date
Strat de fațete
Stratul teme
Stratul estetic
Stratul de geometrie
Strat de coordonate

Cum se instalează un pachet în R?

Pentru a instala un pachet în R, trebuie să scrieți această comandă:

install.packages(„<nume_pachet>”)

Cum se importă datele în R?

Pentru a importa date în R, trebuie să utilizați GUI-ul comandant R, tastând comanda „Rcmdr” în consola R. Există trei moduri de a importa date în R:

Puteți fie să introduceți numele setului de date, fie să alegeți setul de date în caseta de dialog după cum credeți că este potrivit.

Puteți introduce datele direct folosind editorul R Commander: Date->New Data Set. Acest lucru funcționează cel mai bine pentru seturi de date mici și mijlocii.
Puteți importa date din clipboard, sau dintr-un URL sau dintr-un fișier text simplu (ASCII) sau din orice pachet statistic.

Ce este Rmarkdown?

RMarkdown este instrumentul de raportare al lui R. Vă permite să creați rapoarte de înaltă calitate ale codului R.

Există trei tipuri de format de ieșire pentru Rmarkdown:

HTML
CUVÂNT
PDF

Ce este „t-tests()” în R?

În R, testul t() este utilizat pentru a determina dacă mediile a două grupuri sunt sau nu egale între ele.

Care sunt pachetele R utilizate pentru imputarea datelor?

Pachetele R cel mai frecvent utilizate pentru imputarea datelor sunt:

Mi
SOARECI
Hmisc
Amelia
imputeR
missForest

Ce este o „matrice de confuzie” în R?

În R, o matrice de confuzie este utilizată pentru a evalua acuratețea unui model dezvoltat. Oferă un calcul încrucișat al claselor observate și prezise prin utilizarea funcției „confusionmatrix()” conținută în pachetul „caTools”.

10. Ce este o pădure aleatorie? Cum puteți construi și evalua o pădure aleatorie în R?

Random Forest este un clasificator de ansamblu construit dintr-o combinație de mai multe modele de arbore de decizie. Deoarece combină rezultatele a numeroase modele de arbore de decizie, rezultatul este mult mai precis decât cel al modelelor individuale.

Pentru a construi un model Random Forest în R, trebuie să aveți un set de date de antrenament. Apoi procedați făcând următoarele:

Mai întâi, segregați setul de date în setul de antrenament și setul de testare->

Acum, construiește modelul Random Forest pe garnitura de tren->
În cele din urmă, preziceți modelul Random Forest pe setul de testare->

Ce este ShinyR?

ShinyR este un pachet R care permite dezvoltarea ușoară și sigură a aplicațiilor web interactive folosind direct R.

Cu ShinyR, puteți găzdui aplicații autonome pe o pagină web sau le puteți, de asemenea, încorpora în documentele Rmarkdown. De asemenea, vă puteți extinde aplicațiile strălucitoare pentru a funcționa cu teme CSS, acțiuni JavaScript și widget-uri HTML.

Denumiți pachetele utilizate pentru extragerea datelor în R.

Pachetele R utilizate pentru data mining sunt:

Rpart și caret
Tabel de date
Prognoza
GGplot
Arules
tm

Care sunt scopurile regresiei logistice și regresiei Poisson?

În timp ce regresia logistică ajută la prezicerea rezultatului binar din setul dat de variabile predictoare continue, regresia Poisson este utilizată pentru a prezice variabila rezultat reprezentând „numărări” din setul dat de variabile predictoare continue.

Cum sunt reprezentate valorile lipsă în R?

În R, valorile lipsă sunt reprezentate de funcția NA (Not Available). Cu toate acestea, pentru valori imposibile, se folosește NaN (nu un număr).

Ce funcție este folosită pentru a adăuga seturi de date în R?

În R, funcția „bind” este folosită pentru a uni două cadre de date sau seturi de date. Cu toate acestea, cele două cadre de date/seturi de date trebuie să conțină variabile de același tip.

Cum salvezi datele în R?

Deși există multe modalități de a salva date în R, cel mai eficient mod de a face acest lucru este:

Date > Active Data Set > Export Active Data Set

După aceasta, veți vedea o casetă de dialog care va apărea în fața dvs. Când faceți clic pe acea casetă de dialog, vă puteți salva datele așa cum ați proceda în mod normal.

Care sunt algoritmii de sortare din R?

R are cinci tipuri de algoritmi de sortare:

Sortare selecție
Sortare cu găleată
Sortare cu bule
Merge Sort
Sortare rapida

Ce este un model White Noise?

Un model de zgomot alb (WN) este un model de serie de timp. Este cel mai simplu mod de a descrie un proces staționar.

Un model WN cuprinde:

O medie constantă fixă
O variație constantă fixă
Fără corelație în timp

Denumiți funcțiile de import în R.

Diferitele funcții de import din R includ:

citiți.csv()->
read_sas()->
read_excel()->
read_sav()->

Denumiți funcțiile utilizate pentru depanare în R.

Funcțiile utilizate pentru depanare în R sunt:

urmarire()
depanare()
browser()
urmă()
recupera()

Deci, gata! Acestea sunt unele dintre cele mai frecvente întrebări la interviu R. Sper că acest lucru te va ajuta să spargi gheața și să sapi constant în limba pe măsură ce mergi.

Învățare fericită!

Ce sunt structurile de date în R?

Structurile de date sunt containerele care stochează datele pentru a le utiliza eficient. În primul rând, limbajul R are 4 structuri de date: Vector este o structură de date alocată dinamic care acționează ca un container și stochează valorile cu tipuri de date similare. Valorile datelor stocate într-un vector sunt cunoscute ca componente. O listă poate fi considerată ca un obiect R care poate stoca valori de date de mai multe tipuri de date, cum ar fi numere întregi, șiruri de caractere, caractere sau altă listă. Matricea este o structură de date asemănătoare grilei care leagă vectori de aceeași lungime. Este o structură de date 2-D și toate elementele din cadrul acesteia trebuie să fie de același tip de date. Un cadru de date este similar cu o matrice, cu excepția faptului că este mai generic. Poate deține valori cu diferite tipuri de date, cum ar fi numere întregi, șiruri de caractere și caractere. Arată combinația dintre caracteristicile unei liste și ale unei matrice.

Ce este pădurea aleatorie?

Random Forest este un clasificator de ansamblu. După cum sugerează și numele, acesta construiește și leagă mai mulți arbori de decizie pentru a îmbunătăți acuratețea predicției a modelului. Fiecare observație este furnizată fiecărui arbore de decizie și este de natură neliniară. Un set de date de antrenament este necesar pentru a construi o pădure aleatoare în R. Odată ce ați adunat setul de date de antrenament, există doi pași importanți care trebuie urmați pentru a realiza pădurea aleatoare: Împărțiți setul de date în setul de date de antrenament și setul de date de testare. Utilizați setul de date de antrenament pentru a construi pădurea aleatoare și utilizați setul de date de testare pentru a prezice modelul de pădure aleatoare.

Ce este ShinyR și care este semnificația lui?

ShinyR este un pachet open-source de limbaj R care oferă un cadru web puternic care este utilizat pentru a dezvolta aplicații și proiecte web interactive. Cu ShinyR, vă puteți converti analizele în aplicații web fără tehnologii web proeminente precum HTML, CSS sau JavaScript. În ciuda faptului că este un instrument atât de puternic, este ușor de învățat și de implicat. Aplicațiile dezvoltate cu ShinyR pot fi extinse pentru a fi utilizate eficient cu widget-uri HTML, teme CSS și acțiuni JavaScript. De asemenea, cu ShinyR, puteți găzdui aplicații de sine stătătoare pe o pagină web sau le puteți încorpora și în documentele Rmarkdown.