20 Domande e risposte comuni per l'intervista R per il 2022

Pubblicato: 2021-01-10

Negli ultimi anni, il linguaggio di programmazione R ha guadagnato un notevole successo nelle comunità di Data Science e Machine Learning. Ciò è principalmente dovuto al fatto che è un linguaggio multiuso che può essere utilizzato per analisi statistiche, visualizzazione dei dati, manipolazione dei dati, modellazione predittiva, analisi delle previsioni e molto altro.

Poiché le opportunità di lavoro relative a R stanno aumentando rapidamente e i corsi di scienza dei dati stanno prosperando, oggi ci concentreremo sulla prima parte dell'ottenimento di un lavoro nel dominio: il colloquio R. Ecco un elenco delle domande più frequenti nelle interviste R!

  1. Cos'è R?

R è un linguaggio di programmazione e un ambiente progettato specificamente per il calcolo statistico e la grafica. Viene fornito con un ampio catalogo di metodi statistici e grafici tra cui regressione lineare, classificazione, clustering, analisi di serie temporali, inferenza statistica e algoritmi ML, solo per citarne alcuni.

  1. Assegna un nome alle diverse strutture dati in R.

R ha quattro strutture dati primarie:

  • Vettore – È una sequenza di elementi di dati appartenenti allo stesso tipo. I membri all'interno di un vettore sono noti come componenti.
  • Elenco: è un oggetto R che può contenere elementi di diverso tipo, inclusi numeri, stringhe, vettori o un altro elenco.
  • Matrice – È una struttura dati bidimensionale che può legare vettori della stessa lunghezza. Gli elementi all'interno di una matrice devono essere dello stesso tipo: numerici, caratteri, logici o complessi.
  • Dataframe – È una versione più generica di una matrice, ovvero può contenere elementi di diversi tipi di dati. Un Dataframe combina le caratteristiche di matrici ed elenchi come un elenco rettangolare e le sue colonne di solito hanno tipi di dati diversi.
  1. Nomina i vari componenti della grammatica della grafica?

Le diverse componenti della grammatica della grafica sono:

  • Livello dati
  • Strato sfaccettato
  • Strato di temi
  • Strato estetico
  • Strato di geometria
  • Strato di coordinate
  1. Come installare un pacchetto in R?

Per installare un pacchetto in R, devi scrivere questo comando:

install.packages(“<nome_pacchetto>”)

  1. Come vengono importati i dati in R?

Per importare i dati in R, devi utilizzare la GUI di R Commander digitando il comando "Rcmdr" nella console di R. Esistono tre modi per importare i dati in R:

Puoi inserire il nome del set di dati o scegliere il set di dati nella finestra di dialogo come ritieni opportuno.

  • È possibile inserire i dati direttamente utilizzando l'editor di R Commander: Dati->Nuovo set di dati. Funziona meglio per set di dati di piccole e medie dimensioni.
  • Puoi importare dati dagli appunti, da un URL o da un file di testo normale (ASCII) o da qualsiasi pacchetto statistico.
  1. Cos'è Rmarkdown?

RMarkdown è lo strumento di reporting di R. Ti consente di creare report di alta qualità del codice R.

Esistono tre tipi di formato di output di Rmarkdown:

  • HTML
  • PAROLA
  • PDF
  1. Che cos'è "t-tests()" in R?

In R, il t-test() viene utilizzato per determinare se le medie di due gruppi sono uguali o meno.

  1. Quali sono i pacchetti R utilizzati per l'imputazione dei dati?

I pacchetti R più comunemente usati per l'imputazione dei dati sono:

  • Mi
  • I TOPI
  • Hmisc
  • Amelia
  • imputeR
  • missForest
  1. Che cos'è una "matrice di confusione" in R?

In R, una matrice di confusione viene utilizzata per valutare l'accuratezza di un modello sviluppato. Offre un calcolo incrociato delle classi osservate e previste utilizzando la funzione “confusionmatrix()” contenuta nel pacchetto “caTools”.

10. Che cos'è una foresta casuale? Come puoi costruire e valutare una foresta casuale in R?

Random Forest è un classificatore di ensemble creato da una combinazione di molti modelli di albero decisionale. Poiché combina i risultati di numerosi modelli di albero decisionale, il risultato è molto più accurato di quelli dei singoli modelli.

Per creare un modello di foresta casuale in R, è necessario disporre di un set di dati di addestramento. Quindi procedere come segue:

Innanzitutto, separa il set di dati nel set di addestramento e nel set di test->

  • Ora, costruisci il modello Random Forest sul set del treno->
  • Infine, prevedi il modello Random Forest sul set di test->
  1. Cos'è ShinyR?

ShinyR è un pacchetto R che consente lo sviluppo facile e sicuro di app Web interattive direttamente utilizzando R.

Con ShinyR, puoi ospitare app standalone su una pagina Web, oppure puoi anche incorporarle nei documenti Rmarkdown. Inoltre, puoi estendere le tue app brillanti per funzionare con temi CSS, azioni JavaScript e widget HTML.

  1. Assegna un nome ai pacchetti utilizzati per il data mining in R.

I pacchetti R utilizzati per il data mining sono:

  • Rparte e accento circonflesso
  • Tabella dati
  • Previsione
  • GGplot
  • Arule
  • tm
  1. Quali sono gli scopi della regressione logistica e della regressione di Poisson?

Mentre la regressione logistica aiuta a prevedere il risultato binario dal dato insieme di variabili predittive continue, la regressione di Poisson viene utilizzata per prevedere la variabile di risultato che rappresenta i "conteggi" dal dato insieme di variabili predittive continue.

  1. Come vengono rappresentati i valori mancanti in R?

In R, i valori mancanti sono rappresentati dalla funzione NA (non disponibile). Tuttavia, per valori impossibili, viene utilizzato NaN (non un numero).

  1. Quale funzione viene utilizzata per aggiungere set di dati in R?

In R, la funzione "rbind" viene utilizzata per unire due dataframe o dataset. Tuttavia, i due dataframe/dataset devono contenere variabili dello stesso tipo.

  1. Come si salvano i dati in R?

Sebbene ci siano molti modi per salvare i dati in R, il modo più efficiente per farlo è:

Dati > Set di dati attivo > Esporta set di dati attivo

Dopo questo, vedrai apparire una finestra di dialogo davanti a te. Quando fai clic su quella finestra di dialogo, puoi salvare i tuoi dati come faresti normalmente.

  1. Quali sono gli algoritmi di ordinamento in R?

R ha cinque tipi di algoritmi di ordinamento:

  • Selezione Ordina
  • Ordinamento a secchio
  • Ordinamento a bolle
  • Unisci ordinamento
  • Ordinamento rapido
  1. Che cos'è un modello White Noise?

Un modello White Noise (WN) è un modello di serie temporali. È il modo più semplice per rappresentare un processo stazionario.

Un modello WN comprende:

  • Una media costante fissa
  • Una varianza costante fissa
  • Nessuna correlazione nel tempo
  1. Assegna un nome alle funzioni di importazione in R.

Le diverse funzioni di importazione in R includono:

  • read.csv()->
  • read_sas()->
  • read_excel()->
  • read_sav()->
  1. Assegna un nome alle funzioni utilizzate per il debug in R.

Le funzioni utilizzate per il debug in R sono:

  • rintracciare()
  • debug()
  • browser()
  • traccia()
  • recuperare()

Quindi, ecco qua! Queste sono alcune delle domande più frequenti nell'intervista R. Spero che questo ti aiuterà a rompere il ghiaccio e ad approfondire costantemente la lingua mentre procedi.

Buon apprendimento!

Cosa sono le strutture dati in R?

Le strutture dati sono i contenitori che memorizzano i dati per utilizzarli in modo efficiente. In primo luogo, il linguaggio R ha 4 strutture dati: Vector è una struttura dati allocata dinamicamente che funge da contenitore e memorizza i valori con tipi di dati simili. I valori dei dati memorizzati in un vettore sono noti come componenti. Un elenco può essere considerato come un oggetto R in grado di memorizzare valori di dati di più tipi di dati come numeri interi, stringhe, caratteri o un altro elenco. Matrix è una struttura dati simile a una griglia che lega vettori della stessa lunghezza. È una struttura dati 2D e tutti gli elementi al suo interno devono essere dello stesso tipo di dati. Un frame di dati è simile a una matrice tranne per il fatto che è più generico. Può contenere valori con diversi tipi di dati come numeri interi, stringhe e caratteri. Mostra la combinazione delle caratteristiche di un elenco e di una matrice.

Cos'è la foresta casuale?

Random Forest è un classificatore di ensemble. Come suggerisce il nome, costruisce e lega più alberi decisionali per migliorare l'accuratezza della previsione del modello. Ogni osservazione è fornita a ciascun albero decisionale ed è di natura non lineare. Un set di dati di addestramento è necessario per creare una foresta casuale in R. Dopo aver raccolto il set di dati di addestramento, è necessario seguire due passaggi importanti per ottenere la foresta casuale: dividere il set di dati nel set di dati di addestramento e testare il set di dati. Usa il set di dati di addestramento per costruire la foresta casuale e usa il set di dati di test per prevedere il modello di foresta casuale.

Cos'è ShinyR e qual è il suo significato?

ShinyR è un pacchetto open source del linguaggio R che fornisce un potente framework Web utilizzato per sviluppare applicazioni e progetti Web interattivi. Con ShinyR, puoi convertire le tue analisi in applicazioni web senza tecnologie web importanti come HTML, CSS o JavaScript. Nonostante sia uno strumento così potente, è facile da imparare e implicare. Le app sviluppate con ShinyR possono essere estese per essere utilizzate in modo efficiente con widget HTML, temi CSS e azioni JavaScript. Inoltre, con ShinyR, puoi ospitare app standalone su una pagina Web, oppure puoi anche incorporarle nei documenti Rmarkdown.