20 questions et réponses d'entrevue R courantes pour 2022

Publié: 2021-01-10

Au cours des dernières années, le langage de programmation R a gagné en popularité dans les communautés de la science des données et de l'apprentissage automatique. C'est principalement parce qu'il s'agit d'un langage polyvalent qui peut être utilisé pour l'analyse statistique, la visualisation des données, la manipulation des données, la modélisation prédictive, l'analyse des prévisions et bien plus encore.

Alors que les opportunités d'emploi autour de R augmentent rapidement et que les cours de science des données sont en plein essor, nous allons aujourd'hui nous concentrer sur la première partie de l'obtention d'un emploi dans le domaine - l'entretien R. Voici une liste des questions les plus fréquemment posées dans les entretiens R !

C'est quoi R ?

R est un langage de programmation et un environnement spécialement conçu pour le calcul statistique et les graphiques. Il est livré avec un vaste catalogue de méthodes statistiques et graphiques, notamment la régression linéaire, la classification, le regroupement, l'analyse de séries chronologiques, l'inférence statistique et les algorithmes ML, pour n'en nommer que quelques-uns.

Nommez les différentes structures de données dans R.

R a quatre structures de données principales :

Vecteur - C'est une séquence d'éléments de données appartenant au même type. Les membres d'un vecteur sont appelés composants.
Liste - C'est un objet R qui peut contenir des éléments de différents types, y compris des nombres, des chaînes, des vecteurs ou une autre liste.
Matrice - Il s'agit d'une structure de données bidimensionnelle qui peut lier des vecteurs de même longueur. Les éléments d'une matrice doivent être du même type – numérique, ou caractère, ou logique, ou complexe.
Dataframe - Il s'agit d'une version plus générique d'une matrice, c'est-à-dire qu'elle peut contenir des éléments de différents types de données. Un Dataframe combine les caractéristiques des matrices et des listes comme une liste rectangulaire, et ses colonnes ont généralement des types de données différents.

Nommer les différentes composantes de la grammaire graphique ?

Les différentes composantes de la grammaire graphique sont :

Couche de données
Couche de facettes
Couche de thèmes
Couche esthétique
Couche de géométrie
Couche de coordonnées

Comment installer un package dans R ?

Pour installer un package dans R, vous devez écrire cette commande :

install.packages(“<nom_du_paquet>”)

Comment les données sont-elles importées dans R ?

Pour importer des données dans R, vous devez utiliser l'interface graphique du commandant R en tapant la commande "Rcmdr" dans la console R. Il existe trois façons d'importer des données dans R :

Vous pouvez soit entrer le nom de l'ensemble de données, soit choisir l'ensemble de données dans la boîte de dialogue comme bon vous semble.

Vous pouvez entrer les données directement à l'aide de l'éditeur de R Commander : Data->New Data Set. Cela fonctionne mieux pour les ensembles de données de petite à moyenne taille.
Vous pouvez importer des données depuis le presse-papiers, ou une URL, ou un fichier texte brut (ASCII), ou n'importe quel package statistique.

Qu'est-ce que Rmarkdown ?

RMarkdown est l'outil de reporting de R. Il vous permet de créer des rapports de haute qualité sur le code R.

Il existe trois types de format de sortie de Rmarkdown :

HTML
MOT
PDF

Qu'est-ce que "t-tests()" dans R ?

Dans R, le t-test() est utilisé pour déterminer si les moyennes de deux groupes sont égales ou non.

Quels sont les packages R utilisés pour l'imputation des données ?

Les packages R les plus couramment utilisés pour l'imputation des données sont :

Mi
SOURIS
Hmisc
Amélie
imputer
missForest

Qu'est-ce qu'une « matrice de confusion » dans R ?

Dans R, une matrice de confusion est utilisée pour évaluer la précision d'un modèle développé. Il offre un calcul croisé des classes observées et prédites en utilisant la fonction "confusionmatrix()" contenue dans le package "caTools".

10. Qu'est-ce qu'une forêt aléatoire ? Comment pouvez-vous construire et évaluer une forêt aléatoire dans R ?

Random Forest est un classificateur d'ensemble construit à partir d'une combinaison de nombreux modèles d'arbre de décision. Puisqu'il combine les résultats de nombreux modèles d'arbre de décision, le résultat est beaucoup plus précis que ceux des modèles individuels.

Pour créer un modèle de forêt aléatoire dans R, vous devez disposer d'un ensemble de données d'apprentissage. Procédez ensuite en procédant comme suit :

Tout d'abord, séparez l'ensemble de données dans l'ensemble d'apprentissage et l'ensemble de test->

Maintenant, construisez le modèle Random Forest sur le train->
Enfin, prédisez le modèle Random Forest sur le jeu de test->

Qu'est-ce que ShinyR ?

ShinyR est un package R qui permet de développer facilement et en toute sécurité des applications Web interactives directement à l'aide de R.

Avec ShinyR, vous pouvez héberger des applications autonomes sur une page Web, ou vous pouvez également les intégrer dans des documents Rmarkdown. En outre, vous pouvez étendre vos applications brillantes pour qu'elles fonctionnent avec des thèmes CSS, des actions JavaScript et des widgets HTML.

Nommez les packages utilisés pour l'exploration de données dans R.

Les packages R utilisés pour l'exploration de données sont :

Rpart et caret
Data.table
Prévision
GGplot
Règles
tm

À quoi servent la régression logistique et la régression de Poisson ?

Alors que la régression logistique aide à prédire le résultat binaire à partir de l'ensemble donné de variables prédictives continues, la régression de Poisson est utilisée pour prédire la variable de résultat représentant les "comptes" à partir de l'ensemble donné de variables prédictives continues.

Comment les valeurs manquantes sont-elles représentées dans R ?

Dans R, les valeurs manquantes sont représentées par la fonction NA (non disponible). Cependant, pour les valeurs impossibles, NaN (pas un nombre) est utilisé.

Quelle fonction est utilisée pour ajouter des ensembles de données dans R ?

Dans R, la fonction "rbind" est utilisée pour joindre deux dataframes ou datasets. Cependant, les deux dataframes/datasets doivent contenir des variables du même type.

Comment enregistrez-vous les données dans R ?

Bien qu'il existe de nombreuses façons d'enregistrer des données dans R, la manière la plus efficace de le faire est :

Données > Ensemble de données actif > Exporter l'ensemble de données actif

Après cela, vous verrez une boîte de dialogue apparaître devant vous. Lorsque vous cliquez sur cette boîte de dialogue, vous pouvez enregistrer vos données comme vous le feriez normalement.

Quels sont les algorithmes de tri dans R ?

R a cinq types d'algorithmes de tri :

Tri de sélection
Trier par seau
Tri à bulles
Tri par fusion
Tri rapide

Qu'est-ce qu'un modèle White Noise ?

Un modèle de bruit blanc (WN) est un modèle de série chronologique. C'est la manière la plus simple de représenter un processus stationnaire.

Un modèle WN comprend :

Une moyenne constante fixe
Une variance constante fixe
Pas de corrélation dans le temps

Nommez les fonctions d'importation dans R.

Les différentes fonctions d'importation dans R incluent :

lire.csv()->
read_sas()->
read_excel()->
read_sav()->

Nommez les fonctions utilisées pour le débogage dans R.

Les fonctions utilisées pour le débogage dans R sont :

traceback()
déboguer()
navigateur()
trace()
se remettre()

Alors, voilà! Voici quelques-unes des questions d'entretien R les plus fréquemment posées. J'espère que cela vous aidera à briser la glace et à approfondir progressivement la langue au fur et à mesure.

Bon apprentissage!

Que sont les structures de données dans R ?

Les structures de données sont les conteneurs qui stockent les données pour les utiliser efficacement. Principalement, le langage R a 4 structures de données : Vector est une structure de données allouée dynamiquement qui agit comme un conteneur et stocke les valeurs avec des types de données similaires. Les valeurs de données stockées dans un vecteur sont appelées composants. Une liste peut être considérée comme un objet R pouvant stocker des valeurs de données de plusieurs types de données tels que des entiers, des chaînes, des caractères ou une autre liste. La matrice est une structure de données en forme de grille qui lie des vecteurs de même longueur. Il s'agit d'une structure de données 2D et tous les éléments qu'elle contient doivent être du même type de données. Un bloc de données est similaire à une matrice sauf qu'il est plus générique. Il peut contenir des valeurs avec différents types de données tels que des entiers, des chaînes et des caractères. Il montre la combinaison des caractéristiques d'une liste et d'une matrice.

Qu'est-ce qu'une forêt aléatoire ?

Random Forest est un classificateur d'ensemble. Comme son nom l'indique, il construit et lie plusieurs arbres de décision pour améliorer la précision de prédiction du modèle. Chaque observation est fournie à chaque arbre de décision et elle est de nature non linéaire. Un ensemble de données d'apprentissage est nécessaire pour créer une forêt aléatoire dans R. Une fois que vous avez rassemblé l'ensemble de données d'apprentissage, deux étapes importantes doivent être suivies pour obtenir la forêt aléatoire : diviser l'ensemble de données en ensemble de données d'apprentissage et ensemble de données de test. Utilisez l'ensemble de données d'apprentissage pour construire la forêt aléatoire et utilisez l'ensemble de données de test pour prédire le modèle de forêt aléatoire.

Qu'est-ce que ShinyR et quelle est sa signification ?

ShinyR est un package open-source de langage R qui fournit un cadre Web puissant utilisé pour développer des applications et des projets Web interactifs. Avec ShinyR, vous pouvez convertir vos analyses en applications Web sans technologies Web de premier plan telles que HTML, CSS ou JavaScript. En dépit d'être un outil si puissant, il est facile à apprendre et à impliquer. Les applications développées avec ShinyR peuvent être étendues pour être utilisées efficacement avec des widgets HTML, des thèmes CSS et des actions JavaScript. De plus, avec ShinyR, vous pouvez héberger des applications autonomes sur une page Web, ou vous pouvez également les intégrer dans des documents Rmarkdown.