Must Read 26 Fragen und Antworten zu Interviews mit Datenanalysten: Ultimativer Leitfaden 2022

Veröffentlicht: 2021-01-07

Nehmen Sie an einem Interview mit einem Datenanalysten teil und fragen Sie sich, welche Fragen und Diskussionen Sie durchlaufen werden? Bevor Sie an einem Datenanalyse-Interview teilnehmen, ist es besser, eine Vorstellung von der Art der Interviewfragen für Datenanalysten zu haben, damit Sie die Antworten darauf mental vorbereiten können.

In diesem Artikel werden wir uns einige der wichtigsten Fragen und Antworten zu Interviews mit Datenanalysten ansehen . Data Science und Data Analytics sind derzeit florierende Bereiche in der Branche. Natürlich schießen Karrieren in diesen Bereichen in die Höhe. Das Beste am Aufbau einer Karriere im Data-Science-Bereich ist, dass es eine Vielzahl von Karrieremöglichkeiten zur Auswahl bietet!

Unternehmen auf der ganzen Welt nutzen Big Data, um ihre Gesamtproduktivität und -effizienz zu steigern, was unweigerlich bedeutet, dass auch die Nachfrage nach Datenexperten wie Datenanalysten, Dateningenieuren und Datenwissenschaftlern exponentiell steigt. Um diese Jobs zu ergattern, reicht es jedoch nicht aus, nur die Grundqualifikationen zu haben. Wenn Sie Data-Science-Zertifizierungen an Ihrer Seite haben, erhöht sich das Gewicht Ihres Profils.

Sie müssen den schwierigsten Teil klären – das Vorstellungsgespräch. Keine Sorge, wir haben diesen Leitfaden mit Fragen und Antworten für Interviews mit Datenanalysten erstellt, um die Tiefe und die wahre Absicht hinter den Fragen zu verstehen.

Inhaltsverzeichnis

Die besten Fragen und Antworten zu Vorstellungsgesprächen für Datenanalysten
- - 1. Was sind die wichtigsten Voraussetzungen, um Datenanalyst zu werden?
  - 2. Was sind die wichtigen Aufgaben eines Datenanalysten?
  - 3. Was bedeutet „Datenbereinigung“? Was sind die besten Möglichkeiten, dies zu üben?
  - 4. Nennen Sie die besten Tools für die Datenanalyse.
  - 5. Was ist der Unterschied zwischen Data Profiling und Data Mining?
  - 6. Was ist die KNN-Imputationsmethode?
  - 7. Was sollte ein Datenanalyst mit fehlenden oder verdächtigen Daten tun?
  - 8. Nennen Sie die verschiedenen Datenvalidierungsmethoden, die von Datenanalysten verwendet werden.
  - 9. Ausreißer definieren
  - 10. Was ist „Clustering“? Nennen Sie die Eigenschaften von Clustering-Algorithmen.
  - 11. Was ist der K-Mean-Algorithmus?
  - 12. Definieren Sie „Gemeinsames Filtern“.
  - 13. Nennen Sie die statistischen Methoden, die für Datenanalysten von großem Nutzen sind?
  - 14. Was ist ein N-Gramm?
  - 15. Was ist eine Hash-Tabellenkollision? Wie kann es verhindert werden?
  - 16. Definieren Sie „Zeitreihenanalyse“.
  - 17. Wie sollten Sie Multi-Source-Probleme angehen?
  - 18. Nennen Sie die Schritte eines Datenanalyseprojekts.
  - 19. Auf welche Probleme kann ein Datenanalyst bei der Datenanalyse stoßen?
  - 20. Was sind die Merkmale eines guten Datenmodells?
  - 21. Unterscheiden Sie zwischen Varianz und Kovarianz.
  - 22. Erklären Sie „Normalverteilung“.
  - 23. Erklären Sie die univariate, bivariate und multivariate Analyse.
  - 24. Erklären Sie den Unterschied zwischen R-Squared und Adjusted R-Squared.
  - 25. Was sind die Vorteile der Versionskontrolle?
  - 26. Wie kann ein Datenanalyst Zellen mit negativen Werten in einer Excel-Tabelle hervorheben?
Fazit
- Was sind die Talenttrends in der Datenanalysebranche?
- Erklären Sie die Clusteranalyse und ihre Eigenschaften.
- Was sind Ausreißer und wie geht man damit um?

Die besten Fragen und Antworten zu Vorstellungsgesprächen für Datenanalysten

1. Was sind die wichtigsten Voraussetzungen, um Datenanalyst zu werden?

Diese Interviewfrage für Datenanalysten testet Ihr Wissen über die erforderlichen Fähigkeiten, um Datenwissenschaftler zu werden.
Um Datenanalyst zu werden, müssen Sie:

Antworten auf Interviewfragen für Datenanalysten

Versiert sein mit Programmiersprachen (XML, Javascript oder ETL-Frameworks), Datenbanken (SQL, SQLite, Db2 usw.) und verfügen auch über umfassende Kenntnisse zu Berichtspaketen (Business Objects).
Big Data effizient analysieren, organisieren, sammeln und verbreiten können.
Sie müssen über umfangreiche technische Kenntnisse in Bereichen wie Datenbankdesign, Data Mining und Segmentierungstechniken verfügen.
Verfügen Sie über fundierte Kenntnisse von Statistikpaketen zur Analyse riesiger Datensätze wie SAS, Excel und SPSS, um nur einige zu nennen.

2. Was sind die wichtigen Aufgaben eines Datenanalysten?

Dies ist die am häufigsten gestellte Frage in Interviews mit Datenanalysten. Sie müssen eine klare Vorstellung davon haben, was Ihre Aufgabe beinhaltet.
Für die Durchführung ist ein Datenanalyst erforderlich

folgende Aufgaben:

Sammeln und interpretieren Sie Daten aus mehreren Quellen und analysieren Sie die Ergebnisse.
Filtern und „bereinigen“ Sie Daten aus mehreren Quellen.
Bieten Sie Unterstützung für jeden Aspekt der Datenanalyse.
Analysieren Sie komplexe Datensätze und identifizieren Sie die darin verborgenen Muster.
Sichern Sie Datenbanken.

Wie können Sie auf Datenanalyse umsteigen?

3. Was bedeutet „Datenbereinigung“? Was sind die besten Möglichkeiten, dies zu üben?

Wenn Sie für einen Job als Datenanalyst arbeiten, ist dies eine der am häufigsten gestellten Fragen in Vorstellungsgesprächen für Datenanalysten.
Datenbereinigung bezieht sich in erster Linie auf den Prozess, Fehler und Inkonsistenzen in den Daten zu erkennen und zu entfernen, um die Datenqualität zu verbessern.
Die besten Methoden zum Bereinigen von Daten sind:

Trennen von Daten nach ihren jeweiligen Attributen.
Große Datenblöcke in kleine Datensätze aufteilen und diese dann bereinigen.
Analysieren der Statistiken jeder Datenspalte.
Erstellen einer Reihe von Hilfsfunktionen oder Skripten für allgemeine Reinigungsaufgaben.
Verfolgen Sie alle Datenbereinigungsvorgänge, um bei Bedarf ein einfaches Hinzufügen oder Entfernen aus den Datensätzen zu ermöglichen.

4. Nennen Sie die besten Tools für die Datenanalyse.

Eine Frage zum am häufigsten verwendeten Tool finden Sie meistens in allen Interviewfragen zur Datenanalyse.
Die nützlichsten Tools für die Datenanalyse sind:

Tableau
Google Fusion-Tabellen
Google-Suchoperatoren
MESSER
RapidMiner
Löser
ÖffnenVerfeinern
NodeXL
io

Kasse: Gehalt für Datenanalysten in Indien

5. Was ist der Unterschied zwischen Data Profiling und Data Mining?

Data Profiling konzentriert sich auf die Analyse einzelner Datenattribute und liefert dadurch wertvolle Informationen über Datenattribute wie Datentyp, Häufigkeit, Länge sowie deren diskrete Werte und Wertebereiche. Im Gegenteil, Data Mining zielt darauf ab, ungewöhnliche Aufzeichnungen zu identifizieren, Datencluster zu analysieren und Sequenzen zu entdecken, um nur einige zu nennen.

6. Was ist die KNN-Imputationsmethode?

Die KNN-Imputationsmethode versucht, die Werte der fehlenden Attribute unter Verwendung derjenigen Attributwerte zu imputieren, die den fehlenden Attributwerten am nächsten sind. Die Ähnlichkeit zwischen zwei Attributwerten wird mit Hilfe der Abstandsfunktion ermittelt.

7. Was sollte ein Datenanalyst mit fehlenden oder verdächtigen Daten tun?

In einem solchen Fall muss ein Datenanalyst:

Verwenden Sie Datenanalysestrategien wie Löschmethode, Einzelimputationsmethoden und modellbasierte Methoden, um fehlende Daten zu erkennen.
Erstellen Sie einen Validierungsbericht, der alle Informationen zu den verdächtigen oder fehlenden Daten enthält.
Untersuchen Sie die verdächtigen Daten, um ihre Gültigkeit zu beurteilen.
Ersetzen Sie alle ungültigen Daten (falls vorhanden) durch einen korrekten Validierungscode.

8. Nennen Sie die verschiedenen Datenvalidierungsmethoden, die von Datenanalysten verwendet werden.

Es gibt viele Möglichkeiten, Datensätze zu validieren. Einige der am häufigsten verwendeten Datenvalidierungsmethoden von Datenanalysten sind:

Validierung auf Feldebene – Bei dieser Methode wird die Datenvalidierung in jedem Feld durchgeführt, wenn ein Benutzer die Daten eingibt. Es hilft, die Fehler unterwegs zu korrigieren.
Validierung auf Formularebene – Bei dieser Methode werden die Daten validiert, nachdem der Benutzer das Formular ausgefüllt und abgeschickt hat. Es überprüft das gesamte Dateneingabeformular auf einmal, validiert alle darin enthaltenen Felder und hebt die Fehler (falls vorhanden) hervor, damit der Benutzer sie korrigieren kann.
Validierung der Datenspeicherung – Diese Datenvalidierungstechnik wird während des Speicherns einer tatsächlichen Datei oder eines Datenbankeintrags verwendet. Normalerweise wird dies durchgeführt, wenn mehrere Dateneingabeformulare validiert werden müssen.
Suchkriterien-Validierung – Diese Validierungstechnik wird verwendet, um dem Benutzer genaue und verwandte Übereinstimmungen für seine gesuchten Schlüsselwörter oder Phrasen anzubieten. Der Hauptzweck dieser Validierungsmethode besteht darin, sicherzustellen, dass die Suchanfragen des Benutzers die relevantesten Ergebnisse liefern können.

9. Ausreißer definieren

Ein Interviewleitfaden für Datenanalysten mit Fragen und Antworten wird ohne diese Frage nicht vollständig sein. Ein Ausreißer ist ein Begriff, der häufig von Datenanalysten verwendet wird, wenn er sich auf einen Wert bezieht, der weit entfernt zu sein scheint und von einem festgelegten Muster in einer Stichprobe abweicht. Es gibt zwei Arten von Ausreißern – univariate und multivariate.

Die beiden Methoden zur Erkennung von Ausreißern sind:

Box-Plot-Methode – Wenn der Wert nach dieser Methode größer oder kleiner als 1,5*IQR (Interquartilsabstand) ist, sodass er über dem oberen Quartil (Q3) oder unter dem unteren Quartil (Q1) liegt, handelt es sich um einen Ausreißer .
Standardabweichungsmethode – Diese Methode besagt, dass es sich um einen Ausreißer handelt, wenn ein Wert höher oder niedriger als der Mittelwert ± (3*Standardabweichung) ist. Explorative Datenanalyse und ihre Bedeutung für Ihr Unternehmen

10. Was ist „Clustering“? Nennen Sie die Eigenschaften von Clustering-Algorithmen.

Clustering ist eine Methode, bei der Daten in Cluster und Gruppen eingeteilt werden. Ein Clustering-Algorithmus hat die folgenden Eigenschaften:

Hierarchisch oder flach
Hart und weich
Iterativ
Disjunktiv

11. Was ist der K-Mean-Algorithmus?

K-Mean ist eine Partitionierungstechnik, bei der Objekte in K-Gruppen kategorisiert werden. In diesem Algorithmus sind die Cluster kugelförmig, wobei die Datenpunkte um diesen Cluster herum ausgerichtet sind und die Varianz der Cluster einander ähnlich ist.

12. Definieren Sie „Gemeinsames Filtern“.

Collaborative Filtering ist ein Algorithmus, der ein Empfehlungssystem basierend auf den Verhaltensdaten eines Benutzers erstellt. Zum Beispiel erstellen Online-Shopping-Sites normalerweise eine Liste mit Artikeln unter „Empfohlen für Sie“, basierend auf Ihrem Browserverlauf und früheren Einkäufen. Die entscheidenden Komponenten dieses Algorithmus sind Benutzer, Objekte und deren Interessen.

13. Nennen Sie die statistischen Methoden, die für Datenanalysten von großem Nutzen sind?

Die statistischen Methoden, die am häufigsten von Datenanalysten verwendet werden, sind:

Bayessche Methode
Markov-Prozess
Simplex-Algorithmus
Zurechnung
Raum- und Clusterprozesse
Rangstatistik, Perzentil, Erkennung von Ausreißern
Mathematische Optimierung

14. Was ist ein N-Gramm?

Ein N-Gramm ist eine zusammenhängende Folge von n Elementen in einem gegebenen Text oder einer gegebenen Rede. Genauer gesagt ist ein N-Gramm ein probabilistisches Sprachmodell, das verwendet wird, um das nächste Element in einer bestimmten Sequenz vorherzusagen, wie in (n-1).

15. Was ist eine Hash-Tabellenkollision? Wie kann es verhindert werden?

Dies ist eine der wichtigsten Fragen in Vorstellungsgesprächen für Datenanalysten. Wenn zwei separate Schlüssel zu einem gemeinsamen Wert gehasht werden, tritt eine Hash-Tabellenkollision auf. Das bedeutet, dass zwei unterschiedliche Daten nicht im selben Steckplatz gespeichert werden können.
Hash-Kollisionen können vermieden werden durch:

Separate Verkettung – Bei dieser Methode wird eine Datenstruktur verwendet, um mehrere Elemente zu speichern, die in einem gemeinsamen Slot gehasht werden.
Offene Adressierung – Diese Methode sucht nach leeren Slots und speichert das Element im ersten verfügbaren leeren Slot.

Grundlegende Grundlagen der Statistik für Data Science

16. Definieren Sie „Zeitreihenanalyse“.

Die Serienanalyse kann normalerweise in zwei Bereichen durchgeführt werden – dem Zeitbereich und dem Frequenzbereich.
Die Zeitreihenanalyse ist die Methode, bei der die Output-Prognose eines Prozesses durch Analysieren der in der Vergangenheit gesammelten Daten mit Techniken wie exponentiellem Glätten, log-linearer Regression usw.

17. Wie sollten Sie Multi-Source-Probleme angehen?

Um Probleme mit mehreren Quellen zu lösen, müssen Sie:

Identifizieren Sie ähnliche Datensätze und kombinieren Sie sie zu einem Datensatz, der alle nützlichen Attribute abzüglich der Redundanz enthält.
Erleichtern Sie die Schemaintegration durch Schemaumstrukturierung.

18. Nennen Sie die Schritte eines Datenanalyseprojekts.

Zu den Kernschritten eines Datenanalyseprojekts gehören:

Die wichtigste Voraussetzung für ein Datenanalyseprojekt ist ein tiefgreifendes Verständnis der Geschäftsanforderungen.
Der zweite Schritt besteht darin, die relevantesten Datenquellen zu identifizieren, die am besten zu den Geschäftsanforderungen passen, und die Daten aus zuverlässigen und verifizierten Quellen zu beziehen.
Der dritte Schritt besteht darin, die Datensätze zu untersuchen, die Daten zu bereinigen und zu organisieren, um ein besseres Verständnis der vorliegenden Daten zu erlangen.
Im vierten Schritt müssen Datenanalysten die Daten validieren.
Im fünften Schritt werden die Datensätze implementiert und nachverfolgt.
Der letzte Schritt besteht darin, eine Liste der wahrscheinlichsten Ergebnisse zu erstellen und zu iterieren, bis die gewünschten Ergebnisse erreicht sind.

19. Auf welche Probleme kann ein Datenanalyst bei der Datenanalyse stoßen?

Eine kritische Interviewfrage für Datenanalysten, die Sie kennen müssen. Ein Datenanalyst kann bei der Datenanalyse mit den folgenden Problemen konfrontiert werden:

Vorhandensein von doppelten Einträgen und Rechtschreibfehlern. Diese Fehler können die Datenqualität beeinträchtigen.
Daten von schlechter Qualität, die aus unzuverlässigen Quellen stammen. In einem solchen Fall muss ein Datenanalyst viel Zeit für die Bereinigung der Daten aufwenden.
Aus mehreren Quellen extrahierte Daten können in der Darstellung variieren. Sobald die gesammelten Daten nach der Bereinigung und Organisation kombiniert werden, können die Abweichungen in der Datendarstellung zu einer Verzögerung des Analyseprozesses führen.
Unvollständige Daten sind eine weitere große Herausforderung im Datenanalyseprozess. Dies würde zwangsläufig zu fehlerhaften oder fehlerhaften Ergebnissen führen.

20. Was sind die Merkmale eines guten Datenmodells?

Damit ein Datenmodell als gut und ausgereift gilt, muss es folgende Eigenschaften aufweisen:

Es sollte eine vorhersagbare Leistung aufweisen, damit die Ergebnisse genau oder zumindest nahezu genau geschätzt werden können.
Es sollte anpassungsfähig sein und auf Änderungen reagieren, damit es den wachsenden Geschäftsanforderungen von Zeit zu Zeit gerecht werden kann.
Es sollte in der Lage sein, proportional zu den Datenänderungen zu skalieren.
Es sollte konsumierbar sein, damit Klienten/Kunden greifbare und profitable Ergebnisse erzielen können.

21. Unterscheiden Sie zwischen Varianz und Kovarianz.

Varianz und Kovarianz sind beides statistische Begriffe. Die Varianz gibt an, wie weit zwei Zahlen (Mengen) vom Mittelwert entfernt sind. Sie kennen also nur die Größe der Beziehung zwischen den beiden Größen (wie stark die Daten um den Mittelwert gestreut sind). Im Gegensatz dazu zeigt die Kovarianz, wie sich zwei Zufallsvariablen gemeinsam ändern. Somit gibt die Kovarianz sowohl die Richtung als auch die Größe an, wie zwei Größen in Bezug aufeinander variieren.

22. Erklären Sie „Normalverteilung“.

Eine der beliebtesten Interviewfragen für Datenanalysten. Die Normalverteilung, besser bekannt als Glockenkurve oder Gaußsche Kurve, bezeichnet eine Wahrscheinlichkeitsfunktion, die beschreibt und misst, wie die Werte einer Variablen verteilt sind, also wie sie sich in ihren Mittelwerten und ihren Standardabweichungen unterscheiden. In der Kurve ist die Verteilung symmetrisch. Während sich die meisten Beobachtungen um die zentrale Spitze gruppieren, entfernen sich die Wahrscheinlichkeiten für die Werte weiter vom Mittelwert und nehmen in beide Richtungen gleichermaßen ab.

23. Erklären Sie die univariate, bivariate und multivariate Analyse.

Univariate Analyse bezieht sich auf eine deskriptive statistische Technik, die auf Datensätze angewendet wird, die eine einzelne Variable enthalten. Die univariate Analyse berücksichtigt die Wertespanne und auch die zentrale Tendenz der Werte.

Die bivariate Analyse analysiert gleichzeitig zwei Variablen, um die Möglichkeiten einer empirischen Beziehung zwischen ihnen zu untersuchen. Es versucht festzustellen, ob ein Zusammenhang zwischen den beiden Variablen und der Stärke des Zusammenhangs besteht oder ob es Unterschiede zwischen den Variablen gibt und welche Bedeutung diese Unterschiede haben.

Die multivariate Analyse ist eine Erweiterung der bivariaten Analyse. Basierend auf den Prinzipien der multivariaten Statistik beobachtet und analysiert die multivariate Analyse mehrere Variablen (zwei oder mehr unabhängige Variablen) gleichzeitig, um den Wert einer abhängigen Variablen für die einzelnen Subjekte vorherzusagen.

24. Erklären Sie den Unterschied zwischen R-Squared und Adjusted R-Squared.

Die R-Squared-Technik ist ein statistisches Maß für den Variationsanteil der abhängigen Variablen, wie sie durch die unabhängigen Variablen erklärt werden. Das angepasste R-Quadrat ist im Wesentlichen eine modifizierte Version von R-Quadrat, angepasst an die Anzahl der Prädiktoren in einem Modell. Es liefert den Prozentsatz der Variation, der durch die spezifischen unabhängigen Variablen erklärt wird, die einen direkten Einfluss auf die abhängigen Variablen haben.

25. Was sind die Vorteile der Versionskontrolle?

Die Hauptvorteile der Versionskontrolle sind –

Es ermöglicht Ihnen, Dateien zu vergleichen, Unterschiede zu identifizieren und die Änderungen nahtlos zu konsolidieren.
Es hilft, den Überblick über Anwendungs-Builds zu behalten, indem es identifiziert, welche Version in welche Kategorie fällt – Entwicklung, Test, QA und Produktion.
Es verwaltet einen vollständigen Verlauf der Projektdateien, was praktisch ist, wenn es jemals zu einem Ausfall des zentralen Servers kommt.
Es eignet sich hervorragend zum sicheren Speichern und Verwalten mehrerer Versionen und Varianten von Codedateien.
Es ermöglicht Ihnen, die Änderungen zu sehen, die am Inhalt verschiedener Dateien vorgenommen wurden.

26. Wie kann ein Datenanalyst Zellen mit negativen Werten in einer Excel-Tabelle hervorheben?

Letzte Frage in unserem Fragen- und Antwortleitfaden für Interviews mit Datenanalysten. Ein Datenanalyst kann bedingte Formatierung verwenden, um die Zellen mit negativen Werten in einer Excel-Tabelle hervorzuheben. Hier sind die Schritte für die bedingte Formatierung:

Wählen Sie zuerst die Zellen mit negativen Werten aus.
Gehen Sie nun zur Registerkarte Start und wählen Sie die Option Bedingte Formatierung.
Gehen Sie dann zu den Regeln zum Hervorheben von Zellen und wählen Sie die Option Kleiner als.
Im letzten Schritt müssen Sie in das Dialogfeld der Option Kleiner als gehen und als Wert „0“ eingeben.

Fazit

Damit sind wir am Ende unserer Liste mit Fragen und Antworten zu Interviews mit Datenanalysten angelangt . Obwohl diese Interviewfragen für Datenanalysten aus einem riesigen Pool wahrscheinlicher Fragen ausgewählt wurden, sind dies diejenigen, denen Sie am ehesten begegnen werden, wenn Sie ein angehender Datenanalyst sind. Diese Fragen bilden die Grundlage für jedes Interview mit einem Datenanalysten, und die Antworten darauf zu kennen, wird Sie sicher weit bringen!

Wenn Sie neugierig sind, gründliche Datenanalysen und Datenwissenschaft zu lernen, um an der Spitze des rasanten technologischen Fortschritts zu stehen, sehen Sie sich das Executive PG Program in Data Science von upGrad & IIIT-B an.

Was sind die Talenttrends in der Datenanalysebranche?

Da Data Science allmählich wächst, gibt es auch in einigen Bereichen ein erhebliches Wachstum. Diese Domänen sind: Mit dem erheblichen Wachstum der Data Science- und Datenanalysebranche werden immer mehr Stellen für Dateningenieure frei, was wiederum die Nachfrage nach mehr IT-Fachkräften erhöht. Mit dem Fortschritt der Technologie entwickelt sich die Rolle der Datenwissenschaftler allmählich weiter. Analytics-Aufgaben werden automatisiert, was die Data Scientists ins Hintertreffen gebracht hat. Die Automatisierung kann die Datenvorbereitungsaufgaben übernehmen, mit denen Data Scientists derzeit 70-80 % ihrer Zeit verbringen.

Erklären Sie die Clusteranalyse und ihre Eigenschaften.

Ein Prozess, bei dem wir ein Objekt definieren, ohne es zu kennzeichnen, wird als Clusteranalyse bezeichnet. Es verwendet Data Mining, um verschiedene ähnliche Objekte in einem einzigen Cluster zu gruppieren, genau wie bei der Diskriminanzanalyse. Seine Anwendungen umfassen Mustererkennung, Informationsanalyse, Bildanalyse, maschinelles Lernen, Computergrafik und verschiedene andere Bereiche. Die Clusteranalyse ist eine Aufgabe, die mit mehreren anderen Algorithmen durchgeführt wird, die sich in vielerlei Hinsicht voneinander unterscheiden und so einen Cluster bilden. Im Folgenden sind einige der Merkmale der Clusteranalyse aufgeführt: Die Clusteranalyse ist hochgradig skalierbar. Es kann mit einem anderen Satz von Attributen umgehen. Es zeigt eine hohe Dimensionalität, Interpretierbarkeit. Es ist in vielen Bereichen nützlich, einschließlich maschinellem Lernen und Informationsbeschaffung.

Was sind Ausreißer und wie geht man damit um?

Ausreißer beziehen sich auf die Anomalien oder geringfügigen Abweichungen in Ihren Daten. Es kann während der Datenerfassung passieren. Es gibt 4 Möglichkeiten, wie wir einen Ausreißer im Datensatz erkennen können. Diese Methoden sind wie folgt: Boxplot ist eine Methode zur Erkennung eines Ausreißers, bei der wir die Daten nach ihren Quartilen trennen. Ein Streudiagramm zeigt die Daten von 2 Variablen in Form einer Sammlung von Punkten, die auf der kartesischen Ebene markiert sind. Der Wert einer Variablen repräsentiert die horizontale Achse (x-Achse) und der Wert der anderen Variablen repräsentiert die vertikale Achse (y-Achse). Bei der Berechnung des Z-Scores suchen wir nach Punkten, die weit vom Zentrum entfernt sind, und betrachten sie als Ausreißer.