Der ultimative Data Science Spickzettel, den jeder Data Scientist haben sollte

Veröffentlicht: 2021-01-29

Für alle angehenden Fachleute und Neulinge, die in die boomende Welt der Datenwissenschaft eintauchen möchten, haben wir einen kurzen Spickzettel zusammengestellt, um Sie mit den Grundlagen und Methoden aufzufrischen, die diesen Bereich unterstreichen.

Inhaltsverzeichnis

Data Science-Die Grundlagen
- Daten
- Arten von Daten
- Datenvorverarbeitung
Woraus besteht Data Science?
- Konzepte der Statistik
- Künstliche Intelligenz
- KI-Begriffe
Maschinelles Lernen
- Modellierungsmethoden
- ML-Algorithmen
K- Nächster Nachbar (KNN)
Neuronale Netze
Neuronales Netzwerk weiterleiten
Faltungsneuronale Netze
Wiederkehrende neuronale Netze
Deep Neural Networks und Deep Learning
Fazit
- Welche Programmiersprache eignet sich am besten für Data Science und warum?
- Welche Konzepte machen Data Science vollständig?
- Beschreiben Sie die Arten des maschinellen Lernens?

Data Science-Die Grundlagen

Die Daten, die in unserer Welt generiert werden, liegen in Rohform vor, dh Zahlen, Codes, Wörter, Sätze usw. Data Science verwendet diese sehr rohen Daten, um sie mit wissenschaftlichen Methoden zu verarbeiten, um sie in aussagekräftige Formen umzuwandeln, um Wissen und Erkenntnisse zu gewinnen .

Daten

Bevor wir in die Grundsätze der Datenwissenschaft eintauchen, lassen Sie uns ein wenig über Daten, ihre Typen und die Datenverarbeitung sprechen.

Arten von Daten

Strukturiert – Daten, die in tabellarischer Form in Datenbanken gespeichert sind. Es kann entweder numerisch oder Text sein

Unstrukturiert – Daten, die nicht mit einer nennenswerten endgültigen Struktur tabelliert werden können, werden als unstrukturierte Daten bezeichnet

Halbstrukturiert – Gemischte Daten mit Merkmalen sowohl strukturierter als auch unstrukturierter Daten

Quantitativ – Daten mit eindeutigen numerischen Werten, die quantifiziert werden können

Big Data – Daten, die in riesigen Datenbanken gespeichert sind, die sich über mehrere Computer oder Serverfarmen erstrecken, werden als Big Data bezeichnet. Als Big Data gelten biometrische Daten, Social-Media-Daten etc. Big Data ist durch 4 V gekennzeichnet

Datenvorverarbeitung

Datenklassifizierung – Es ist der Prozess der Kategorisierung oder Kennzeichnung von Daten in Klassen wie numerisch, Text oder Bild, Text, Video usw.

Datenbereinigung – Es besteht aus dem Aussortieren fehlender/inkonsistenter/inkompatibler Daten oder dem Ersetzen von Daten mit einer der folgenden Methoden.

Interpolation
Heuristik
Zufallsauswahl
Nächster Nachbar

Datenmaskierung – Ausblenden oder Maskieren vertraulicher Daten, um die Vertraulichkeit sensibler Informationen zu wahren und sie dennoch verarbeiten zu können.

Woraus besteht Data Science?

Konzepte der Statistik

Rückfall

Lineare Regression

Die lineare Regression wird verwendet, um eine Beziehung zwischen zwei Variablen wie Angebot und Nachfrage, Preis und Verbrauch usw. herzustellen. Sie bezieht sich wie folgt auf eine Variable x als lineare Funktion einer anderen Variablen y

Y = f(x) oder Y = mx + c, wobei m = Koeffizient

Logistische Regression

Die logistische Regression stellt eher eine probabilistische als eine lineare Beziehung zwischen Variablen her. Die resultierende Antwort ist entweder 0 oder 1 und wir suchen nach Wahrscheinlichkeiten und die Kurve ist S-förmig.

Wenn p < 0,5, dann ist es 0, sonst 1

Formel:

Y = e^ (b0 + b1x) / (1 + e^ (b0 + b1x))

wobei b0 = Bias und b1 = Koeffizient

Wahrscheinlichkeit

Die Wahrscheinlichkeit hilft, die Wahrscheinlichkeit des Eintretens eines Ereignisses vorherzusagen. Einige Terminologien:

Stichprobe: Der Satz wahrscheinlicher Ergebnisse

Ereignis: Es ist eine Teilmenge des Abtastraums

Zufallsvariable: Zufallsvariablen helfen dabei, wahrscheinliche Ergebnisse auf Zahlen oder eine Linie in einem Stichprobenraum abzubilden oder zu quantifizieren

Wahrscheinlichkeitsverteilungen

Diskrete Verteilungen: Gibt die Wahrscheinlichkeit als eine Menge diskreter Werte an (ganzzahlig)

P[X=x] = p(x)

Bildquelle

Kontinuierliche Verteilungen: Gibt die Wahrscheinlichkeit über eine Reihe von kontinuierlichen Punkten oder Intervallen anstelle von diskreten Werten an. Formel:

P[a ≤ x ≤ b] = a∫bf(x) dx, wobei a, b die Punkte sind

Bildquelle

Korrelation und Kovarianz

Standardabweichung: Die Variation oder Abweichung eines bestimmten Datensatzes von seinem Mittelwert

σ = √ {(Σi=1N ( xi – x ) ) / (N -1)}

Kovarianz

Sie definiert das Ausmaß der Abweichung der Zufallsvariablen X und Y vom Mittelwert des Datensatzes.

Cov(X,Y) = σ2XY = E[(X−μX)(Y−μY)] = E[XY]−μXμY

Korrelation

Die Korrelation definiert das Ausmaß einer linearen Beziehung zwischen Variablen zusammen mit ihrer Richtung, +ve oder -ve

ρXY= σ2XY/ σX * *σY

Künstliche Intelligenz

Die Fähigkeit von Maschinen, sich Wissen anzueignen und auf der Grundlage von Eingaben Entscheidungen zu treffen, wird als künstliche Intelligenz oder einfach KI bezeichnet.

Typen

Reaktive Maschinen: Reaktive Maschinen-KI funktioniert, indem sie lernt, auf vordefinierte Szenarien zu reagieren, indem sie sich auf die schnellsten und besten Optionen beschränkt. Sie haben wenig Speicher und eignen sich am besten für Aufgaben mit einem definierten Satz von Parametern. Sehr zuverlässig und konsistent.
Begrenzter Speicher: Diese KI wird mit einigen realen Beobachtungs- und Legacy-Daten versorgt. Es kann anhand der gegebenen Daten lernen und Entscheidungen treffen, aber keine neuen Erfahrungen sammeln.
Theory of Mind: Es ist eine interaktive KI, die Entscheidungen basierend auf dem Verhalten der umgebenden Entitäten treffen kann.
Selbstbewusstsein: Diese KI ist sich ihrer Existenz und Funktionsweise unabhängig von der Umgebung bewusst. Es kann kognitive Fähigkeiten entwickeln und die Auswirkungen des eigenen Handelns auf die Umgebung verstehen und bewerten.

KI-Begriffe

Neuronale Netze

Neuronale Netze sind ein Bündel oder Netzwerk miteinander verbundener Knoten, die Daten und Informationen in einem System weiterleiten. NNs sind so modelliert, dass sie Neuronen in unserem Gehirn nachahmen und Entscheidungen durch Lernen und Vorhersagen treffen können.

Heuristik

Heuristik ist die Fähigkeit, basierend auf Annäherungen und Schätzungen schnell Vorhersagen zu treffen, indem frühere Erfahrungen in Situationen verwendet werden, in denen die verfügbaren Informationen lückenhaft sind. Es ist schnell, aber nicht genau oder präzise.

Fallbasiertes Schließen

Die Fähigkeit, aus früheren Problemlösungsfällen zu lernen und sie in aktuellen Situationen anzuwenden, um zu einer akzeptablen Lösung zu gelangen

Verarbeitung natürlicher Sprache

Es ist einfach die Fähigkeit einer Maschine, menschliche Sprache oder Text zu verstehen und direkt damit zu interagieren. Zum Beispiel Sprachbefehle in einem Auto

Maschinelles Lernen

Maschinelles Lernen ist einfach eine Anwendung von KI, die verschiedene Modelle und Algorithmen verwendet, um Probleme vorherzusagen und zu lösen.

Typen

Beaufsichtigt

Dieses Verfahren beruht auf Eingabedaten, die mit den Ausgabedaten assoziativ sind. Der Maschine wird ein Satz von Zielvariablen Y zur Verfügung gestellt, und sie muss unter der Aufsicht eines Optimierungsalgorithmus durch einen Satz von Eingangsvariablen X zu der Zielvariablen gelangen. Beispiele für überwachtes Lernen sind Neuronale Netze, Random Forest, Deep Learning, Support Vector Machines usw.

Unbeaufsichtigt

Bei dieser Methode haben Eingabevariablen keine Kennzeichnung oder Assoziation, und Algorithmen arbeiten daran, Muster und Cluster zu finden, die zu neuem Wissen und Erkenntnissen führen.

Verstärkt

Reinforced Learning konzentriert sich auf Improvisationstechniken, um das Lernverhalten zu schärfen oder zu polieren. Es ist eine belohnungsbasierte Methode, bei der die Maschine ihre Techniken schrittweise verbessert, um eine Zielbelohnung zu gewinnen.

Modellierungsmethoden

Rückfall

Regressionsmodelle liefern immer Zahlen als Ausgabe durch Interpolation oder Extrapolation kontinuierlicher Daten.

Einstufung

Klassifikationsmodelle liefern Ergebnisse als Klasse oder Label und sind besser in der Lage, diskrete Ergebnisse wie „welche Art“ vorherzusagen.

Sowohl Regression als auch Klassifikation sind überwachte Modelle.

Clustering

Clustering ist ein unüberwachtes Modell, das Cluster anhand von Merkmalen, Attributen, Merkmalen usw. identifiziert.

ML-Algorithmen

Entscheidungsbäume

Entscheidungsbäume verwenden einen binären Ansatz, um zu einer Lösung zu gelangen, die auf aufeinanderfolgenden Fragen in jeder Phase basiert, sodass das Ergebnis eines der beiden möglichen wie „Ja“ oder „Nein“ ist. Entscheidungsbäume sind einfach zu implementieren und zu interpretieren.

Random Forest oder Bagging

Random Forest ist ein fortschrittlicher Algorithmus von Entscheidungsbäumen. Es verwendet eine große Anzahl von Entscheidungsbäumen, was die Struktur dicht und komplex wie einen Wald macht. Es generiert mehrere Ergebnisse und führt somit zu genaueren Ergebnissen und Leistungen.

K- Nächster Nachbar (KNN)

kNN nutzt die Nähe der nächsten Datenpunkte auf einem Diagramm relativ zu einem neuen Datenpunkt, um vorherzusagen, in welche Kategorie er fällt. Der neue Datenpunkt wird der Kategorie mit einer höheren Anzahl von Nachbarn zugeordnet.

k = Anzahl der nächsten Nachbarn

Naive Bayes

Naive Bayes arbeitet auf zwei Säulen, erstens, dass jedes Merkmal von Datenpunkten unabhängig, nicht miteinander verbunden, dh einzigartig ist, und zweitens auf dem Bayes-Theorem, das Ergebnisse basierend auf einer Bedingung oder Hypothese vorhersagt.

Satz von Bayes:

P(X|Y) = {P(Y|X) * P(X)} / P(Y)

Wobei P(X|Y) = Bedingte Wahrscheinlichkeit von X bei Auftreten von Y

P(Y|X) = Bedingte Wahrscheinlichkeit von Y bei Auftreten von X

P(X), P(Y) = Wahrscheinlichkeit von X und Y einzeln

Support-Vektor-Maschinen

Dieser Algorithmus versucht, Daten im Raum basierend auf Grenzen zu trennen, die entweder eine Linie oder eine Ebene sein können. Diese Grenze wird als „Hyperebene“ bezeichnet und wird durch die nächstgelegenen Datenpunkte jeder Klasse definiert, die wiederum als „Unterstützungsvektoren“ bezeichnet werden. Der maximale Abstand zwischen Stützvektoren auf beiden Seiten wird als Rand bezeichnet.

Neuronale Netze

Perzeptron

Das grundlegende neuronale Netzwerk arbeitet, indem es gewichtete Eingaben und Ausgaben auf der Grundlage eines Schwellenwerts nimmt.

Neuronales Netzwerk weiterleiten

FFN ist das einfachste Netzwerk, das Daten nur in eine Richtung überträgt. Kann verborgene Schichten haben oder nicht.

Faltungsneuronale Netze

CNN verwendet eine Faltungsschicht, um bestimmte Teile der Eingabedaten in Stapeln zu verarbeiten, gefolgt von einer Pooling-Schicht, um die Ausgabe zu vervollständigen.

Wiederkehrende neuronale Netze

RNN besteht aus einigen wiederkehrenden Schichten zwischen E/A-Schichten, die „historische“ Daten speichern können. Der Datenfluss ist bidirektional und wird zur Verbesserung der Vorhersagen in die wiederkehrenden Schichten eingespeist.

Deep Neural Networks und Deep Learning

DNN ist ein Netzwerk mit mehreren verborgenen Schichten zwischen E/A-Schichten. Die verborgenen Schichten wenden sukzessive Transformationen auf die Daten an, bevor sie an die Ausgabeschicht gesendet werden.

„Deep Learning“ wird durch DNN erleichtert und kann riesige Mengen komplexer Daten verarbeiten und aufgrund mehrerer verborgener Schichten eine hohe Genauigkeit erreichen

Holen Sie sich eine Data-Science-Zertifizierung von den besten Universitäten der Welt. Lernen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.

Fazit

Data Science ist ein weites Feld, das verschiedene Strömungen durchläuft, aber für uns als Revolution und Offenbarung empfunden wird. Data Science boomt und wird die Funktionsweise und das Verhalten unserer Systeme in Zukunft verändern.

Wenn Sie neugierig sind, mehr über Data Science zu erfahren, schauen Sie sich das PG Diploma in Data Science von IIIT-B & upGrad an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten, 1- on-1 mit Mentoren aus der Branche, mehr als 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.

Welche Programmiersprache eignet sich am besten für Data Science und warum?

Es gibt Dutzende von Programmiersprachen für Data Science, aber die Mehrheit der Data Science-Community glaubt, dass Python die richtige Wahl ist, wenn Sie sich in Data Science auszeichnen möchten. Im Folgenden sind einige der Gründe aufgeführt, die diese Überzeugung stützen:
1. Python hat eine große Auswahl an Modulen und Bibliotheken wie TensorFlow und PyTorch, die es einfach machen, mit Data-Science-Konzepten umzugehen.
2. Eine riesige Python-Entwickler-Community hilft Neulingen ständig, die nächste Phase ihrer Data-Science-Reise zu erreichen.

3. Diese Sprache ist bei weitem eine der bequemsten und am einfachsten zu schreibenden Sprachen mit einer sauberen Syntax, die ihre Lesbarkeit verbessert.

Welche Konzepte machen Data Science vollständig?

Data Science ist ein riesiger Bereich, der als Dach für verschiedene andere wichtige Bereiche fungiert. Die folgenden sind die bekanntesten Konzepte, die Data Science ausmachen:
Statistiken
Statistik ist ein wichtiges Konzept, in dem Sie sich auszeichnen müssen, um in der Datenwissenschaft voranzukommen. Es hat außerdem einige Unterthemen:
1. Lineare Regression
2. Wahrscheinlichkeit
3. Wahrscheinlichkeitsverteilung
Künstliche Intelligenz
Die Wissenschaft, Maschinen ein Gehirn zu geben und sie ihre eigenen Entscheidungen basierend auf den Eingaben treffen zu lassen, wird als künstliche Intelligenz bezeichnet. Reaktive Maschinen, begrenztes Gedächtnis, Theory of Mind und Selbstbewusstsein sind einige der Arten von künstlicher Intelligenz.

Maschinelles Lernen
Maschinelles Lernen ist eine weitere entscheidende Komponente der Datenwissenschaft, die sich damit befasst, Maschinen beizubringen, zukünftige Ergebnisse auf der Grundlage der bereitgestellten Daten vorherzusagen. Maschinelles Lernen hat drei herausragende Modellierungsmethoden: Clustering, Regression und Klassifizierung.

Beschreiben Sie die Arten des maschinellen Lernens?

Maschinelles Lernen oder einfaches ML hat drei Haupttypen, basierend auf ihren Arbeitsmethoden. Diese Typen sind wie folgt:
1. Überwachtes Lernen
Dies ist die primitivste Art von ML, bei der die Eingabedaten gekennzeichnet sind. Die Maschine wird mit einem kleineren Datensatz versorgt, der der Maschine einen Einblick in das Problem gibt, und darauf trainiert.
2. Unbeaufsichtigtes Lernen
Der größte Vorteil dieser Art ist, dass die Daten hier unbeschriftet sind und der menschliche Arbeitsaufwand nahezu vernachlässigbar ist. Dies öffnet das Tor für viel größere Datensätze, die in das Modell eingeführt werden können.
3. Verstärktes Lernen Dies ist die fortschrittlichste Art von ML, die vom Leben der Menschen inspiriert wird. Gewünschte Ergebnisse werden verstärkt, während die nutzlosen Ergebnisse entmutigt werden.