Data Science-Prozess: Verständnis, Datenerfassung, Modellierung, Bereitstellung und Verifizierung

Veröffentlicht: 2021-02-09

Data-Science-Projekte in der Branche werden normalerweise als klar definierter Lebenszyklus verfolgt, der dem Projekt Struktur verleiht und klare Ziele für jeden Schritt definiert. Es gibt viele solcher Methoden wie CRISP-DM, OSEMN, TDSP usw. Es gibt mehrere Phasen in einem Data Science-Prozess, die sich auf bestimmte Aufgaben beziehen, die die verschiedenen Mitglieder eines Teams ausführen.

Wann immer ein Data-Science-Problem vom Kunden eingeht, muss es gelöst und dem Kunden auf strukturierte Weise präsentiert werden. Diese Struktur stellt sicher, dass der gesamte Prozess nahtlos abläuft, da mehrere Personen an ihren spezifischen Rollen wie Lösungsarchitekt, Projektmanager, Produktleiter, Dateningenieur, Datenwissenschaftler, DevOps-Leiter usw sicher, dass die Qualität des Endprodukts gut ist und die Projekte pünktlich abgeschlossen werden.

Am Ende dieses Tutorials werden Sie Folgendes wissen:

Geschäftsverständnis
Datensammlung
Modellieren
Einsatz
Client-Validierung

Inhaltsverzeichnis

Geschäftsverständnis

Geschäfts- und Datenkenntnisse sind von größter Bedeutung. Wir müssen entscheiden, welche Ziele wir vorhersagen müssen, um das vorliegende Problem zu lösen. Wir müssen auch verstehen, aus welchen Quellen wir die Daten beziehen können und ob neue Quellen aufgebaut werden müssen.

Die Modellziele können Hauspreise, Kundenalter, Verkaufsprognose usw. sein. Diese Ziele müssen in Zusammenarbeit mit dem Kunden festgelegt werden, der sein Produkt und Problem vollständig kennt. Die zweitwichtigste Aufgabe besteht darin, zu wissen, um welche Art von Vorhersage es sich bei dem Ziel handelt.

Ob Regression oder Klassifizierung oder Clustering oder gar Empfehlung. Die Rollen der Mitglieder müssen festgelegt werden und auch, welche und wie viele Personen benötigt werden, um das Projekt abzuschließen. Es werden auch Erfolgsmetriken festgelegt, um sicherzustellen, dass die Lösung mindestens akzeptable Ergebnisse liefert.

Es müssen die Datenquellen identifiziert werden, die die Daten liefern können, die zur Vorhersage der oben beschlossenen Ziele erforderlich sind. Es kann auch erforderlich sein, Pipelines aufzubauen, um Daten aus bestimmten Quellen zu sammeln, was ein wichtiger Faktor für den Erfolg des Projekts sein kann.

Datensammlung

Sobald die Daten identifiziert sind, brauchen wir als nächstes Systeme, um die Daten effektiv aufzunehmen und sie für die weitere Verarbeitung und Exploration zu verwenden, indem Pipelines eingerichtet werden. Der erste Schritt besteht darin, den Quellentyp zu identifizieren. Ob On-Premise oder On-Cloud. Wir müssen diese Daten in die analytische Umgebung aufnehmen, wo wir weitere Prozesse damit durchführen werden.

Sobald die Daten aufgenommen wurden, fahren wir mit dem wichtigsten Schritt des Data Science-Prozesses fort, der Exploratory Data Analysis (EDA). EDA ist der Prozess der Analyse und Visualisierung der Daten, um zu sehen, welche Formatierungsprobleme und fehlenden Daten vorhanden sind.

Alle Diskrepanzen müssen normalisiert werden, bevor mit der Untersuchung der Daten fortgefahren wird, um Muster und andere relevante Informationen zu finden. Dies ist ein iterativer Prozess und umfasst auch das Zeichnen verschiedener Arten von Diagrammen und Graphen, um die Beziehungen zwischen den Merkmalen und den Merkmalen mit dem Ziel zu sehen.

Pipelines müssen eingerichtet werden, um regelmäßig neue Daten in Ihre Umgebung zu streamen und die vorhandenen Datenbanken zu aktualisieren. Vor der Einrichtung von Pipelines müssen weitere Faktoren geprüft werden. Zum Beispiel, ob die Daten chargenweise oder online gestreamt werden müssen, ob es sich um eine Hoch- oder Niedrigfrequenz handelt.

Modellierung & Evaluation

Der Modellierungsprozess ist die Kernphase, in der maschinelles Lernen stattfindet. Es müssen die richtigen Merkmale festgelegt und das Modell mit den richtigen Algorithmen darauf trainiert werden. Das trainierte Modell muss dann evaluiert werden, um seine Effizienz und Leistung anhand realer Daten zu überprüfen.

Der erste Schritt heißt Feature Engineering, bei dem wir das Wissen aus der vorherigen Phase nutzen, um die wichtigen Features zu bestimmen, die unser Modell leistungsfähiger machen. Feature-Engineering ist der Prozess, Features in neue Formen umzuwandeln und sogar Features zu kombinieren, um neue Features zu bilden.

Dies muss sorgfältig durchgeführt werden, um zu vermeiden, dass zu viele Funktionen verwendet werden, die die Leistung eher verschlechtern als verbessern können. Der Vergleich der Metriken jedes Modells kann helfen, diesen Faktor zusammen mit der Wichtigkeit von Merkmalen in Bezug auf das Ziel zu bestimmen.

Sobald das Feature-Set fertig ist, muss das Modell mit mehreren Arten von Algorithmen trainiert werden, um zu sehen, welcher die beste Leistung erbringt. Dies wird auch als Spot-Checking-Algorithmus bezeichnet. Die leistungsstärksten Algorithmen werden dann weitergeführt, um ihre Parameter für eine noch bessere Leistung abzustimmen. Metriken werden für jeden Algorithmus und jede Parameterkonfiguration verglichen, um zu bestimmen, welches Modell das beste von allen ist.

Einsatz

Das Modell, das nach der vorherigen Phase fertiggestellt ist, muss nun in der Produktionsumgebung bereitgestellt werden, um verwendbar zu werden und mit echten Daten getestet zu werden. Das Modell muss entweder in Form von Mobile/Web-Anwendungen oder Dashboards oder unternehmensinterner Software operationalisiert werden.

Die Modelle können je nach erwarteter Last und Anwendungen entweder auf Cloud- (AWS, GCP, Azure) oder lokalen Servern bereitgestellt werden. Die Modellleistung muss kontinuierlich überwacht werden, um sicherzustellen, dass alle Probleme verhindert werden.

Das Modell muss auch mit neuen Daten neu trainiert werden, wenn diese über die in einer früheren Phase festgelegten Pipelines eingehen. Diese Umschulung kann entweder offline oder online erfolgen. Im Offlinemodus wird die Anwendung heruntergefahren, das Modell neu trainiert und dann erneut auf dem Server bereitgestellt.

Zur Entwicklung der Backend-Anwendung, die die Daten der Frontend-Anwendung aufnimmt und an das Modell auf dem Server weiterleitet, werden verschiedene Arten von Web-Frameworks verwendet. Diese API sendet dann die Vorhersagen vom Modell zurück an die Front-End-Anwendung. Einige Beispiele für Web-Frameworks sind Flask, Django und FastAPI.

Client-Validierung

Dies ist die letzte Phase eines Data Science-Prozesses, in der das Projekt schließlich an den Kunden zur Nutzung übergeben wird. Der Client muss durch die Anwendung, ihre Details und ihre Parameter geführt werden. Es kann auch einen Abschlussbericht enthalten, der alle technischen Aspekte des Modells und seine Bewertungsparameter enthält. Der Auftraggeber muss die Abnahme der durch das Modell erzielten Leistung und Genauigkeit bestätigen.

Der wichtigste Punkt, der beachtet werden muss, ist, dass der Auftraggeber oder der Kunde möglicherweise nicht über das technische Wissen von Data Science verfügt. Daher ist es die Pflicht des Teams, alle Details in einer Weise und Sprache bereitzustellen, die für den Kunden leicht verständlich ist.

Bevor du gehst

Der Data-Science-Prozess variiert von einer Organisation zur anderen, kann aber in den 5 Hauptphasen, die wir besprochen haben, verallgemeinert werden. Zwischen diesen Phasen können weitere Phasen liegen, um spezifischere Aufgaben wie Datenbereinigung und Berichterstellung zu berücksichtigen. Insgesamt muss sich jedes Data-Science-Projekt um diese 5 Phasen kümmern und sicherstellen, dass sie für alle Projekte eingehalten werden. Die Befolgung dieses Prozesses ist ein wichtiger Schritt, um den Erfolg aller Data Science-Projekte sicherzustellen.

Die Struktur des Data-Science-Programms soll es Ihnen erleichtern, ein echtes Talent im Bereich Data Science zu werden, was es einfacher macht, den besten Arbeitgeber auf dem Markt zu ergattern. Registrieren Sie sich noch heute, um Ihre Lernpfadreise mit upGrad zu beginnen!

Was ist der erste Schritt im Data-Science-Prozess?

Der allererste Schritt im Data-Science-Prozess besteht darin, Ihr Ziel zu definieren. Vor der Datenerfassung, Modellierung, Bereitstellung oder jedem anderen Schritt müssen Sie das Ziel Ihrer Forschung festlegen.
Sie sollten sich gründlich mit den „3 W's“ Ihres Projekts befassen – was, warum und wie. „Was sind die Erwartungen Ihres Kunden? Warum schätzt Ihr Unternehmen Ihre Forschung? Und wie werden Sie mit Ihrer Recherche fortfahren?“
Wenn Sie alle diese Fragen beantworten können, sind Sie bereit für den nächsten Schritt Ihrer Forschung. Um diese Fragen zu beantworten, sind Ihre nicht-technischen Fähigkeiten wie Geschäftssinn entscheidender als Ihre technischen Fähigkeiten.

Wie modellieren Sie Ihren Prozess?

Der Modellierungsprozess ist ein entscheidender Schritt in einem Data-Science-Prozess und dafür verwenden wir maschinelles Lernen. Wir füttern unser Modell mit dem richtigen Datensatz und trainieren es mit geeigneten Algorithmen. Bei der Modellierung eines Prozesses werden folgende Schritte berücksichtigt:
1. Der allererste Schritt ist Feature Engineering. Dieser Schritt berücksichtigt die zuvor gesammelten Informationen, bestimmt die wesentlichen Merkmale für das Modell und kombiniert sie zu neuen und weiterentwickelten Merkmalen.
2. Dieser Schritt muss mit Vorsicht durchgeführt werden, da zu viele Funktionen dazu führen könnten, dass unser Modell verschlechtert wird, anstatt es weiterzuentwickeln.
3. Dann bestimmen wir die stichprobenartigen Algorithmen. Diese Algorithmen sind diejenigen, mit denen das Modell trainiert werden muss, nachdem es neue Merkmale erworben hat.
4. Aus ihnen wählen wir die leistungsstärksten Algorithmen aus und stimmen sie ab, um ihre Fähigkeiten sogar noch zu verbessern. Um das beste Modell zu vergleichen und zu finden, betrachten wir die Metrik verschiedener Algorithmen.

Wie sollte der Ansatz sein, um das Projekt dem Kunden vorzustellen?

Dies ist der letzte Schritt im Lebenszyklus eines Data-Science-Projekts. Dieser Schritt muss sorgfältig durchgeführt werden, sonst könnten alle Ihre Bemühungen umsonst sein. Der Kunde sollte gründlich zu jedem einzelnen Aspekt Ihres Projekts geführt werden. Eine PowerPoint-Präsentation zu Ihrem Modell könnte der Pluspunkt für Sie sein.
Eine Sache, die Sie im Hinterkopf behalten sollten, ist, dass Ihr Kunde aus dem technischen Bereich kommen kann oder nicht. Sie dürfen also keine technischen Kernwörter verwenden. Versuchen Sie, die Anwendungen und Parameter Ihres Projekts in Laiensprache darzustellen, damit es für Ihre Kunden verständlich ist.