Wie baut man eine kollaborative Data-Science-Umgebung auf?
Veröffentlicht: 2023-02-24Die Datenwissenschaft ist aus ihrer Anfangsphase herausgewachsen und umfasst nun viele Menschen, Gemeinschaften und Modelle. Bekannt gewordene Kommunikationskanäle und Plattformen zum Informations- und Wissensaustausch sind Blogs, Papers, GitHub, Data Science Meetings und Workshops. Diese sind jedoch häufig aufgrund verschiedener Einschränkungen begrenzt. Manchmal kann jemand feststellen, dass sie sich zu sehr auf die Theorie konzentrieren und keinen fertigen Code haben, sodass sie sich nicht an realen Beispielen testen können. Zu anderen Zeiten finden Data Scientists möglicherweise die Verfügbarkeit aller Daten, Codes und detaillierten Modelle, stellen jedoch fest, dass einige der Bibliotheken oder das gesamte Framework mit ihren Versionen nicht kompatibel sind. Diese Probleme können sowohl bei der teaminternen als auch bei der teamübergreifenden Zusammenarbeit auftreten.
Sehen Sie sich das Data Science Professional Certificate von upGrad in BDM von IIM Kozhikode an.
Inhaltsverzeichnis
Bedarf an einer Data-Science-Umgebung
Um sicherzustellen, dass die Erfahrung in allen Gruppen gleich bleibt, müssen Datenwissenschaftler daher alle dieselbe Plattform verwenden. Hier taucht die Frage auf : Wie baut man eine kollaborative Data-Science-Umgebung auf ?Dies sorgt für eine höhere Genauigkeit und geringere Bearbeitungszeiten. Sie kann nur stattfinden, wenn alle Beteiligten die gleichen Cloud-Ressourcen nutzen, auf die sie in einer Organisation Zugriff haben.
Zusammenarbeit ist in großen Unternehmen unerlässlich, insbesondere wenn es mehrere Teams gibt und jedes Team viele verschiedene Mitglieder hat. Glücklicherweise sind Cloud-Technologien heute erschwinglich geworden, was den Aufbau der erforderlichen Infrastruktur ermöglicht, die dann eine Plattform zum Experimentieren, Modellieren und Testen unterstützen kann.
Sehen Sie sich die Data Science-Kurse von upGrad an
Wenn Sie sich fragen,wie Sie eine kollaborative Data-Science-Umgebung aufbauen können, können Ihnen verschiedene Tools zu Hilfe kommen.Eines der gebräuchlicheren Tools ist Databricks. Stellen Sie sich andererseits einen Fall vor, in dem Sie Ihre Arbeit in einer bestehenden Cloud erledigen müssen, in der die Regeln für die Datenrichtlinie des Kunden streng sind. Die Werkzeuge sind nicht standardisiert und die Konfigurationen kundenspezifisch. In solchen Fällen benötigen Sie eine vorgefertigte Data-Science-Plattform, um Chancen nutzen zu können.
Lesen Sie unsere beliebten Data Science-Artikel
Data Science Career Path: Ein umfassender Karriereleitfaden | Data Science Karrierewachstum: Die Zukunft der Arbeit ist da | Warum ist Data Science wichtig? 8 Wege, wie Data Science dem Unternehmen einen Mehrwert bringt |
Relevanz von Data Science für Manager | Der ultimative Data Science Spickzettel, den jeder Data Scientist haben sollte | Die 6 wichtigsten Gründe, warum Sie Data Scientist werden sollten |
Ein Tag im Leben von Data Scientists: Was machen sie? | Mythos gesprengt: Data Science braucht keine Codierung | Business Intelligence vs. Data Science: Was sind die Unterschiede? |
Zu berücksichtigende Faktoren
Einige der Faktoren, die in einem solchen Fall berücksichtigt werden müssen, sind die entwickelten Modelle, die Sie anpassen und für andere Prognosen wiederverwenden können, wenn die Entwicklungs- und Trainingsumgebung gleich ist. Außerdem sollten Eingabedaten, Modelle und Ergebnisse allen Teammitgliedern zur Verfügung stehen, wenn die Data Lake-Sicherheit streng kontrolliert wird. Data Scientists sollten für eine effizientere und genauere Analyse angepasste Data-Science-Tools und Datenquellen an einem Ort verwenden.
Somit kann man sich eine Data-Science-Umgebung als eine Plattform vorstellen, um Daten auf viele verschiedene Arten von einer Vielzahl von Personen zu analysieren. Dazu können Data Scientists, Business Analysts, Entwickler und Manager gehören. Der gesamte Data Lake und alle Rechenknoten, die in Form von CPU- oder GPU-Clustern angeordnet sind, bilden zusammen die Data-Science-Umgebung. Da die aktuellsten und zuverlässigsten Daten im Data Lake vorhanden sind und der Speicher verbunden ist, können die Mitglieder Datenimport- und -exportvorgänge ausschließen. Training, Tests und Berichte werden synchronisiert. Darüber hinaus können die Teilnehmer die letzte Modellkonfiguration kopieren und das Modell basiert auf verschiedenen Parametern, je nach Bedarf. Lassen Sie uns nun etwas detaillierter auf das Design und die Bereitstellung der Umgebung eingehen.
Lesen Sie unsere beliebten Artikel zum Thema MBA
Gehalt für Finanzanalysten – Frischlinge und Erfahrene | Top Interview Fragen und Antworten für HR | MBA Marketing Karrieremöglichkeiten in den USA |
Beste Karrieremöglichkeiten in den USA nach MBA im Personalwesen | Top 7 Karrieremöglichkeiten im Vertrieb | Bestbezahlte Finanzjobs in den USA: Durchschnittlich bis am höchsten |
Top 7 Karrieremöglichkeiten im Finanzwesen in den USA: Must Read | Top 5 Marketing-Trends im Jahr 2022 | MBA-Gehalt in den USA im Jahr 2022 [Alle Spezialisierungen] |
Minimale Umgebungsarchitektur
Wir werden uns nun eine primär verteilte Dateispeicherumgebung ansehen. Dabei können Sie zum Beispiel Apache Hadoop verwenden. Apache Hadoop ist ein Open-Source-Framework, das eine parallele Verarbeitung ermöglicht, und Einzelpersonen können es verwenden, um riesige Datensätze über verschiedene Computercluster hinweg zu speichern. Es verfügt über ein markenrechtlich geschütztes Dateisystem, das als Hadoop Distributed File System (HDFS) bekannt ist. Dieses System ist unerlässlich und sorgt für Datenredundanz über verschiedene Knoten und Skalierbarkeit. Dazu kommt das Hadoop YARN, ein Framework. Es ist verantwortlich für die Planung von Jobs zur Ausführung von Datenverarbeitungsaufgaben über die verschiedenen Knoten hinweg. Für diese Umgebung werden mindestens drei Knoten erwartet, und es wird der 3-Knoten-Hadoop-Cluster erstellt.
Beachten Sie, dass Streaming mit der Kafka-Stream-Processing-Plattform in die Umgebung integriert werden kann, falls kontinuierliche Datenaufnahme aus verschiedenen Quellen erfolgt. Die Stream-Verarbeitung umfasst keine separat bezeichnete Aufgabe. Die einzige Funktion, die es ausführt, besteht darin, die ursprünglichen durch Trennzeichen getrennten Werte in das Parquet-Format zu ändern. Das Parquet-Format ist im Vergleich zu Hive flexibler, da es kein vordefiniertes Schema erfordert. Beachten Sie, dass es Fälle gibt, in denen die gestreamten Werte völlig von den Standarderwartungen abweichen, entweder eine benutzerdefinierte Transformation stattfindet oder die Daten im HDFS im Originalformat gespeichert werden. Der Grund für eine detaillierte Erläuterung dieser Phase liegt in der Tatsache, dass es sich um einen sehr wichtigen Teil des Prozesses handelt. Da es keine dedizierten Projekte oder vorbereiteten Analysen gibt, die die Daten berücksichtigen können, muss die Pipeline sie so verfügbar machen, dass der Data Scientist ohne Informationsverlust mit der Arbeit an einem Satz beginnen kann. Alle Daten sind im Data Lake verfügbar und in designten Use Cases verbunden. Datenquellen können unterschiedlich sein und die Form verschiedener Protokolldateien oder verschiedener Arten von Diensten und Systemeingaben annehmen, um nur zwei zu nennen.
Sobald der Data Lake fertig ist, müssen die Cluster so konfiguriert werden, dass die Data Scientists eine Umgebung mit allen erforderlichen Tools und vielfältigen Möglichkeiten genießen können. Das benötigte Toolset wird nachfolgend erläutert. In Fortführung der bestehenden Beispielumgebung kann Apache Spark auf allen Knoten installiert werden. Dies ist ein Cluster-Computing-Framework, und sein Treiber wird in einem Anwendungsmasterprozess ausgeführt, der auf dem Cluster von YARN verwaltet wird. Der Ersteller der Umgebung muss auch sicherstellen, dass Python auf allen Knoten vorhanden ist und dass die Versionen mit allen verfügbaren grundlegenden Data-Science-Bibliotheken identisch sind. Optional kann der Hersteller der Umgebung auch entscheiden, R auf allen Cluster-Knoten und Jupyter Notebook auf mindestens zwei zu installieren. TensorFlow setzt auf Spark auf. Analysetools wie KNIME werden ebenfalls auf einem der Datenknoten oder den angeschlossenen Servern empfohlen.
Sobald die Umgebung fertig ist, sollte die Data-Science-Umgebung schließlich allen Data Scientists und ihren Teams einen bereiten kooperativen Zugriff auf alle verfügbaren Daten bieten.
Wenn Sie mehr über Tableau und Data Science erfahren möchten, besuchen Sie das Executive PG Program in Data Science von IIIT-B & upGrad, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops und Mentoring mit Branchenexperten bietet , 1-zu-1 mit Mentoren aus der Branche, über 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.