Jak zbudować współpracujące środowisko Data Science?

Opublikowany: 2023-02-24

Nauka o danych wyrosła z początkowej fazy i obejmuje obecnie wiele osób, społeczności i modeli. Kanały komunikacji oraz platformy wymiany informacji i wiedzy, które stały się popularne, to blogi, artykuły, GitHub, spotkania i warsztaty data science. Jednak często są one ograniczone ze względu na różne ograniczenia. W pewnym momencie ktoś może uznać, że są zbyt skupieni na teorii i brakuje im ukończonego kodu, przez co nie mogą sprawdzić się na przykładach z życia wziętych. Innym razem badacze danych mogą znaleźć wszystkie dane, kody i szczegółowe modele, ale niektóre biblioteki lub cały framework są niekompatybilne z ich wersjami. Problemy te mogą pojawić się zarówno we współpracy wewnątrz zespołu, jak i między zespołami.

Sprawdź certyfikat upGrad Data Science Professional w BDM od IIM Kozhikode.

Spis treści

Potrzeba środowiska Data Science

W związku z tym, aby mieć pewność, że doświadczenia w różnych grupach pozostaną takie same, wszyscy analitycy danych muszą korzystać z tej samej platformy. W tym miejscu pojawia się pytanie : jak zbudować współpracujące środowisko nauki o danych ?Zapewnia to większą dokładność i krótsze czasy przetwarzania. Może to mieć miejsce tylko wtedy, gdy wszyscy uczestnicy korzystają z tych samych zasobów chmurowych, do których mają dostęp w organizacji.

Współpraca jest niezbędna w dużych firmach, zwłaszcza tam, gdzie istnieje wiele zespołów, a każdy zespół składa się z wielu różnych członków. Na szczęście technologie chmurowe stały się dziś przystępne cenowo, co pozwala na zbudowanie wymaganej infrastruktury, która może następnie wspierać platformę do eksperymentowania, modelowania i testowania.

Sprawdź kursy nauki o danych firmy upGrad

Gdy zastanawiasz się,jak zbudować wspólne środowisko nauki o danych, z pomocą mogą przyjść różne narzędzia.Jednym z bardziej powszechnych narzędzi są Datakostki. Z drugiej strony rozważ przypadek, w którym musisz wykonywać swoją pracę w istniejącej chmurze, w której zasady rządzące polityką danych klienta są rygorystyczne. Narzędzia są niestandardowe, a konfiguracje dostosowane. W takich przypadkach potrzebujesz gotowej platformy nauki o danych, aby wykorzystać możliwości.

Przeczytaj nasze popularne artykuły dotyczące nauki o danych

Ścieżka kariery w nauce o danych: kompleksowy przewodnik po karierze	Rozwój kariery w Data Science: Przyszłość pracy jest tutaj	Dlaczego nauka o danych jest ważna? 8 sposobów, w jakie analiza danych wnosi wartość do biznesu
Znaczenie nauki o danych dla menedżerów	Najlepsza ściągawka do analizy danych, którą powinien mieć każdy analityk danych	6 najważniejszych powodów, dla których warto zostać naukowcem danych
Dzień z życia Data Scientist: Co oni robią?	Obalony mit: analiza danych nie wymaga kodowania	Business Intelligence vs Data Science: jakie są różnice?

Czynniki do rozważenia

Niektóre z czynników, które należy wziąć pod uwagę w takim przypadku, to opracowane modele, które można dostosować i ponownie wykorzystać do innych prognoz, jeśli środowisko programistyczne i szkoleniowe jest takie samo. Ponadto dane wejściowe, modele i wyniki powinny być dostępne dla wszystkich członków zespołu, jeśli bezpieczeństwo jeziora danych jest ściśle kontrolowane. Analitycy danych powinni korzystać z dostosowanych narzędzi do nauki o danych i źródeł danych w jednym miejscu w celu wydajniejszej i dokładniejszej analizy.

Można więc wyobrazić sobie środowisko data science jako platformę do analizowania danych na wiele różnych sposobów przez różne osoby. Mogą to być analitycy danych, analitycy biznesowi, programiści i menedżerowie. Całe jezioro danych i wszystkie węzły obliczeniowe, które są ułożone w postaci klastrów CPU lub GPU, razem tworzą środowisko nauki o danych. Ponieważ w jeziorze danych znajdują się najbardziej aktualne i wiarygodne dane, a pamięć masowa jest połączona, członkowie mogą wykluczać operacje importu i eksportu danych. Szkolenie, testowanie i raportowanie są zsynchronizowane. Ponadto uczestnicy mogą skopiować ostatnią konfigurację modelu, a model jest oparty na różnych parametrach, zgodnie z wymaganiami. Przyjrzyjmy się teraz nieco bardziej szczegółowo projektowi i wdrażaniu środowiska.

Przeczytaj nasze popularne artykuły związane z MBA

Wynagrodzenie analityka finansowego — świeżo upieczeni i doświadczeni	Najpopularniejsze pytania i odpowiedzi do wywiadów dla działów HR	Opcje kariery w marketingu MBA w USA
Najlepsze opcje kariery w USA po MBA w dziale zasobów ludzkich	7 najlepszych opcji kariery w sprzedaży	Najwyżej płatne oferty pracy w finansach w USA: od średniej do najwyższej
7 najlepszych opcji kariery w finansach w USA: trzeba przeczytać	Top 5 trendów marketingowych w 2022 roku	Wynagrodzenie MBA w USA w 2022 [Wszystkie specjalizacje]

Minimalna architektura środowiska

Przyjrzymy się teraz głównemu rozproszonemu środowisku przechowywania plików. Można w tym wykorzystać np. Apache Hadoop. Apache Hadoop to platforma typu open source, która umożliwia przetwarzanie równoległe, a osoby fizyczne mogą jej używać do przechowywania ogromnych zestawów danych w różnych klastrach komputerowych. Ma zastrzeżony system plików znany jako Hadoop Distributed File System (HDFS). Ten system jest niezbędny i dba o redundancję danych w różnych węzłach i skalowalność. Oprócz tego istnieje Hadoop YARN, który jest frameworkiem. Odpowiada za planowanie zadań w celu wykonania zadań przetwarzania danych w różnych węzłach. Minimalna oczekiwana liczba węzłów dla tego środowiska to trzy i tworzy klaster 3-węzłowy Hadoop.

Należy pamiętać, że strumieniowanie można wbudować w środowisko z platformą przetwarzania strumieni Kafka w przypadku ciągłego pozyskiwania danych pochodzących z różnych źródeł. Przetwarzanie strumieniowe nie obejmuje żadnego oddzielnie wyznaczonego zadania. Jedyną funkcją, jaką wykonuje, jest zmiana na format parkietowy oryginalnych wartości oddzielonych ogranicznikami. Format parkietu jest bardziej elastyczny w porównaniu do Hive, ponieważ nie wymaga żadnego z góry zdefiniowanego schematu. Należy pamiętać, że zdarzają się przypadki, gdy przesyłane strumieniowo wartości są całkowicie odmienne od standardowych oczekiwań, albo następuje niestandardowa transformacja, albo dane są przechowywane w oryginalnym formacie w systemie plików HDFS. Powodem szczegółowego wyjaśnienia tego etapu jest fakt, że jest to bardzo istotna część procesu. Ponieważ nie ma dedykowanych projektów ani przygotowanych analiz, które mogłyby uwzględniać dane, potok musi udostępniać je w taki sposób, aby analityk danych mógł rozpocząć pracę na zbiorze bez utraty informacji. Wszystkie dane są dostępne w data lake i połączone w zaprojektowane przypadki użycia. Źródła danych mogą się różnić i mogą przybierać formy różnych plików dziennika lub różnego rodzaju usług i danych wejściowych systemu, by wymienić tylko dwie z nich.

Gdy jezioro danych jest gotowe, klastry muszą zostać skonfigurowane, aby analitycy danych mogli cieszyć się środowiskiem ze wszystkimi potrzebnymi narzędziami i różnorodnymi możliwościami. Wymagany zestaw narzędzi zostanie wyjaśniony poniżej. Kontynuując istniejące przykładowe środowisko, Apache Spark można zainstalować na wszystkich węzłach. Jest to klastrowa struktura obliczeniowa, a jej sterownik działa w ramach głównego procesu aplikacji, który jest zarządzany w klastrze przez YARN. Konstruktor środowiska musi również upewnić się, że Python jest obecny na wszystkich węzłach, a wersje są takie same we wszystkich dostępnych podstawowych bibliotekach nauki o danych. Opcjonalnie twórca środowiska może również zainstalować R na wszystkich węzłach klastra i Jupyter Notebook na co najmniej dwóch. TensorFlow idzie na Sparka. Narzędzia analityczne, takie jak KNIME, są również zalecane na jednym z węzłów danych lub na podłączonych serwerach.

Na koniec, gdy środowisko jest gotowe, środowisko nauki o danych powinno zapewniać wszystkim naukowcom danych i ich zespołom gotowy, kooperacyjny dostęp do wszystkich dostępnych danych.

Jeśli chcesz dowiedzieć się więcej o tableau, nauce o danych, sprawdź program Executive PG IIIT-B & upGrad w Data Science, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring z ekspertami branżowymi , 1 na 1 z mentorami branżowymi, ponad 400 godzin nauki i pomocy w znalezieniu pracy w najlepszych firmach.

Chcesz udostępnić ten artykuł?

Przygotuj się na karierę przyszłości

Magister nauk o danych