Projekty RStudio dla początkujących [2022]

Opublikowany: 2021-01-10

W poniższym artykule mówimy o projektach RStudio, czym są, dlaczego powinieneś ich używać i jak możesz z nich korzystać. Omówiliśmy również kilka najlepszych praktyk dotyczących projektów RStudio, dzięki czemu można z nimi pracować szybko i wydajnie. Zacznijmy.

Spis treści

Co to jest RStudio?

RStudio to IDE (zintegrowane środowisko programistyczne) dla R, jednego z najważniejszych języków programowania w analizie danych. Posiada konsolę, edytor, a także wiele narzędzi do debugowania, kreślenia i zarządzania obszarem roboczym. Ma zarówno wersje open source, jak i komercyjne dostępne na rynku, i można go używać z systemami operacyjnymi Mac, Linux i Windows. Ma również wersję online, do której możesz uzyskać dostęp za pośrednictwem przeglądarki.

Jest to środowisko programistyczne, które pomaga w używaniu języka R do obliczeń statystycznych. Aby korzystać z RStudio, powinieneś znać R, język programowania. Oto szczegółowy samouczek dotyczący R , jeśli jesteś zainteresowany.

Dlaczego warto korzystać z projektów Rstudio?

Wielu analityków popełnia błąd podczas pracy z RStudio. Konwencjonalną metodą ustawiania katalogów roboczych jest użycie setwd(). Problem z tradycyjnym podejściem polega na tym, że tworzy bezwzględną ścieżkę do pliku jako dane wejściowe i ustawia to samo, co katalog roboczy. Aby uzyskać dostęp do analizy danych, musisz użyć funkcji getwd().

Posiadanie bezwzględnej ścieżki do pliku sprawia, że ​​katalog roboczy jest bardzo podatny na przerwy w linkach. W tej metodzie link do katalogu może się łatwo zepsuć, co sprawia, że ​​udostępnianie tego projektu innym osobom jest bardzo trudne. Na przykład, jeśli przeniesiesz listę tylko do podfolderu, jej łącze zostanie przerwane. Można powiedzieć, że posiadanie bezwzględnej ścieżki do plików sprawia, że ​​dzielenie się swoją pracą z innymi jest prawie niemożliwe.

Co więcej, jako analityk danych musiałbyś pracować w zespołach, z innymi profesjonalistami. Musisz więc dzielić się swoją pracą z innymi i współpracować.

Dowiedz się więcej: Samouczek R dla początkujących: Zostań ekspertem w programowaniu R

Rozwiązanie

Zamiast podążać ortodoksyjną ścieżką używania setwd(), możesz tworzyć projekty RStudio i wyeliminować wszystkie problemy. Projekty Rstudio sprawiają, że ścieżka pliku jest względna, a nie bezwzględna, co pomaga w utrzymaniu bezpieczeństwa ścieżki do pliku. Podczas tworzenia projektów RStudio dodają do pliku rozszerzenie .Rproj.

Dzięki temu rozszerzeniu za każdym razem, gdy RStudio uruchamia ten plik, jego katalog roboczy wskazuje folder, w którym jest zapisany. Oznacza to, że nawet po przeniesieniu pliku projektu do podfolderu lub innej lokalizacji pozostanie on dostępny.

Tę metodę należy stosować tylko do tworzenia i zapisywania sesji RStudio. Pomoże to nie tylko w udostępnianiu pliku, ale także pomoże w udostępnianiu go innym. Nie musisz się martwić, że ścieżka do pliku zostanie zerwana, jak w poprzednim podejściu, tj. gdy używasz setwd().

Unikanie tradycyjnego podejścia może wydawać się zniechęcające, ale nie martw się. Ta metoda jest lepsza pod wieloma względami, jak ustaliliśmy wcześniej. Teraz, gdy już wiesz, dlaczego powinieneś używać projektów RStudio, powinniśmy teraz omówić, w jaki sposób możesz z nich korzystać.

Jak tworzyć projekty RStudio

Aby utworzyć projekt RStudio, musisz najpierw użyć opcji „Utwórz projekt”, do której można uzyskać dostęp za pośrednictwem globalnego paska narzędzi, wybierając tam menu Projekty.

Po wybraniu opcji „Utwórz projekt” RStudio tworzy plik projektu z rozszerzeniem .Rproj w katalogu roboczym. Tworzy również ukrytą listę pod nazwą .Rproj, użytkownik, w której przechowuje wszystkie pliki tymczasowe związane z projektem, takie jak .gitignore. Następnie ładuje projekt do RStudio i wyświetla jego nazwę na pasku narzędzi.

Po utworzeniu projektu należy używać tylko plików znajdujących się w tym katalogu, chyba że projekt wymaga użycia narzędzia internetowego (wywołanie interfejsu API lub wykonanie przeszukiwania sieci). Projekty RStudio można tworzyć w ramach istniejącej listy lub w nowym rekordzie. Przejdźmy teraz do tego, jak możesz wykorzystać te projekty:

Jak pracować z projektami RStudio

Najlepiej byłoby, gdybyś zawsze zaczynał pracę od otwarcia pliku .Rproj, a następnie otwierał inne dane, co jest najlepszą praktyką. Aby otworzyć plik .Rproj, możesz otworzyć RStudio i użyć opcji „Otwórz projekt” znajdującej się w menu Projekty na pasku narzędzi. Po wybraniu tego polecenia zobaczysz listę utworzonych projektów, z której możesz wybrać ten, nad którym chcesz pracować.

RStudio tworzy nową sesję R po otwarciu projektu. Ładuje również plik .RData obecny w katalogu roboczym (jeśli projekt tego wymaga) wraz z plikiem .Rhistory w panelu Historia. RStudio przywraca również wszystkie powiązane ustawienia (pozycje splitterów, aktywne karty itp.) do miejsca, w którym znajdowały się w momencie zamknięcia projektu w ostatniej sesji. Jak już mogłeś zauważyć, korzystanie z projektów RStudio jest znacznie lepsze niż korzystanie z tradycyjnej metody.

Najlepiej byłoby, gdybyś rozważył otwarcie pliku .Rproj jako inicjalizację całego zadania. Zapewnia, że ​​katalog roboczy działa płynnie i wydajnie. Pomaga również uniknąć błędów związanych z przepływem pracy.

Przeczytaj: 6 ciekawych pomysłów na projekty R dla początkujących.

Jak zorganizować katalog projektów

Oprócz korzystania z projektów RStudio, oto krótki przewodnik dotyczący struktury katalogu projektu w celu wydajnego zarządzania i obsługi.

Dane

Najpierw powinieneś mieć podfolder Data, w którym zapisujesz wszystkie pliki, które musisz wczytać do R, aby wykonać wymaganą wizualizację lub analizę. Innymi słowy, ten folder służy do przechowywania wszystkich plików źródłowych.

Scenariusz

W tym folderze powinieneś przechowywać wszystkie skrypty R i wszystkie pliki z rozszerzeniami .Rmd i .R. Może mieć następujące podfoldery:

  • Akta

Tutaj przechowujesz wszystkie pliki z rozszerzeniami .Rmd i .R (zwane również plikami RMarkdown)

  • Funkcje

Tutaj przechowujesz wszystkie utworzone przez siebie funkcje niestandardowe. Jest to opcjonalne.

  • Analiza

Tutaj przechowujesz wszystkie oryginalne skrypty R dla swojego projektu. Ten folder przyda się, gdy będziesz mieć wiele plików analitycznych do wykorzystania w jednym projekcie.

Ucz się kursów nauki o danych z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

Wyjście

W tym folderze powinieneś przechowywać wszystkie pliki, które tworzysz w swoich projektach, takie jak HTML, wykresy i eksporty. Ten folder ma też wiele zalet. Po pierwsze, pomaga innym dowiedzieć się, gdzie są wyniki Twojego kodu. Po drugie, pomaga w oddzieleniu wszystkich plików źródłowych i danych, nad którymi pracowałeś.

Przeczytaj także: 8 zdumiewających projektów data science w R dla początkujących

Wniosek

Mamy nadzieję, że spodobał Ci się ten przewodnik po projektach RStudio. Jeśli chcesz dowiedzieć się więcej o R, języku programowania i RStudio, zalecamy przejście do bloga upGrad, na którym znajdziesz wiele cennych zasobów, przewodników i artykułów.

Z drugiej strony, jeśli chcesz uzyskać dokładniejsze doświadczenie edukacyjne, powinieneś przejść kurs nauki o danych.

Co to jest RStudio i dlaczego używamy go do budowania projektów?

RStudio to zintegrowane środowisko programistyczne lub IDE dla języka R. Jest to jedno z najpopularniejszych środowisk IDE dla języka R i zapewnia konsolę, edytor, narzędzia do debugowania, kreślenia i zarządzania obszarem roboczym. Jednym z głównych powodów jego popularności jest to, że ma dwie dostępne na rynku edycje - open source i komercyjną, co ułatwia użytkownikowi tworzenie projektów za jego pomocą bez płacenia czegokolwiek. Co więcej, możesz z niego korzystać nawet bez pobierania start-upu za pomocą jego wersji przeglądarkowej.

Jaka powinna być struktura katalogu projektów?

Oprócz tworzenia projektów, ważne jest, jak ustrukturyzować katalog projektów, aby zapewnić wydajną obsługę i czytelność dla użytkownika. Oto idealna struktura, w której musisz przechowywać swoje pliki: Pierwszym folderem powinien być folder Data, w którym będą przechowywane wszystkie pliki źródłowe twojego projektu. Następnie folder skryptów będzie zawierał wszystkie skrypty R oraz pliki z rozszerzeniami .Rmd i .R. Ten folder będzie ponadto zawierał następujące podfoldery. Folder Pliki będzie zawierał wszystkie pliki z rozszerzeniami takimi jak .Rmd i .R. Pliki te są również znane jako pliki Rmarkdown . Folder Funkcje jest opcjonalny. Jeśli utworzyłeś jakąkolwiek funkcję niestandardową, możesz zapisać jej plik w tym folderze. Folder analizy staje się przydatny, gdy masz wiele plików analizy do wykorzystania w jednym projekcie. W tym folderze można przechowywać oryginalne skrypty języka R.

Jakie są zastosowania języka R?

R jest popularnym językiem i jest szeroko stosowany w wielu domenach. Jeśli masz podstawy statystyczne, może to być dla Ciebie o wiele łatwiejsze niż w Pythonie. Poniżej wymieniono niektóre zastosowania języka R: R jest bardzo popularny w dziedzinie finansów, ponieważ zapewnia zaawansowany pakiet statystyczny do wykonywania wszystkich zadań finansowych. Podobnie jak Finanse, systemy bankowe również używają języka R do analizy ryzyka, takiej jak modelowanie ryzyka kredytowego. Inne domeny, takie jak opieka zdrowotna i media społecznościowe, również używają R do wielu celów.