Zanim zaczniemy pracę z danymi, musimy przygotować odpowiednie środowisko — zainstalować język, edytor i niezbędne pakiety. To jednorazowy koszt, który procentuje przez cały kurs.
# Instalacja (tylko raz, np. w konsoli RStudio):install.packages("tidyverse") # zestaw pakietów do analizy danychinstall.packages("readxl") # wczytywanie plików Excelinstall.packages("patchwork") # składanie wielu wykresów# Wczytanie do bieżącej sesji (na początku każdego skryptu):library(tidyverse)library(readxl)
Tip
tidyverse to tzw. meta-pakiet — instaluje i wczytuje kilkanaście pakietów naraz: dplyr (manipulacja danymi), ggplot2 (wykresy), readr (wczytywanie CSV), tidyr (przekształcanie tabel) i inne.
# Import na początku każdego skryptu/notatnika:import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns
Tip
pandas to odpowiednik dplyr + readr z R. seaborn to odpowiednik ggplot2 (uproszczony). matplotlib jest bardziej niskopoziomowy — daje więcej kontroli nad detalami wykresu. numpy obsługuje obliczenia numeryczne.
1.3 Pierwsze kroki — sprawdzenie instalacji
Po instalacji warto sprawdzić, czy wszystko działa:
import pandas as pdimport matplotlib.pyplot as plt# Sprawdź wersjeprint(f"pandas: {pd.__version__}")# Szybki test — wbudowany zbiór danychimport seaborn as snstips = sns.load_dataset("tips")print(tips.head())