1 Środowisko pracy

Zanim zaczniemy pracę z danymi, musimy przygotować odpowiednie środowisko — zainstalować język, edytor i niezbędne pakiety. To jednorazowy koszt, który procentuje przez cały kurs.

1.1 Jak uruchamiać kod?

Opcja 1 — RStudio (zalecane)

Pobierz R ze strony cran.r-project.org
Pobierz RStudio ze strony posit.co/download/rstudio-desktop
W RStudio utwórz nowy skrypt: File → New File → R Script (lub Quarto Document)
Wpisz kod i uruchom go skrótem Ctrl+Enter (jeden wiersz) lub Ctrl+Shift+Enter (cały skrypt)

Opcja 2 — Quarto w RStudio

Pliki .qmd uruchamiasz klikając ▶ Run przy każdym bloku kodu lub Render na górze, żeby wygenerować cały raport.

Opcja 1 — VS Code (zalecane)

Pobierz Python ze strony python.org/downloads
Pobierz VS Code ze strony code.visualstudio.com
Zainstaluj rozszerzenie Python i Jupyter w VS Code
Otwórz folder, utwórz plik .py lub .ipynb (notatnik Jupyter)

Opcja 2 — Jupyter Notebook / JupyterLab

# Instalacja przez pip (w terminalu/wierszu poleceń):
pip install jupyterlab pandas matplotlib seaborn

# Uruchomienie:
jupyter-lab 
# lub
jupyter-lab

Opcja 3 — Quarto w VS Code

Zainstaluj rozszerzenie quarto w VS Code A nalogicznie do R — pliki .qmd obsługują zarówno R, jak i Python.

1.2 Instalacja pakietów

Pakiety to gotowe rozszerzenia języka — nie musisz pisać wszystkiego od zera. Instaluje się je raz, a wczytuje na początku każdej sesji pracy.

# Instalacja (tylko raz, np. w konsoli RStudio):
install.packages("tidyverse")   # zestaw pakietów do analizy danych
install.packages("readxl")      # wczytywanie plików Excel
install.packages("patchwork")   # składanie wielu wykresów

# Wczytanie do bieżącej sesji (na początku każdego skryptu):
library(tidyverse)
library(readxl)

Tip

tidyverse to tzw. meta-pakiet — instaluje i wczytuje kilkanaście pakietów naraz: dplyr (manipulacja danymi), ggplot2 (wykresy), readr (wczytywanie CSV), tidyr (przekształcanie tabel) i inne.

# Instalacja (tylko raz, w terminalu/wierszu poleceń):
pip install pandas matplotlib seaborn openpyxl

# Import na początku każdego skryptu/notatnika:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

Tip

pandas to odpowiednik dplyr + readr z R. seaborn to odpowiednik ggplot2 (uproszczony). matplotlib jest bardziej niskopoziomowy — daje więcej kontroli nad detalami wykresu. numpy obsługuje obliczenia numeryczne.

1.3 Pierwsze kroki — sprawdzenie instalacji

Po instalacji warto sprawdzić, czy wszystko działa:

# Wczytaj pakiety
library(tidyverse)

# Sprawdź wersje
packageVersion("dplyr")

#> [1] '1.2.1'

packageVersion("ggplot2")

#> [1] '4.0.3'

# Szybki test — wbudowany zbiór danych
head(mtcars)

#>                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
#> Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
#> Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
#> Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
#> Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
#> Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
#> Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

import pandas as pd
import matplotlib.pyplot as plt

# Sprawdź wersje
print(f"pandas: {pd.__version__}")

# Szybki test — wbudowany zbiór danych
import seaborn as sns
tips = sns.load_dataset("tips")
print(tips.head())