L’analisi esplorativa dei dati con R

Home/Data mining, R/L’analisi esplorativa dei dati con R

L’analisi esplorativa dei dati con R

In questo post vediamo le funzioni più importanti quando apriamo un nuovo dataset e vogliamo effettuare un’analisi esplorativa dei dati con R.

Una volta che abbiamo raccolto i nostri dati, la prima cosa che dobbiamo è compiere un’analisi esplorativa per capire come il nostro dataset è strutturato, quali sono e di che tipo sono le variabili, che tipo di relazione può esistere tra due variabili, e cominciare a creare alcuni grafici esplorativi per una prima analisi. La funzione summary() ci fornisce già una prima panoramica dei nostri dati. Vediamo un esempio sul dataset iris:

summary(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
 Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50 
 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50 
 Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50 
 Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199 
 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800 
 Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500 

La funzione summary() può essere utilizzata anche solo su una variabile:

summary(iris$Petal.Width)
 Min. 1st Qu. Median Mean 3rd Qu. Max. 
 0.100 0.300 1.300 1.199 1.800 2.500 

Anche la funzione str() può rivelarsi utile per investigare la struttura dei dati: ci dice infatti a che categoria appartiene ognuna delle variabili, che tipo di oggetto abbiamo, il numero di casi e di variabili.

 

str(iris)
'data.frame': 150 obs. of 5 variables:
 $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

La funzione dim() ci restituisce invece il numero di casi seguito dal numero di variabili:

dim(iris)
[1] 150 5

Abbiamo ancora varie funzioni che ci aiutano nell’analisi esplorativa dei dati con R:

  • nrow() ci restituisce il numero di righe del dataset
nrow(iris)
[1] 150
  • ncol() ci restituisce il numero di colonne
ncol(iris)
[1] 5
  • names() ci permette di scoprire i nomi delle variabili
names(iris)
[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species"
  • class() ci dice il tipo di oggetto che stiamo andando ad analizzare
class(iris)
[1] "data.frame"
  • head() ci mostra i primi casi di un dataset

head(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
  • tail() ci mostra gli ultimi casi di un dataset

tail(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
145 6.7 3.3 5.7 2.5 virginica
146 6.7 3.0 5.2 2.3 virginica
147 6.3 2.5 5.0 1.9 virginica
148 6.5 3.0 5.2 2.0 virginica
149 6.2 3.4 5.4 2.3 virginica
150 5.9 3.0 5.1 1.8 virginica

Sia con la funzione head() che con la funzione tail() possiamo specificare tra parentesi il numero di casi che vogliamo visualizzare, ad esempio:


tail(iris, 2)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
149 6.2 3.4 5.4 2.3 virginica
150 5.9 3.0 5.1 1.8 virginica

Infine con la funzione plot() possiamo visualizzare i nostri dati creando un grafico, ad esempio su una particolare variabile del dataset:


plot(iris$Petal.Length)

 

 

 

 

 

 

 

 

 

 

 

Anche in questo caso RStudio ci dà una mano, in quanto ci permette di visualizzare facilmente un riepilogo dei dati analogo a quello della funzione str() dal tab Environment.

 

 

 

 

 

 

 

 

 

 

 

Cliccando sul nome del dataset, possiamo anche visualizzarlo come tab nella finestra che contiene gli script.

 

 

 

 

 

 

 

 

 

Abbiamo visto le funzioni più importanti che possiamo utilizzare quando vogliamo effettuare un’analisi esplorativa dei dati con R. Qui puoi trovare altre informazioni di base sulla programmazione con R, nozioni introduttive sulle strutture, sugli errori più comuni e importazione dati. Se ti interessa qualche argomento particolare, scrivilo pure nei commenti!

 

About the Author:

Leave A Comment