Importare dati su R

Home/R/Importare dati su R

In questo post vediamo una serie di funzioni e pacchetti che ci permettono di importare dati su R.

Per importare dei dati su R è necessario come prima cosa analizzare il tipo di file che vogliamo importare. Dobbiamo verificare in particolare tre elementi:

1. l’estensione del file,
2. se la prima riga contiene i nomi delle variabili o no,
3. cosa separa gli elementi l’uno dall’altro (virgole, punti e virgola, tabulazioni, eccetera)

Le funzioni base per importare dati su R sono in particolare tre, e possono essere utilizzate per importare dei dati in formati quali .csv, .tsv o .txt. Si tratta delle funzioni read.table(), read.csv() e read.delim().

Queste tre funzioni hanno una struttura molto simile, ed è composta dai seguenti argomenti:

– il file: è il file che vogliamo importare su R e può essere identificato col semplice nome se si trova nella directory di lavoro che abbiamo scelto per quel particolare progetto, oppure con l’intero indirizzo se si trova su una cartella esterna;

– l’header: l’argomento header serve a specificare se nella prima riga dei nostri dati sono presenti i nomi delle variabili del file o no. In caso affermativo, è settato su TRUE;

– l’argomento sep indica il separatore che divide i dati. Può essere ad esempio una virgola, o un punto e virgola. Scriveremo quindi sep = “,”, con il separatore tra virgolette.

Cosa succede invece se i nostri dati non sono nei formati che abbiamo visto qua sopra ma sono ad esempio in formato per Excel, o in SPSS o fanno parte di un database? In questi casi si possono installare e richiamare dei pacchetti aggiuntivi che permettono, tramite delle funzioni proprie di ogni pacchetto, di caricare questi tipi di formati.

Ogni pacchetto va per prima cosa installato e richiamato, in questo modo: per prima cosa si utilizza la funzione install.packages(“nome.pacchetto”) per installare il pacchetto. Poi si utilizza una funzione per richiamare il pacchetto, che possono essere library(nome.pacchetto) oppure require(nome.pacchetto).

A questo punto si utilizza una funzione specifica del pacchetto per caricare i dati, ad esempio:

[wpsm_comparison_table id=”1″ class=””]

Per quanto riguarda l’importazione di file da database, possiamo utilizzare ad esempio pacchetti come RMySQL, RODBC, sqldf o RMongo. Il collegamento a un database presuppone anche l’inserimento dei dati utente e della password. E’ inoltre importante ricordarsi, quando finite le analisi, di disconnettersi sempre dal database.

R permette anche di analizzare, tramite pacchetti appositi, file di immagine (ad esempio con i pacchetti jpeg, readbitmap, EBImage e png), file musicali, tramite pacchetti come seewave e tuneR, e anche file GIS (ad esempio con i pacchetti raster e rgeos).

Il pacchetto googlesheets permette di leggere i fogli di lavoro da Google Spreadsheets.

jsonlite e XML sono due pacchetti che permettono rispettivamente di parsare documenti in formato json il primo, e importare dati XML e HTML il secondo. rvest è un pacchetto che consente lo scraping di dati dal web.

Come sempre, per ogni pacchetto è disponibile la documentazione e l’aiuto. E’ sufficiente cercare la documentazione tramite le seguenti funzioni:

✓ help(nome.pacchetto)
✓ ?nome.pacchetto
✓ ??nome.pacchetto
✓ vignette(“nome.pacchetto”)

Se installiamo RStudio, nella finestra in basso a destra abbiamo un tab (File) che ci permette di importare file direttamente dal nostro computer. Ci è sufficiente selezionare il file e cliccare sul tasto destro del mouse.

 

 

 

 

 

 

 

 

 

 

 

 

 

Spero che questo post sui modi più semplici per importare dati su R ti sia stato utile. Questo post fa parte di una serie di base per cominciare a utilizzare R. Qua puoi trovare nozioni introduttive sulle strutture, sulla manipolazione e importazione dati. Se ti interessa qualche argomento particolare, scrivilo pure nei commenti!

About the Author:

Leave A Comment