Questo corso è dedicato a chi si avvicina al mondo del text mining e della sentiment analysis per la prima volta, pur avendo delle basi di programmazione e analisi dati con R. Non si tratta di un corso divulgativo generico sul text mining e sulla sentiment analysis, ma di un corso che nasce con lo scopo spiegare le basi dell’analisi dei testi tramite il linguaggio di programmazione R.
Se non sai ancora programmare con R, questo corso non fa per te, ma potresti dare un’occhiata al mio corso base qui.
Se non hai voglia di sentire 7 ore di registrato, non ami i corsi, conosci già bene il linguaggio R ma vuoi approfondire il text mining e la sentiment analysis in maniera più veloce, puoi dare un’occhiata al mio libro, qua.
Se invece stai cercando esempi e casi per capire in maniera semplice le tecniche base per effettuare un’analisi di text mining o il sentiment dei tuoi testi con R, sei nel posto giusto. R è uno dei linguaggi di programmazione più diffusi quando si parla di analisi dati, e comprende una serie di pacchetti e funzioni che possono aiutarci sia nel text mining descrittivo che nel text mining predittivo.
Il text mining descrittivo “descrive” un testo a partire dalle parole che lo compongono, mentre il text mining predittivo utilizza le caratteristiche di un gruppo di testi per effettuare delle predizioni, ad esempio se un’email è spam o no, oppure se un testo è stato scritto o meno da un autore, oppure, per tornare alla sentiment analysis, se un commento è positivo o negativo.
Per prima cosa partiamo capendo come mai il text mining e la sentiment analysis sono tanto importante, e quali sono gli usi che se ne fanno, e le lingue più analizzate (spoiler: c’è anche l’italiano).
Analizzare un testo non è come analizzare un dataset: il testo va prima trasformato in qualcosa che il computer possa capire: imparerai quindi le tecniche più importanti per sintetizzare un testo, preprocessarlo, normalizzarlo e rappresentarlo.
Imparerai poi a importare un documento o un corpus in R, preprocessarlo e analizzarlo, creando anche delle rappresentazioni grafiche.
Oltre al pacchetto base ci sono molti pacchetti per il text mining: il più importante per le analisi di base è di sicuro tm.
Una volta chiarite queste parti introduttive, ci dedichiamo alle tecniche di machine learning applicate al text mining, che ci permettono a partire da un corpus o da un testo, di effettuare delle predizioni.
Uno degli strumenti per l’analisi più interessante è Twitter: in questo corso imparerai a estrarre dei tweet e ad analizzarli. Oltre ai pacchetti per il trattamento testi, come tm, e per l’estrazione dati, esistono ancora moltissimi pacchetti per il text mining che imparerai a utilizzare con questo corso, non solo per il text mining ma anche per la sentiment analysis. Vedremo quindi, dato un testo, come predire in maniera automatica tramite varie tecniche di machine learning, se il testo è positivo o negativo, tramite metodi supervisionati e non supervisionati.
Il corso si chiude con una parte sulla rappresentazione grafica dei testi e alcuni cenni sui metodi di analisi qualitativa CAQDAS.