Questo sito utilizza cookie di terze parti per inviarti pubblicità in linea con le tue preferenze. Se vuoi saperne di più clicca QUI 
Chiudendo questo banner, scorrendo questa pagina, cliccando su un link o proseguendo la navigazione in altra maniera, acconsenti all'uso dei cookie. OK

Sentiment Analysis e applicazione in R: ''The Brexit Mood''

Oggetto principale di studio di questo lavoro è la Sentiment Analysis nonché l'insieme delle tecniche e procedure di analisi testuale che hanno come finalità quella di rilevare e classificare l'opinione, il sentimento, ovvero l'orientamento dell'individuo che scrive il testo; in particolar modo l'obiettivo fissato in questa tesi è quello della costruzione di un classificatore testuale, utilizzando le principali tecniche di Machine Learning, che sia in grado di determinare il sentimento espresso dagli utenti di Twitter relativamente a un determinato argomento. Partendo da una introduzione dei Big Data e dei possibili ambiti utilizzo, si approfondiranno in seguito i principali modelli utilizzati per il Text Mining,con approfondimento dei Supervised Learning Methods, fino ad arrivare all'applicazione di tali modelli ad un caso pratico, utilizzando il software di analisi statistica R.

Mostra/Nascondi contenuto.
16 2.1 Acquisizione del testo Il primo passo da compiere per implementare un'analisi testuale è perciò l’ottenimento dei dati testuali, che è divenuto negli ultimi anni molto più semplice ed efficace per via dello sviluppo delle capacità e della capienza dei database elettronici, dei software statistici, e della maggiore rapidità di scambio dei dati. Le fonti più immediate da reperire e da utilizzare, come i database online di articoli accademici o database di varie istituzioni pubbliche, forniscono i dati in maniera diretta e già in formato adatto per effettuare l’analisi. Più complesso è invece ottenere i dati all’interno di siti web, ma vi sono fortunatamente alcuni software per lo “scraping” che alleggeriscono il lavoro; in questo caso un’altra possibilità consiste nell’appoggiarsi a piattaforme web che in cambio di un corrispettivo in denaro, commissionano la ricerca e la raccolta di informazioni a soggetti terzi 12 . I dati provenienti dal Web rivestono una grande importanza nel mondo dei Big Data, infatti ne presentano tutte e tre le caratteristiche basilari (velocità, varietà, volume) in modo accentuato e inoltre hanno un potenziale informativo elevatissimo. Nel dettaglio si fa riferimento alle seguenti tipologie di dati:  Pagine HTML 13 in qualsiasi lingua;  I tweet;  Contenuti Facebook o di altri social network (come LinkedIn);  Documenti XML, PDF, Excel, Word e Power Point;  Commenti sui blog e sui forum, e altri post. La particolarità di questi dati è che sono non strutturati o semi-strutturati, quindi il testo è spesso caratterizzato da errori di battitura, slang, errori grammaticali, imprecisioni, abbreviazioni, emoticon; e questo complica un po’ la procedura successiva di analisi. 12 Un esempio è il servizio offerto da Amazon, denominato Amazon Mechanical Turk, servizio internet di crowdsourcing che permette ai programmatori informatici (requester) di coordinare l’uso di intelligenze umane per eseguire compiti che i computer non sono ancora totalmente in grado di svolgere. 13 HTML, acronimo di Hyper Text Markup Language, in informatica è il linguaggio di markup solitamente utilizzato per la formattazione e impaginazione di documenti ipertestuali disponibili nel World Wide Web.

Tesi di Laurea Magistrale

Facoltà: Economia

Autore: Alessandro Lupo Contatta »

Composta da 145 pagine.

 

Questa tesi ha raggiunto 253 click dal 14/11/2017.

Disponibile in PDF, la consultazione è esclusivamente in formato digitale.