Questo sito utilizza cookie di terze parti per inviarti pubblicità in linea con le tue preferenze. Se vuoi saperne di più clicca QUI 
Chiudendo questo banner, scorrendo questa pagina, cliccando su un link o proseguendo la navigazione in altra maniera, acconsenti all'uso dei cookie. OK

Analisi esplorativa di Dataset Twitter

Lo scopo di questa tesi è di descrivere un primo approccio all’analisi dei dati che Twitter fornisce in modo gratuito riguardo tutto quello che viene pubblicato dai sui utenti nel mondo. SpazioDati S.r.l., azienda trentina presso la quale ho effettuato un tirocinio di 225 ore nella primavera del 2017, ha raccolto per più di due anni tweet geolocalizzati in Italia e li ha messi a mia disposizione insieme al loro dataset delle imprese e società italiane. Lo scopo di questa testi sarà quello di mostrare come i milioni di tweet pubblicati dagli utenti Twitter possono essere collegati al mondo del lavoro, cercando relazioni utente-azienda, utente-utente ed azienda-azienda. Il tutto sarà poi mostrato sotto forma di programmi e grafici, accompagnato da un analisi approfondita della qualità di questi dati.

Mostra/Nascondi contenuto.
4 1. SOMMARIO Lo scopo di questa tesi è di descrivere un primo approccio all’analisi dei dati che Twitter fornisce in modo gratuito riguardo tutto quello che viene pubblicato dai sui utenti. SpazioDati S.r.l., azienda trentina presso la quale ho effettuato un tirocinio di 225 ore nella primavera del 2017, ha raccolto per più di due anni tweet geolocalizzati in Italia e li ha messi a mia disposizione insieme al loro dataset delle compagnie. Applicando determinati filtri (per esempio sulla lingua o sulle coordinate) e sottostando ad un limite che in base al tipo di richiesta (utente, stato, …) può essere l’1% del traffico mondiale oppure 1 tweet/s, è possibile scaricare tutti i tweet che vengono pubblicati nel mondo attraverso l’utilizzo delle API Twitter. Tutto comincia con un’introduzione al campo dei Big Data e alla loro grandissima crescita negli ultimi anni, da quando grandi aziende, ma anche privati, hanno predisposto macchine alla raccolta di dati provenienti da numerose fonti diverse per una loro futura elaborazione. È infatti spaventosa la quantità di dati ormai prodotta ogni giorno nel mondo, che ammonta a quasi 10 exabyte (10 milioni di terabyte, ~1.4GB/persona) nel 2017. Il problema maggiore sta però nella loro elaborazione per estrarne informazioni importanti e di valore. Le tecniche per l’analisi tradizionale non sono più efficienti in un contesto dove i dati di input hanno dimensioni esorbitanti, è quindi necessario creare nuove tipologie di sistemi in grado di parallelizzare al massimo il lavoro e di distribuirlo efficacemente su più macchine. Sono nati così diversi framework che permettono di effettuare il setup di cluster di varie dimensioni e di poter così eseguire programmi scritti appositamente. Il primo ad esser utilizzato su larga scala è stato MapReduce di Google, un programma ideato per poter elaborare parallelamente grandi dataset, applicando prima una funzione Map a tutte le entry ed infine raccogliendo i risultati con un’operazione di Reduce. Anche se questo framework aveva svariati aspetti positivi, come la resistenza a diversi fallimenti nei nodi del cluster, dall’altra parte uno dei principali difetti era di riscrivere i dati su disco alla fine di ogni operazione. Nel caso quindi di task composti da diverse Map in sequenza, era difficile ottenere buone prestazioni a causa dell’utilizzo massiccio della memoria di massa. Su questa linea è stato così creato Apache Spark, un programma simile a MapReduce di Google ma con molte novità, tra cui, per l’appunto, il mantenimento in memoria dei programmi per tutta la durata dell’esecuzione. Le prestazioni migliori, specialmente nei task composti da diverse Map in sequenza, hanno portato Spark a diventare uno dei punti di riferimento per il calcolo distribuito. Inoltre, l’uso di tecnologie come GraphX, per la generazione automatica del grafo delle esecuzioni e delle dipendenze, e degli RDD, per avere a disposizione diverse primitive sui dataset da elaborare, hanno facilitato il lavoro dei programmatori, i quali, visti i risultati, hanno apprezzato fortemente la novità. La trattazione prosegue con una panoramica sul dataset dei tweet e quello delle compagnie. I dati raccolti da SpazioDati S.r.l. utilizzando le API di Twitter prima citate, vanno a formare il dataset dei tweet e sono stati filtrati sulle coordinate geografiche, quindi sul più piccolo rettangolo contenente l’Italia intera. Questi includono dunque anche tweet provenienti da paesi confinanti come Francia, Serbia, Montenegro e Svizzera. Un tentativo di raccolta dati di qualche settimana ha mostrato come un filtro sulla lingua sarebbe stato più preciso, portando la percentuale di tweet effettivamente italiani da un 73% ad un buon 94%. Ho comunque deciso di non eliminare tweet provenienti dall’estero perché potrebbero contenere qualche riferimento ad aziende o imprese italiane e quindi essere potenzialmente interessanti. Il dataset dei tweet contiene 84 milioni di entry raccolte tra dicembre 2014 e maggio 2017, con una dimensione complessiva di circa 110GB, 26GB se compressi. Il dataset delle compagnie di SpazioDati contiene invece circa 6 milioni di società e imprese italiane, e per ognuna di esse possiede una grandissima varietà di informazioni economiche e sociali. I campi delle aziende di interesse per lo studio sono quelli relativi agli account Twitter delle aziende, agli esponenti delle aziende, ai siti web ed ai vari nomi con cui vengono chiamate. Purtroppo però gli account Twitter totali non sono molti, solo 72.000, quindi le aziende che ne hanno uno sono in media solo 13 su 1000. Di esponenti invece ne sono registrati quasi 9 milioni, quindi in media 1,5 per azienda, mentre circa un’azienda su 10 possiede un sito web verificato. Infine ogni azienda possiede un nome legale, che corrisponde a quello registrato ufficialmente presso la camera di commercio, e dei nomi alternativi che spesso sono utilizzati al posto dell’originale per via della complessità di sigle e acronimi o per la punteggiatura spesso omessa. Dopo aver imparato ad utilizzare Spark ed aver estratto le statistiche sui dataset sopra mostrate, sono passato alla fase attiva dello studio, ovvero quella della scrittura di programmi per Apache Spark con lo scopo di

Laurea liv.I

Facoltà: Scienze e Tecnologie Informatiche

Autore: Luca Di Liello Contatta »

Composta da 28 pagine.

 

Questa tesi ha raggiunto 24 click dal 26/06/2018.

Disponibile in PDF, la consultazione è esclusivamente in formato digitale.