Skip to content

Analisi esplorativa di Dataset Twitter

Gratis La preview di questa tesi è scaricabile gratuitamente in formato PDF.
Per scaricare il file PDF è necessario essere iscritto a Tesionline. L'iscrizione non comporta alcun costo: effettua il Login o Registrati.

Mostra/Nascondi contenuto.
4 1. SOMMARIO Lo scopo di questa tesi è di descrivere un primo approccio all’analisi dei dati che Twitter fornisce in modo gratuito riguardo tutto quello che viene pubblicato dai sui utenti. SpazioDati S.r.l., azienda trentina presso la quale ho effettuato un tirocinio di 225 ore nella primavera del 2017, ha raccolto per più di due anni tweet geolocalizzati in Italia e li ha messi a mia disposizione insieme al loro dataset delle compagnie. Applicando determinati filtri (per esempio sulla lingua o sulle coordinate) e sottostando ad un limite che in base al tipo di richiesta (utente, stato, …) può essere l’1% del traffico mondiale oppure 1 tweet/s, è possibile scaricare tutti i tweet che vengono pubblicati nel mondo attraverso l’utilizzo delle API Twitter. Tutto comincia con un’introduzione al campo dei Big Data e alla loro grandissima crescita negli ultimi anni, da quando grandi aziende, ma anche privati, hanno predisposto macchine alla raccolta di dati provenienti da numerose fonti diverse per una loro futura elaborazione. È infatti spaventosa la quantità di dati ormai prodotta ogni giorno nel mondo, che ammonta a quasi 10 exabyte (10 milioni di terabyte, ~1.4GB/persona) nel 2017. Il problema maggiore sta però nella loro elaborazione per estrarne informazioni importanti e di valore. Le tecniche per l’analisi tradizionale non sono più efficienti in un contesto dove i dati di input hanno dimensioni esorbitanti, è quindi necessario creare nuove tipologie di sistemi in grado di parallelizzare al massimo il lavoro e di distribuirlo efficacemente su più macchine. Sono nati così diversi framework che permettono di effettuare il setup di cluster di varie dimensioni e di poter così eseguire programmi scritti appositamente. Il primo ad esser utilizzato su larga scala è stato MapReduce di Google, un programma ideato per poter elaborare parallelamente grandi dataset, applicando prima una funzione Map a tutte le entry ed infine raccogliendo i risultati con un’operazione di Reduce. Anche se questo framework aveva svariati aspetti positivi, come la resistenza a diversi fallimenti nei nodi del cluster, dall’altra parte uno dei principali difetti era di riscrivere i dati su disco alla fine di ogni operazione. Nel caso quindi di task composti da diverse Map in sequenza, era difficile ottenere buone prestazioni a causa dell’utilizzo massiccio della memoria di massa. Su questa linea è stato così creato Apache Spark, un programma simile a MapReduce di Google ma con molte novità, tra cui, per l’appunto, il mantenimento in memoria dei programmi per tutta la durata dell’esecuzione. Le prestazioni migliori, specialmente nei task composti da diverse Map in sequenza, hanno portato Spark a diventare uno dei punti di riferimento per il calcolo distribuito. Inoltre, l’uso di tecnologie come GraphX, per la generazione automatica del grafo delle esecuzioni e delle dipendenze, e degli RDD, per avere a disposizione diverse primitive sui dataset da elaborare, hanno facilitato il lavoro dei programmatori, i quali, visti i risultati, hanno apprezzato fortemente la novità. La trattazione prosegue con una panoramica sul dataset dei tweet e quello delle compagnie. I dati raccolti da SpazioDati S.r.l. utilizzando le API di Twitter prima citate, vanno a formare il dataset dei tweet e sono stati filtrati sulle coordinate geografiche, quindi sul più piccolo rettangolo contenente l’Italia intera. Questi includono dunque anche tweet provenienti da paesi confinanti come Francia, Serbia, Montenegro e Svizzera. Un tentativo di raccolta dati di qualche settimana ha mostrato come un filtro sulla lingua sarebbe stato più preciso, portando la percentuale di tweet effettivamente italiani da un 73% ad un buon 94%. Ho comunque deciso di non eliminare tweet provenienti dall’estero perché potrebbero contenere qualche riferimento ad aziende o imprese italiane e quindi essere potenzialmente interessanti. Il dataset dei tweet contiene 84 milioni di entry raccolte tra dicembre 2014 e maggio 2017, con una dimensione complessiva di circa 110GB, 26GB se compressi. Il dataset delle compagnie di SpazioDati contiene invece circa 6 milioni di società e imprese italiane, e per ognuna di esse possiede una grandissima varietà di informazioni economiche e sociali. I campi delle aziende di interesse per lo studio sono quelli relativi agli account Twitter delle aziende, agli esponenti delle aziende, ai siti web ed ai vari nomi con cui vengono chiamate. Purtroppo però gli account Twitter totali non sono molti, solo 72.000, quindi le aziende che ne hanno uno sono in media solo 13 su 1000. Di esponenti invece ne sono registrati quasi 9 milioni, quindi in media 1,5 per azienda, mentre circa un’azienda su 10 possiede un sito web verificato. Infine ogni azienda possiede un nome legale, che corrisponde a quello registrato ufficialmente presso la camera di commercio, e dei nomi alternativi che spesso sono utilizzati al posto dell’originale per via della complessità di sigle e acronimi o per la punteggiatura spesso omessa. Dopo aver imparato ad utilizzare Spark ed aver estratto le statistiche sui dataset sopra mostrate, sono passato alla fase attiva dello studio, ovvero quella della scrittura di programmi per Apache Spark con lo scopo di
Anteprima della tesi: Analisi esplorativa di Dataset Twitter, Pagina 2

Preview dalla tesi:

Analisi esplorativa di Dataset Twitter

CONSULTA INTEGRALMENTE QUESTA TESI

La consultazione è esclusivamente in formato digitale .PDF

Acquista

Informazioni tesi

  Autore: Luca Di Liello
  Tipo: Laurea liv.I
  Anno: 2016-17
  Università: Università degli Studi di Trento
  Facoltà: Scienze e Tecnologie Informatiche
  Relatore: Alberto  Montresor
  Lingua: Italiano
  Num. pagine: 28

FAQ

Per consultare la tesi è necessario essere registrati e acquistare la consultazione integrale del file, al costo di 29,89€.
Il pagamento può essere effettuato tramite carta di credito/carta prepagata, PayPal, bonifico bancario, bollettino postale.
Confermato il pagamento si potrà consultare i file esclusivamente in formato .PDF accedendo alla propria Home Personale. Si potrà quindi procedere a salvare o stampare il file.
Maggiori informazioni
Ingiustamente snobbata durante le ricerche bibliografiche, una tesi di laurea si rivela decisamente utile:
  • perché affronta un singolo argomento in modo sintetico e specifico come altri testi non fanno;
  • perché è un lavoro originale che si basa su una ricerca bibliografica accurata;
  • perché, a differenza di altri materiali che puoi reperire online, una tesi di laurea è stata verificata da un docente universitario e dalla commissione in sede d'esame. La nostra redazione inoltre controlla prima della pubblicazione la completezza dei materiali e, dal 2009, anche l'originalità della tesi attraverso il software antiplagio Compilatio.net.
  • L'utilizzo della consultazione integrale della tesi da parte dell'Utente che ne acquista il diritto è da considerarsi esclusivamente privato.
  • Nel caso in cui l'Utente volesse pubblicare o citare una tesi presente nel database del sito www.tesionline.it deve ottenere autorizzazione scritta dall'Autore della tesi stessa, il quale è unico detentore dei diritti.
  • L'Utente è l'unico ed esclusivo responsabile del materiale di cui acquista il diritto alla consultazione. Si impegna a non divulgare a mezzo stampa, editoria in genere, televisione, radio, Internet e/o qualsiasi altro mezzo divulgativo esistente o che venisse inventato, il contenuto della tesi che consulta o stralci della medesima. Verrà perseguito legalmente nel caso di riproduzione totale e/o parziale su qualsiasi mezzo e/o su qualsiasi supporto, nel caso di divulgazione nonché nel caso di ricavo economico derivante dallo sfruttamento del diritto acquisito.
  • L'Utente è a conoscenza che l'importo da lui pagato per la consultazione integrale della tesi prescelta è ripartito, a partire dalla seconda consultazione assoluta nell'anno in corso, al 50% tra l'Autore/i della tesi e Tesionline Srl, la società titolare del sito www.tesionline.it.
L'obiettivo di Tesionline è quello di rendere accessibile a una platea il più possibile vasta il patrimonio di cultura e conoscenza contenuto nelle tesi.
Per raggiungerlo, è fondamentale superare la barriera rappresentata dalla lingua. Ecco perché cerchiamo persone disponibili ad effettuare la traduzione delle tesi pubblicate nel nostro sito.
Scopri come funziona

DUBBI? Contattaci

Contatta la redazione a
[email protected]

Ci trovi su Skype (redazione_tesi)
dalle 9:00 alle 13:00

Oppure vieni a trovarci su

Parole chiave

computer
cluster
analysis
spark
twitter
dataset
big data
hadoop
regex
gb

Non hai trovato quello che cercavi?


Abbiamo più di 45.000 Tesi di Laurea: cerca nel nostro database

Oppure consulta la sezione dedicata ad appunti universitari selezionati e pubblicati dalla nostra redazione

Ottimizza la tua ricerca:

  • individua con precisione le parole chiave specifiche della tua ricerca
  • elimina i termini non significativi (aggettivi, articoli, avverbi...)
  • se non hai risultati amplia la ricerca con termini via via più generici (ad esempio da "anziano oncologico" a "paziente oncologico")
  • utilizza la ricerca avanzata
  • utilizza gli operatori booleani (and, or, "")

Idee per la tesi?

Scopri le migliori tesi scelte da noi sugli argomenti recenti


Come si scrive una tesi di laurea?


A quale cattedra chiedere la tesi? Quale sarà il docente più disponibile? Quale l'argomento più interessante per me? ...e quale quello più interessante per il mondo del lavoro?

Scarica gratuitamente la nostra guida "Come si scrive una tesi di laurea" e iscriviti alla newsletter per ricevere consigli e materiale utile.


La tesi l'ho già scritta,
ora cosa ne faccio?


La tua tesi ti ha aiutato ad ottenere quel sudato titolo di studio, ma può darti molto di più: ti differenzia dai tuoi colleghi universitari, mostra i tuoi interessi ed è un lavoro di ricerca unico, che può essere utile anche ad altri.

Il nostro consiglio è di non sprecare tutto questo lavoro:

È ora di pubblicare la tesi