Skip to content

Injecting Semantics for Explaining Link Predictions

Link Prediction

KGs, while effective for organizing information, frequently encounter incompleteness issues [143] due to challenges in data collection, (semi-)automatic KG construction and the dynamic nature of the real world. Indeed, KGs are often constructed through automated complex processes. Therefore, the general field of KG refinement emerged to tackle this issue. Link Prediction (LP) and Triple Classification stand out as two pivotal tasks in the field. The aim of such tasks roughly corresponds to infer missing triples and to classify new ones as true or not, respectively. Moving forward, our main emphasis will be directed towards the task of Link Prediction (LP).
To ground our exploration of LP models in a formal context, we first establish a few key conventions. A KG is defined as a directed edge-labeled graph G = (V, E, L), as reported in 2.1.1. LP is the task of exploiting the existing triples in a KG to infer missing ones. This could involve predicting the appropriate entity that completes a tail prediction, represented as ⟨s, p, ?⟩, or a head prediction, denoted as ⟨?, p, o⟩. Broadly, in any predictive task, the entity that we’re aware of is referred to as the source entity, and the one we’re trying to predict is the target entity. For the remainder of this chapter, our focus will predominantly revolve around tail predictions.
Over time, a variety of link prediction (LP) methodologies have been explored, mostly grounded on Machine Learning (ML) solutions. Some of these are based on observable attributes, making use of techniques like Rule Mining [42, 1, 41, 74, 85, 84] or utilizing the Path Ranking Algorithm, as discussed in [76, 75]. In recent years, researchers have started to experiment with identifying hidden features of the graph. They do this by learning to create vector representations of the graph’s elements, a concept commonly referred to as Knowledge Graph Embeddings (KGEs).
Embeddings, in a broad sense, are numerical vectors that can represent various types of elements. Depending on the specific domain, these could include words, people, products, and more. These embeddings are automatically learned based on how the corresponding elements appear and interact with each other in datasets that reflect real-world conditions. For instance, word embeddings, which represent words based on their co-occurrence in text, have become a common tool in language processing [86].
KGEs are similar in purpose, but they represent the entities and relations within a KG. These embeddings encapsulate the original graph structure, allowing for the identification of potential new connections within it. Hereafter we will interchangeably use the expression graph as synonym of KG and we will also adopt the following notation, we’ll use italics for KG elements and bold for their corresponding embeddings. For instance, e may represent a general entity within the graph, while e would represent its corresponding embedding. We will use lowercase letters for one-dimensional embeddings and uppercase for those with two or more dimensions. All link prediction (LP) models that rely on embeddings define a scoring function Φ(s, p, o) to gauge the likelihood of a particular triple ⟨s, p, o⟩ by using the embeddings of its constituent elements. Unless specified otherwise, we’ll operate under the assumption that the higher the scoring function’s value, the more plausible the triple is.
KGEs are grounded on ML solutions. Hence, G is further split into a training set Gtrain , a validation set Gval and a test set Gtest. The training set Gtrain is used to train the model. The validation set Gval assists in tuning the hyperparameters. The test set Gtest evaluates the model’s predictive performance on unseen data. In the training phase, embeddings are typically initialized at random and then optimized with algorithms like back-propagation through gradient descent. Some models can also learn additional shared parameters that aren’t specific to any particular KG element, such as the weights of neural layers. The ultimate goal of the training process is to identify the values for embeddings and shared parameters that maximize the likelihood of true triples and minimize that of false ones. As such, a loss function is needed in order to assess the scores of all triples in Gtrain. The training requires also negative examples. However, KGs often capture only positive knowledge and as a result negative examples are often missing. To overcome the issue, the positive samples are frequently corrupted to create a set of supposedly false triples Gcorr . These are also included in the loss function, with the aim of minimizing their scores. This combination of positive and negative samples often results in implementing a triplet loss function. Corrupting a triple means replacing its head or tail with a random entity. Over time, different strategies have been proposed for this purpose, such as Bernoulli distribution sampling [141], self-adversarial algorithms [130], or Noise Contrastive Estimation (NCE) [48]. However, given the inherent incompleteness of KGs, models need to operate under the Open World Assumption. This means that any unseen triples, even those derived from corruption, cannot be definitively labeled as false. The methods mentioned above for generating negative examples, while necessary for the training process, can introduce what are known as false negatives. In practice, models are nevertheless trained on these false negatives, as there is currently no foolproof way to generate only true negatives. This issue still underlines the need for more sophisticated techniques for negative sample generation.
The following discussion outlines the predominant LP strategies that are based on embedding methods. The nature of LP systems is highly variable, depending on the modeling of the optimization problem; thus, we report in Figure 2.6 the innovative taxonomy proposed recently by [112]. This taxonomy delineates three principal categories of models, each of which is further divided into subgroups marked by distinct colors. The main categories of models are: (1) Tensor Decomposition; (2) Geometric; and (3) Deep Learning. Subsequently, we proceed to examine each of these categories individually.

Questo brano è tratto dalla tesi:

Injecting Semantics for Explaining Link Predictions

CONSULTA INTEGRALMENTE QUESTA TESI

La consultazione è esclusivamente in formato digitale .PDF

Acquista

Informazioni tesi

  Autore: Roberto Barile
  Tipo: Laurea II ciclo (magistrale o specialistica)
  Anno: 2022-23
  Università: Università degli Studi di Bari
  Facoltà: Scienze dell'informazione
  Corso: Informatica
  Relatore: Claudia d'Amato
  Lingua: Inglese
  Num. pagine: 94

FAQ

Per consultare la tesi è necessario essere registrati e acquistare la consultazione integrale del file, al costo di 29,89€.
Il pagamento può essere effettuato tramite carta di credito/carta prepagata, PayPal, bonifico bancario.
Confermato il pagamento si potrà consultare i file esclusivamente in formato .PDF accedendo alla propria Home Personale. Si potrà quindi procedere a salvare o stampare il file.
Maggiori informazioni
Ingiustamente snobbata durante le ricerche bibliografiche, una tesi di laurea si rivela decisamente utile:
  • perché affronta un singolo argomento in modo sintetico e specifico come altri testi non fanno;
  • perché è un lavoro originale che si basa su una ricerca bibliografica accurata;
  • perché, a differenza di altri materiali che puoi reperire online, una tesi di laurea è stata verificata da un docente universitario e dalla commissione in sede d'esame. La nostra redazione inoltre controlla prima della pubblicazione la completezza dei materiali e, dal 2009, anche l'originalità della tesi attraverso il software antiplagio Compilatio.net.
  • L'utilizzo della consultazione integrale della tesi da parte dell'Utente che ne acquista il diritto è da considerarsi esclusivamente privato.
  • Nel caso in cui l’utente che consulta la tesi volesse citarne alcune parti, dovrà inserire correttamente la fonte, come si cita un qualsiasi altro testo di riferimento bibliografico.
  • L'Utente è l'unico ed esclusivo responsabile del materiale di cui acquista il diritto alla consultazione. Si impegna a non divulgare a mezzo stampa, editoria in genere, televisione, radio, Internet e/o qualsiasi altro mezzo divulgativo esistente o che venisse inventato, il contenuto della tesi che consulta o stralci della medesima. Verrà perseguito legalmente nel caso di riproduzione totale e/o parziale su qualsiasi mezzo e/o su qualsiasi supporto, nel caso di divulgazione nonché nel caso di ricavo economico derivante dallo sfruttamento del diritto acquisito.
L'obiettivo di Tesionline è quello di rendere accessibile a una platea il più possibile vasta il patrimonio di cultura e conoscenza contenuto nelle tesi.
Per raggiungerlo, è fondamentale superare la barriera rappresentata dalla lingua. Ecco perché cerchiamo persone disponibili ad effettuare la traduzione delle tesi pubblicate nel nostro sito.
Per tradurre questa tesi clicca qui »
Scopri come funziona »

DUBBI? Contattaci

Contatta la redazione a
[email protected]

Ci trovi su Skype (redazione_tesi)
dalle 9:00 alle 13:00

Oppure vieni a trovarci su

Parole chiave

intelligenza artificiale
semantica
semantics
knowledge graphs
grafi di conoscenza
link prediction
predizione di collegamenti
artifical intelligence

Tesi correlate


Non hai trovato quello che cercavi?


Abbiamo più di 45.000 Tesi di Laurea: cerca nel nostro database

Oppure consulta la sezione dedicata ad appunti universitari selezionati e pubblicati dalla nostra redazione

Ottimizza la tua ricerca:

  • individua con precisione le parole chiave specifiche della tua ricerca
  • elimina i termini non significativi (aggettivi, articoli, avverbi...)
  • se non hai risultati amplia la ricerca con termini via via più generici (ad esempio da "anziano oncologico" a "paziente oncologico")
  • utilizza la ricerca avanzata
  • utilizza gli operatori booleani (and, or, "")

Idee per la tesi?

Scopri le migliori tesi scelte da noi sugli argomenti recenti


Come si scrive una tesi di laurea?


A quale cattedra chiedere la tesi? Quale sarà il docente più disponibile? Quale l'argomento più interessante per me? ...e quale quello più interessante per il mondo del lavoro?

Scarica gratuitamente la nostra guida "Come si scrive una tesi di laurea" e iscriviti alla newsletter per ricevere consigli e materiale utile.


La tesi l'ho già scritta,
ora cosa ne faccio?


La tua tesi ti ha aiutato ad ottenere quel sudato titolo di studio, ma può darti molto di più: ti differenzia dai tuoi colleghi universitari, mostra i tuoi interessi ed è un lavoro di ricerca unico, che può essere utile anche ad altri.

Il nostro consiglio è di non sprecare tutto questo lavoro:

È ora di pubblicare la tesi