Skip to content

Definizione di LSI (Latent Semantic Indexing)

È un moderno metodo di retrieval, proposto nel 1990 da Deerwester, che cerca di estrarre i concetti presenti nei documenti, superando i limiti delle tecniche che si basano sulla presenza o meno di alcuni termini per stabilire la rilevanza di un documento rispetto a una query.

Partendo da una rappresentazione vettoriale dei documenti, in cui ogni coordinata corrisponde a un termine, LSI cerca di proiettare i vettori dei documenti in un sotto-spazio semantico latente a dimensionalità ridotta, in cui le coordinate sono i concetti.
Intuitivamente, un concetto può essere visto come un insieme di termini che occorrono (frequentemente) insieme negli stessi documenti. Di fatto, LSI opera un clustering dei termini (e quindi dei documenti).

Alla base di LSI vi è una tecnica di algebra lineare, nota come SVD (Singular Value Decomposition) utilizzata per eseguire una riduzione di dimensionalità.

di Emanuele Goffredo

Visita la sua tesi » Sperimentazione di tecniche di information retrieval e machine learning nello splice junction recognition