Questo sito utilizza cookie di terze parti per inviarti pubblicità in linea con le tue preferenze. Se vuoi saperne di più clicca QUI 
Chiudendo questo banner, scorrendo questa pagina, cliccando su un link o proseguendo la navigazione in altra maniera, acconsenti all'uso dei cookie. OK

Sviluppo di un sistema per il riconoscimento di eventi violenti in sequenze video

L’evoluzione degli strumenti di comunicazione negli ultimi decenni ha radicalmente rivoluzionato i tradizionali mezzi di comunicazione, ed in particolar modo la televisione, provocando un aumento della produzione e la conseguente immissione sul mercato di un’offerta tendente ad attirare l’attenzione dei telespettatori con la programmazione di scene particolarmente aggressive o di real tv. Esiste una relazione causale tra tv violenta e comportamento violento, come già ampiamente dimostrato da diversi studi, e la violenza nei film può influenzare negativamente soggetti poco protetti psicologicamente ed in età evolutiva. Per questo motivo c’è stata l’esigenza di “etichettare” le opere cinematografiche (rating) secondo il loro contenuto violento. Le leggi che regolamentano la trasmissione di film con contenuto violento, e i criteri del rating, variano da paese a paese: da una parte c’è la difficile definizione del concetto di “violenza”, dall’altra c’è l’esigenza di garantire la libertà di operare dei network televisivi e delle case di distribuzione cinematografiche.
I sistemi di riconoscimento automatico di contenuti violenti sgraverebbero l’uomo dal compito, sempre più oneroso in termini di tempo, di effettuare un rating completo di tutto il materiale continuamente prodotto, e permetterebbero la nascita di nuovi sistemi automatici per la protezione dei minori. Nell’ambito del data mining il problema della rilevazione di eventi violenti in un filmato è stato affrontato pochissime volte. Lo scoglio più grande da superare è quello iniziale: capire cosa si intende per violenza. Ci si ritrova davanti al classico concetto “ovvio” ma difficile da definire e formalizzare in modo che una macchina sia in grado da sola di riconoscere se una scena in un video sia violenta o meno.
Lo scopo di questo lavoro di tesi è stato quello di realizzare un sistema per il riconoscimento automatico di scene violente, basandosi esclusivamente sulla traccia audio che permette metodi di analisi più stabilizzati rispetto ad analisi video. Questo sistema pone le basi per i futuri sistemi di controllo parentale, ma è anche utilizzabile in altri ambiti come il rating automatico o semi-automatico e la classificazione automatica del genere cinematografico (genre recognition).
Questa tesi, come tutti i pochi lavori che affrontano il problema della rilevazione automatica di scene violente, parte dal ridurre il problema del riconoscimento di scene violente in un problema di riconoscimento di eventi violenti comunemente associati alla violenza. Ma i lavori che hanno affrontato questo problema, basandosi sull’analisi della sola traccia audio di un filmato, pongono l’attenzione sul riconoscimento di pochi suoni particolari (grida, colpi d’arma da fuoco, esplosioni, ecc.) che nella stragrande maggioranza delle volte accompagnano scene violente; la novità introdotta in questo studio è stata quella di ampliare al massimo la rosa degli eventi che il sistema sviluppato deve riconoscere comprendendo tutti i suoni che caratterizzano azioni violente, ad esempio anche considerando il suono tipico delle armi da taglio mai considerato da alcun autore.
Un secondo punto innovativo di questo lavoro è l’utilizzo del classificatore utilizzato, una rete neurale, mai utilizzata in lavori di questo tipo.
I punti delicati, però, sono stati lo studio e, in un secondo momento, la scelta delle feature audio da estrarre dalla traccia audio e sulle quali si basa la decisione del classificatore: il problema del riconoscimento di suoni violenti è relativamente recente e le feature utilizzabili in questo ambito non sono ben definite in letteratura, per cui sono state prese in considerazione feature molto utilizzate nelle problematiche di audio content analysis, ma spesso non efficienti nell’ambito della violence detection (energia, zero crossing rate, spectral flux, ecc…). Una parte di questa tesi, dunque, è stata dedicata allo studio ed alla scelta delle feature più adatte a questo tipo di problematica. La scelta finale delle grandezze da estrarre dal segnale audio, poi, è stata fatta utilizzando un algoritmo di ottimizzazione dei risultati.
Lo studio su questi parametri estratti e la rete neurale, opportunamente addestrata su filmati di esempio, sono i pilastri del prototipo realizzato al termine di questa ricerca; questo sistema riconosce più dell’80% degli eventi violenti: un risultato superiore a quello dello stato dell’arte.
Gli sviluppi futuri per un sistema di questo tipo possono riguardare, ad esempio, il riconoscimento basato anche sul video.

Mostra/Nascondi contenuto.
Capitolo 1 – Introduzione 1 Capitolo 1 INTRODUZIONE 1.1 Il problema della violenza nei media L’evoluzione degli strumenti di comunicazione negli ultimi decenni ha radicalmente rivoluzionato i tradizionali mezzi di comunicazione, ed in particolare modo la televisione, provocando un aumento della produzione e la conseguente immissione sul mercato di un’offerta tendente ad attirare e monopolizzare l’attenzione dei telespettatori con la programmazione di scene particolarmente aggressive o di real tv. In particolare, negli ultimi tempi, si è segnalata una crescente attenzione sociale al problema del rapporto tra TV e minori. Il dibattito su TV e minori tradizionalmente ruota attorno al problema degli effetti della violenza e delle scene di sesso rappresentate. L’idea comune è che le immagini riprodotte in tv (qualora riproducano contenuti “pericolosi”) potrebbero spingere soggetti in età evolutiva ad atti emulativi verso coetanei o adulti; potrebbero interferire nella crescita e contribuire a portare gli adolescenti da percorsi formativi corretti verso uno sviluppo psichico o morale “deviato”. Tra gli effetti negativi evidenziati rientra quello frequentemente menzionato come la tendenza della televisione a “rubare” l’innocenza dei bambini o, volendo usare il linguaggio degli esperti, la “adultizzazione precoce”. La paura è che i bambini siano esposti prematuramente a problematiche che non sono in grado di capire a pieno e che potrebbero fraintendere. Inoltre, le immagini e il linguaggio trasmessi in tv possono esporre i bambini alle sofferenze della società ad un’età troppo giovane, con il rischio che questi aspetti della vita sociale possano essere scambiati come realtà normali. M I VI A Laboratorio di Macchine Intelligenti per il riconoscimento di Video, Immagini e Audio MIVIA

Tesi di Laurea

Facoltà: Ingegneria

Autore: William Cosenza Contatta »

Composta da 99 pagine.

 

Questa tesi ha raggiunto 1055 click dal 12/10/2007.

 

Consultata integralmente una volta.

Disponibile in PDF, la consultazione è esclusivamente in formato digitale.