Sviluppo di un sistema per il riconoscimento di eventi violenti in sequenze video
Autore
William Cosenza - Università degli Studi di Napoli - Federico II - [2006-07]
Documenti
  • Preview
  • Indice
  • Bibliografia
  • Tesi completa: 99 pagine
  • Abstract
    L’evoluzione degli strumenti di comunicazione negli ultimi decenni ha radicalmente rivoluzionato i tradizionali mezzi di comunicazione, ed in particolar modo la televisione, provocando un aumento della produzione e la conseguente immissione sul mercato di un’offerta tendente ad attirare l’attenzione dei telespettatori con la programmazione di scene particolarmente aggressive o di real tv. Esiste una relazione causale tra tv violenta e comportamento violento, come già ampiamente dimostrato da diversi studi, e la violenza nei film può influenzare negativamente soggetti poco protetti psicologicamente ed in età evolutiva. Per questo motivo c’è stata l’esigenza di “etichettare” le opere cinematografiche (rating) secondo il loro contenuto violento. Le leggi che regolamentano la trasmissione di film con contenuto violento, e i criteri del rating, variano da paese a paese: da una parte c’è la difficile definizione del concetto di “violenza”, dall’altra c’è l’esigenza di garantire la libertà di operare dei network televisivi e delle case di distribuzione cinematografiche.
    I sistemi di riconoscimento automatico di contenuti violenti sgraverebbero l’uomo dal compito, sempre più oneroso in termini di tempo, di effettuare un rating completo di tutto il materiale continuamente prodotto, e permetterebbero la nascita di nuovi sistemi automatici per la protezione dei minori. Nell’ambito del data mining il problema della rilevazione di eventi violenti in un filmato è stato affrontato pochissime volte. Lo scoglio più grande da superare è quello iniziale: capire cosa si intende per violenza. Ci si ritrova davanti al classico concetto “ovvio” ma difficile da definire e formalizzare in modo che una macchina sia in grado da sola di riconoscere se una scena in un video sia violenta o meno.
    Lo scopo di questo lavoro di tesi è stato quello di realizzare un sistema per il riconoscimento automatico di scene violente, basandosi esclusivamente sulla traccia audio che permette metodi di analisi più stabilizzati rispetto ad analisi video. Questo sistema pone le basi per i futuri sistemi di controllo parentale, ma è anche utilizzabile in altri ambiti come il rating automatico o semi-automatico e la classificazione automatica del genere cinematografico (genre recognition).
    Questa tesi, come tutti i pochi lavori che affrontano il problema della rilevazione automatica di scene violente, parte dal ridurre il problema del riconoscimento di scene violente in un problema di riconoscimento di eventi violenti comunemente associati alla violenza. Ma i lavori che hanno affrontato questo problema, basandosi sull’analisi della sola traccia audio di un filmato, pongono l’attenzione sul riconoscimento di pochi suoni particolari (grida, colpi d’arma da fuoco, esplosioni, ecc.) che nella stragrande maggioranza delle volte accompagnano scene violente; la novità introdotta in questo studio è stata quella di ampliare al massimo la rosa degli eventi che il sistema sviluppato deve riconoscere comprendendo tutti i suoni che caratterizzano azioni violente, ad esempio anche considerando il suono tipico delle armi da taglio mai considerato da alcun autore.
    Un secondo punto innovativo di questo lavoro è l’utilizzo del classificatore utilizzato, una rete neurale, mai utilizzata in lavori di questo tipo.
    I punti delicati, però, sono stati lo studio e, in un secondo momento, la scelta delle feature audio da estrarre dalla traccia audio e sulle quali si basa la decisione del classificatore: il problema del riconoscimento di suoni violenti è relativamente recente e le feature utilizzabili in questo ambito non sono ben definite in letteratura, per cui sono state prese in considerazione feature molto utilizzate nelle problematiche di audio content analysis, ma spesso non efficienti nell’ambito della violence detection (energia, zero crossing rate, spectral flux, ecc…). Una parte di questa tesi, dunque, è stata dedicata allo studio ed alla scelta delle feature più adatte a questo tipo di problematica. La scelta finale delle grandezze da estrarre dal segnale audio, poi, è stata fatta utilizzando un algoritmo di ottimizzazione dei risultati.
    Lo studio su questi parametri estratti e la rete neurale, opportunamente addestrata su filmati di esempio, sono i pilastri del prototipo realizzato al termine di questa ricerca; questo sistema riconosce più dell’80% degli eventi violenti: un risultato superiore a quello dello stato dell’arte.
    Gli sviluppi futuri per un sistema di questo tipo possono riguardare, ad esempio, il riconoscimento basato anche sul video.
    Questa tesi è correlata alle categorie


    Skype Me™! Tesionline Srl P.IVA 01096380116   |   Pubblicità   |   Privacy

    .:: segnala questa pagina ::.
    | Scrivici | | Ricerca tesi | | Come pubblicare | | FAQ | | Cinema | | Biografie |
    | Registrati | | Elenco tesi | | Borse di studio | | Personaggi | | Economia | | Libri usati |
    | Parole chiave | | La tesi del giorno | | Cronologia | | Formazione | | Ingegneria | | Glossario |
    | Home personale | | Ultime tesi pubblicate | | Una parola al giorno | | Database dei master | | Sociologia | | Approfondimenti |
      La redazione è a tua disposizione dalle ore 9:00 alle ore 18:30 (dal lunedì al venerdì) - tel. 039 6180216
      Pubblicità   |   Privacy