Tool perl la valutazione della degradazione della qualità dei dati negli algoritmi di anonimizzazione delle basi di dati
Autore
Michele Buffolino - Università degli Studi del Sannio - [2005-06]
Documenti
  • Preview
  • Indice
  • Bibliografia
  • Tesi completa: 144 pagine
  • Abstract
    Lo scopo del lavoro è finalizzato ad analizzare la qualità dei dati in database sicurizzati. Si vuole ottenere una base di dati manipolata in modo da non violare la data privacy. A tal fine è stata utilizzata la tecnica della generalizzazione. Tale tecnica provvede a sostituire gli attributi sensibili con altri meno specifici, ma semanticamente consistenti ( si pensi, ad esempio, la sostituzione della data di nascita con il solo anno di nascita). A seconda dello stato del database e dei requisiti di riservatezza tale sostituzione avviene con dati sempre più generici. L’operazione comporta, senz’altro, una perdita della qualità dell’informazione. Per qualità dell’informazione si intende, la quantità di informazione che è possibile estrarre dalla base di dati così anonimizzata.
    Sono state definite delle metriche atte a descrivere il rapporto tra qualità di dati e data privacy; infatti, lo scopo del lavoro, è analizzare in che modo degradano i dati all’aumentare della riservatezza:
    - può variare il numero di tuple ottenute dalla stessa interrogazione alle due basi di dati (distinguiamo, inoltre, il numero di tuple ottenute dalle selezioni, con il numero di tuple ottenute da interrogazion ad attributi numerici).
    - è necessario conoscere se il database sia vulnerabile (per vulnerabilità si intende la possibilità di ottenere dati sensibili da un attacco mirato alla base di dati) , anche dopo l’anonimizzazione. A tal fine è stata definita una metrica che indichi la percentuale di tuple esposte a vulnerabilità.
    - si è definita una metrica per misurare la perdita di informazione ottenuta.
    - si utilizza un ulteriore indice che indica l’utilità dell’anonimizzazione, vista come rapporto tra la quantità di informazione ricevuta dai database anonimo e originario.
    Il passo successivo è stata l’implementazione di un tool che fosse in grado di connettersi ad un database, anonimizzarlo, e misurare i parametri appena definiti.
    La creazione del tool è stata seguita dalla fase di sperimentazione. Quindi è stata creata una base di dati contenente dati personali, nella fattispecie dati medici; il database è stato successivamente anonimizzato su 4 livelli differenti. E’ stato definito un set di 100 interrogazioni e si è proceduto a sottometterle alle 5 istanze della base di dati.
    I dati registrati hanno permesso di effettuare un’analisi descrittiva ed un’analisi statistica dei risultati, definendo, così, le dinamiche di degradazione dei dati negli algoritmi di anonimizzazione.

    Questa tesi è correlata alla categoria


    Skype Me™! Tesionline Srl P.IVA 01096380116   |   Pubblicità   |   Privacy

    .:: segnala questa pagina ::.
    | Scrivici | | Ricerca tesi | | Come pubblicare | | FAQ | | Cinema | | Biografie |
    | Registrati | | Elenco tesi | | Borse di studio | | Personaggi | | Economia | | Libri usati |
    | Parole chiave | | La tesi del giorno | | Cronologia | | Formazione | | Ingegneria | | Glossario |
    | Home personale | | Ultime tesi pubblicate | | Una parola al giorno | | Database dei master | | Sociologia | | Approfondimenti |
      La redazione è a tua disposizione dalle ore 9:00 alle ore 18:30 (dal lunedì al venerdì) - tel. 039 6180216
      Pubblicità   |   Privacy