Cicese Cicese

Kamalika Chaudhuri: Cuantíficando el Precio de la Privacidad

San Diego, Calif., June 18, 2012 — La avalancha de datos que trajo consigo la revolución digital, ha hecho posible aprovechar los enormes conjuntos de data para todo, ya sea para análisis estadísticos a máquinas de aprendizaje para reconocimiento de patrones y respuestas "inteligentes". 

Pero, muchos de estos datos provienen de personas,  y muchas de estas, esperan que su información permanezca privada. La preservación de privacidad, sin embargo, no siempre se obtiene, dice la Profesora de Ciencias de la Computación de la Universidad de California, San Diego (UCSD), Kalilak Chaudhuri.

"Suponga que Ud. tiene ciertos datos que considera muy privados, como datos genómicos que ha reunido de sus pacientes, y ahora desea hacer ciertos cálculos estadísticos con estos, y desarrollar algún tipo de algoritmo de predicción," explica. "Por ejemplo analizar ciertas características de los pacientes y predecir si podrían desarrollar cierta enfermedad.

"Con la mayorías de las investigaciones basadas en bases de datos, mientras no  se tengan los datos como nombre y dirección, o alguna otra forma de datos de identificación  de los pacientes, estos datos se consideran privados o protegidos," añade Chaudhuri, afiliada del Information Theory and Applications Center.   del California Institute for Telecommunications and Information Technology (Calit2) Division UCSD.

"Pero los conjuntos de datos con muchas funcioes y caracterísiticas, esto no es el caso," nota, "particularmente cuando constan de pequeñas muestras."

Los investigadores de la privacidad, han encontrado que con un poco de nformación previa, es posible hacer 'ingeniería reversa'  con estos datos y obtener estadísticamente información sobre los pacientes, comprometiendo con esto su privacidad.

Para atacar está cuestión, Chaudhuri y su equipo han desarrollado una serie de técnicas conservadoras de la identidad -- conocidas colectivamente como "Differentially Private Empirical Risk Minimization" -- para determinar como clasificar los datos y luego desarrollar algoritmos de predicción, mientras que mantienen sinultáneamente la privacidad.

Chaudhuri va a presentar su artículo sobre su enfoque titulado  Convergence Rates for Differentially Private Statistical Estimation, durante la próxima conferencia  International Conference on Machine Learning  que se llevará a cabo el 26 de Junio a 1 de julio en Edinburgh, Scotland. 

Un aspecto crucial de este enfoque, es añadirle cierto grado de 'ruido' para enmascarar los efectos de la persona contenidos (también conocido como "perturbación del objetivo").

"Pero, dado que estás añadiendo algo de ruido a la data  estás también perdiendo algo de fidelidad o exactitud." dice Chaudhuri, "así que intentamos cuantificar cuanta exactitud vamos a perder, y no poner en riesgo la privacidad. Mientras que contenga más muestras de data, más pierdes la exactitud,"  así que la privacidad es función del tamaño de la muestra. Así que lo que en realidad estamos haciendo, es cuantificando el precio de la privacidad."

Chaudhuri dice que los resultados de su equipo, demuestran, tanto teórica como empíricamente, que la perturbación es superior a técnicas previas a técnicas del estado-del-arte para manejar los compromisos inherentes entre la privacidad y la funcionalidad. Mejor aún, las técnicas puede no ser utilizadas en cualquier tipo de datos -- desde datos médicos a información financiera -- asegurando entonces que estas técnicas hacen que la máquina sea cada vez más inteligente, sin comprometer los deseos humanos de permanecer anónimamente.

El nuevo artículo de Chaudhuri en este tema, el cual va ser co-autoriado por el investigador post-doctoral Daniel Hsu; investiga que tipo de propiedades y estimadores estadísticos debería tener, para que puedan ser computarizados con privacía differencial y relativamente bajas pérdidas en cuanto a privacidad. Los resultados del artículo, revelan una conexión concreta entre privacidad differencial y estadística robusta, un campo de la estadística que se basa en estimadores estadísticos que cuentan pr pequeños errores y outliers en la data.

Mucha de las investigaciones basadas en bases de datos, involucra la computación de alguna clase de estimadores estadísticos, como la media, mediana o valores-p con base en la data," explica Chaudhuri. "Cuando estos datos son sensibles, estos estimadores necesitan ser calculados de manera privada. Nuestros resultados indican que cuando los estimadores estadísticos son robustos en un sentido, pueden ser aproximados con privacidad differencial y  alto grado de exactitud."

 

by Tiffany Fox, tfox@ucsd.edu