Data Bytes - Data Privacy

6 minute read

Read it in ūüáļūüáł

(Imagem tirada daqui)

A Lei de Prote√ß√£o de Dados no Brasil j√° √© uma realidade. Em vigor desde o dia 18 de setembro deste ano, a LGPD define um conjunto de normas para definir limites, condi√ß√Ķes de coleta, guarda e tratamento de informa√ß√Ķes pessoais. Um dos pilares da LGPD √© a privacidade de dados, conforme o Art. 1o: ‚Äúcom o objetivo de proteger os direitos fundamentais de liberdade e de privacidade‚ÄĚ e tamb√©m o inciso I do Art. 2o: ‚ÄúA disciplina da prote√ß√£o de dados pessoais tem como fundamentos: o respeito √† privacidade‚ÄĚ.

Com isso, o tema de privacidade tem sido muito discutido em diversas m√≠dias e tamb√©m em organiza√ß√Ķes (principalmente por conta das consequ√™ncias legais e riscos de imagem); neste pequeno artigo apresentarei alguns conceitos relacionados a privacidade e tamb√©m minha vis√£o sobre o tema para incitar a discuss√£o e a busca de mais conhecimento.

O que é Privacidade? (ou o que Privacidade não é)

Um bom lugar para come√ßar a discuss√£o √© definir o que √© privacidade; esta defini√ß√£o por si s√≥ j√° ir√° separar as melhores solu√ß√Ķes e m√©todos para garantir a privacidade nos dados.

Privacidade e Anonimização

√Č muito importante ter em mente que os conceitos de privacidade e anonimiza√ß√£o n√£o s√£o id√™nticos e que dados anonimizados n√£o correspondem √† dados privados (ou privacidade). Este ponto nem sempre √© muito √≥bvio porque se tomamos um dataset (um conjunto de dados) como independente de outros, em um v√°cuo, a anonimiza√ß√£o pode parecer suficiente para garantia de privacidade.

No entanto, a anonimiza√ß√£o falha em privacidade quando tomamos outras fontes de dados para identificar um indiv√≠duo; isto √© dizer que mesmo que um dataset esteja anonimizado, informa√ß√Ķes contidas em outro dataset podem ser utilizadas para identificar indiv√≠duos.

Um bom exemplo disso √© o caso do Netflix Data Challenge, que disponibilizou dados anonimizados para melhorar o sistema de recomenda√ß√Ķes em 2006 (contendo apenas IDs fict√≠cios e notas dadas aos filmes pelos usu√°rios); dois pesquisadores da Universidade do Texas, Arvind Narayanan e Vitaly Shmatikov, no entanto, conseguiram identificar indiv√≠duos dentro desde dataset anonimizado utilizando dados p√ļblicos do Internet Movie Database.

Demonstramos que um advers√°rio que sabe um pouco sobre algum assinante pode facilmente identificar seu registro, se estiver presente no conjunto de dados, ou, pelo menos, identificar um pequeno conjunto de registros que inclui o registro do assinante.

Robust De-anonymization of Large Sparse Datasets

O principal ponto de falha da anonimiza√ß√£o em privacidade √© que n√≥s, ind√≠viduos, somos identific√°veis utilizando um pequeno n√ļmero de informa√ß√Ķes √ļnicas - que n√£o necessariamente seriam encaradas como sens√≠veis, como os √ļltimos produtos que voc√™ comprou no Mercado Livre, ou os √ļltimos filmes que voc√™ assistiu.

Este é um dos pontos levantados por Cynthia Dwork, uma das responsáveis pelo conceito da Privacidade Diferencial:

a anonimiza√ß√£o de dados n√£o √© [igual a privacidade] - ou os dados n√£o s√£o realmente an√īnimos ou tanto j√° foi removido que n√£o podem mais ser chamados de dados

The Algorithmic Foundations of Differential Privacy

Privacidade e Criptografia

Outro ponto muito levantado é que a criptografia pode ser utilizada dentro do contexto da privacidade. Na verdade, a criptografia de dados é a solução de um problema diferente da privacidade: ela resolve o problema de segurança do dados.

Para a LGPD, este √© um tema muito importante, pois lida com poss√≠veis incidentes de exposi√ß√£o de dados, que sob a criptografia ficam ‚Äúseguros‚ÄĚ.

A melhor forma de entender a diferença destes dois elementos é que:

A criptografia protege dados, a privacidade protege a identidade

Data Privacy vs. Data Security: What is the Core Difference

Mas afinal, o que é Privacidade?

A melhor definição, ou a que melhor me satisfaz, é a definição diferencial de privacidade. Esta é uma formalização matemática da intuição ou definição de privacidade e por isso é tão importante para o contexto de Dados - em que lidamos com Aprendizagem de Máquina, Big Data e Algoritmos -, porque ela pode ser traduzida para a linguagem de máquina.

Os detalhes da Privacidade Diferencial estão no livro The Algorithmic Foundations of Differential Privacy disponível online (uma ótima referência), mas algumas ideias que nos levam a intuição deste conceito:

  • O conceito de privacidade separa o indiv√≠duo do conhecimento aprendido (obtido atrav√©s) do ind√≠viduo;
  • Uma consulta n√£o deveria revelar se um indiv√≠duo se encontra ou n√£o dentro de um dataset;
  • Do ponto de vista de um indiv√≠duo, existe a garantia de que uma mesma consulta seria obtida com ou sem sua informa√ß√£o em um dataset;
  • Em outras palavras, tudo que pode ser aprendido sobre um indiv√≠duo utilizando o dataset, deve poder ser aprendido sem acesso ao dataset.

Em outras palavras, a privacidade √© encarada como a independ√™ncia de decis√£o ou de consulta de um indiv√≠duo em espec√≠fico. Este blog post explica um pouco melhor sobre a Privacidade Diferencial em alto n√≠vel, outra √≥tima refer√™ncia sobre o tema √© o primeiro cap√≠tulo do livro ‚ÄúThe Ethical Algorithm: The Science of Socially Aware Algorithm Design‚ÄĚ que tamb√©m apresenta as consequ√™ncias e desvantagens da privacidade diferencial.

Solu√ß√Ķes para a Privacidade

Buscando obter alguma forma de privacidade, existem diversas solu√ß√Ķes que foram adotadas ao longo do tempo e encaram a privacidade de forma diferente. Porque resolvemos buscar na Privacidade Diferencial o conceito de Privacidade, estas t√©cnicas mostrar√£o diversas falhas em manter a identidade dos ind√≠viduos dentro de um dataset.

  • Retirar dados sens√≠veis: acho que essa √© uma das solu√ß√Ķes mais comuns levantadas para a privacidade; e talvez a que mais falha em atingir a privacidade. O principal problema √© que ela assume que n√≥s, ind√≠viduos, somos identific√°veis somente por dados sens√≠veis ou pelos dados removidos (o que n√£o √© verdade).
  • Usar apenas dados agregados: essa √© outra pr√°tica bastante comum e consiste em usar dados agregados em grupos de indiv√≠duos. Aqui temos a falha em assumir que dados agregados n√£o conseguem recuperar informa√ß√Ķes de indiv√≠duos ou recuperar o dataset n√£o agregado (algumas refer√™ncias aqui e aqui)
  • Anonimizar dados: este ponto foi introduzido acima com um exemplo pr√°tico do caso do Netflix. A principal falha aqui resta no fato de que informa√ß√Ķes contidas em outros datasets podem ser usadas em conjunto para identificar indiv√≠duos; e sim, isto √© da responsabilidade da companhia dona dos dados ‚Äúanonimizados‚ÄĚ.
  • Privacidade Diferencial: esta tamb√©m √© uma t√©cnica que utiliza a aleatoriedade para atingir um certo n√≠vel de privacidade. Uma das falhas desta t√©cnica √© que a simples exist√™ncia de um indiv√≠duo dentro de um dataset j√° √© informativa e identific√°vel.

Existem outras solu√ß√Ķes para a privacidade fora desta lista (Privacidade Sint√©tica, por exemplo), mas elas se encontram muitas vezes fora da praticidade ou usabilidade. Este artigo detalha muitas destas t√©cnicas e at√© mesmo outras defini√ß√Ķes de privacidade. Vale a pena a leitura!

Wrap Up

Neste artigo, tentei apresentar um pouco sobre o conceito de privacidade e tamb√©m algumas solu√ß√Ķes para a privacidade. Como sempre, n√£o existe uma bala de prata para o problema da privacidade e cada uma das t√©cnicas possui falhas e tamb√©m consequ√™ncias do ponto de vista de informa√ß√£o (um modelo de Machine Learning, por exemplo, sofrer√° com a acur√°cia quando a privacidade diferencial √© utilizada).

Espero que possa de alguma forma incitar a discussão e a busca de novas referências para esse tema tão importante dentro de Ethical AI e tão relevante para estes dias.

Referências

De Capitani Di Vimercati S, Foresti S, Livraga G, Samarati P. Data Privacy: Definitions and Techniques. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems. 2012;20(06):793-817.

Kearns M, Roth A. The ethical algorithm. Oxford: Oxford University Press; 2020.

Tozny. 10 Unnerving Privacy Fails Thru Data Aggregation. Disponível em: https://tozny.com/blog/10-unnerving-privacy-fails-thru-data-aggregation/

Dwork C, Roth A. The Algorithmic Foundations of Differential Privacy. Foundations and Trends¬ģ in Theoretical Computer Science. 2013;9(3-4):211-407.

Narayanan A, Shmatikov V. Robust De-anonymization of Large Sparse Datasets. 2008 IEEE Symposium on Security and Privacy (sp 2008). 2008;.

Arbuckle L. Aggregated data provides a false sense of security. Disponível em: https://iapp.org/news/a/aggregated-data-provides-a-false-sense-of-security/

Valente J. Entenda o que muda com a Lei Geral de Proteção de Dados. Disponível em: https://agenciabrasil.ebc.com.br/geral/noticia/2020-09/entenda-o-que-muda-com-a-lei-geral-de-protecao-de-dados

Phillips D. Data Privacy vs. Data Security: What is the Core Difference?. Disponível em: https://www.tokenex.com/blog/data-privacy-vs-security

Vitillo R. Differential Privacy for Dummies. Disponível em: https://robertovitillo.com/differential-privacy-for-dummies/

Harvard University Privacy Tools Project. Differential Privacy. Disponível em: https://privacytools.seas.harvard.edu/differential-privacyc