Por Daniel Becker, Beatriz Haikal e Ludmilla Campos
A engenharia por trás do ChatGPT é refinada, eficiente e caiu nas graças do público por sua capacidade de gerar respostas contextualmente precisas, alçando-se, assim, à posição paradigmática de ferramenta divisora de águas. A popularização da ferramenta trouxe o holofote para as inteligências artificiais generativas como um todo, contudo, o saldo não é apenas positivo. A aplicação desperta diversos pontos de atenção sob a perspectiva da segurança da informação e da proteção de dados, especialmente em razão de sua capacidade hiperbólica de absorver informações e dos baixos níveis de transparência quanto à forma de tratá-los.
O ChatGPT, que é executado por meio de machine learning[1], depende do big data para o seu treinamento e funcionamento. O modelo foi treinado por meio de bases de dados textuais extraídos da internet que incluem quase 600 GB de informações obtidas a partir de obras disponíveis na rede mundial de computadores. Em termos exatos, após um web scraping (ou raspagem de dados), o sistema foi alimentado com cerca de 300 bilhões de palavras, dos mais diversos temas, e em mais de um idioma.
Isso quer dizer que, se no ambiente virtual, você, leitor, já redigiu uma crítica ou publicou um artigo até o mês de setembro de 2021, provavelmente o ChatGPT coletou seus dados para formação do big data de treinamento. Do mesmo modo, caso inadvertida ou irregularmente, algum dado pessoal tenha sido compartilhado online, certamente foi consumido, sem ciência ou anuência dos titulares, para treinamento do robô.
E a coleta de dados pelo ChatGPT não cessa na fase de treinamento. De acordo com a Política de Privacidade da OpenAI, aplicável ao site principal e aos sites afiliados, a plataforma coleta dados pessoais de seus usuários no momento de login e utilização, sendo facultado à empresa o compartilhamento dessas informações com terceiros para os fins do negócio.
O que se sabe, contudo, sobre machine learning, web scraping, big data e treinamento de sistemas de inteligência artificial socorre pouco ou em nada àqueles que se debruçaram sobre o ChatGPT a fim de apurar seu funcionamento sob a lente da segurança da informação e da proteção de dados. Acerca do tema, Norbert Wiener[2] disse: “[s]e usarmos, para atingir nossos objetivos, um órgão mecânico em cujo funcionamento não podemos interferir de forma eficaz… é melhor estarmos bem certos de que o propósito colocado na máquina é aquele que realmente desejamos”.
O trecho trata sobre o que se apelidou como a “caixa preta” da inteligência artificial, ou seja, a incapacidade de entender como um sistema de IA chega às suas conclusões. A opacidade entre o input e o output desses sistemas levanta preocupações éticas e pode trazer impactos negativos para áreas como saúde, justiça e finanças, onde a transparência e a explicabilidade são cruciais para confiança e responsabilização.
A opacidade do chatbot, a capacidade massiva de absorção informacional, a larga base de usuários e a inexistência de políticas – privadas ou públicas – capazes de garantir transparência em relação às plataformas de IA generativas motivaram Autoridades de Proteção de Dados de diversos países a deflagar procedimentos investigatórios sobre seu funcionamento, as diretrizes das operações de tratamento de dados, suas finalidades e as medidas de segurança adotadas.
Como em efeito dominó, entre março e maio desse ano, França, Espanha, Itália, Canadá, China e o Conselho Europeu de Proteção de Dados (EDPB) puseram em ação práticas e medidas de apuração. Em março, a Autoridade Italiana suspendeu temporariamente o ChatGPT no país devido a preocupações com a falta de filtros de idade, de bases legais para processamento em massa de dados e de transparência em seu funcionamento. Em abril, foi a vez do CNIL (França), da AEPD (Espanha), da Autoridade Canadense e do Órgão Regulador da Internet na China conduzirem investigações sobre o tratamento sem consentimento, tendo o último estabelecido diretrizes para empresas de inteligência artificial generativa, a fim de promover plataformas igualitárias. Paralelamente, o Conselho Europeu de Proteção de Dados lançou uma task force para discutir o funcionamento do ChatGPT e desenvolver um plano de ação.
Não há como negar que a conversa sobre proteção de dados ganha contornos desafiadores quando o objeto de estudo é um sistema de inteligência artificial generativo, que a partir dos dados base de treinamento é capaz de produzir conteúdo. Pela frente, o longo caminho a ser percorrido traz indagações sobre como documentar o processo cognitivo de uma ferramenta com esse nível de autonomia ou como implementar medidas de minimização do tratamento de dados quando o aperfeiçoamento de um sistema machine learning está diretamente ligado à quantidade e à qualidade dos dados que o alimentam.
Proteção de dados, segurança da informação e sistemas de inteligência artificial, entretanto, não são elementos inconciliáveis. Os próximos passos precisam ser dados em direção a uma transformação da caixa preta das inteligências artificiais generativas em uma caixa de vidro, com a promoção de um sistema de inteligência artificial sustentável, calcado sob o tripé proposto por Virginia Dignum de accountability, responsability e transparency[3].
À regulamentação cabe normatizar a inovação tecnológica sem tolher sua evolução. A própria LGPD, aliás, reconhece a importância do desenvolvimento econômico, tecnológico e inovação, juntamente com o respeito à privacidade. No entanto, a lei não é suficiente para regular totalmente a tecnologia, levando o Brasil e o mundo a discutirem formas de regular especificamente as aplicações de inteligência artificial.
Aos desenvolvedores, é preciso adequar os sistemas de machine learning à abordagem de inteligências artificiais explicáveis (XAI), que detalha os dados e o formato de treinamento do modelo sem comprometer sua performance.
Aos provedores da tecnologia, cabe disponibilizar uma ferramenta em compliance com o framework regulatório atual por meio da implementação de limitações etárias, da garantia de controle de dados aos titulares, e da elaboração de políticas que expliquem os métodos de predição e de decisões das ferramentas.
Ainda, enquanto não encontramos um modelo de inteligência artificial que resolva o problema da “caixa preta” e forneça transparência e interpretabilidade no tratamento de dados e tomada de decisões, a responsabilidade de conhecer e cumprir os deveres contratuais de confidencialidade recai, inevitavelmente, sobre os usuários.
A submissão de documentos pessoais ou corporativos deve ser limitada e supervisionada, já que os dados pessoais dispostos serão absorvidos pela aplicação e poderão ser compartilhados com outros usuários da plataforma. Assim, aos advogados é imprescindível o cuidado ao remeter ao chatbot trechos de documentos jurídicos que integrarão autos que tramitam em segredo de justiça ou de minutas de acordo que podem identificar as partes envolvidas – com o uso da ferramenta, nasce para o usuário o dever de cuidado com o material que direciona.
É claro que mudanças estruturais e culturais como as aqui abordadas são graduais, mas uma coisa é certa: o caminho imediato não pode ser o banimento destes sistemas verdadeiramente revolucionários, mas sim o seu uso consciente e a sua promoção parametrizada. Não há que se ter medo do ChatGPT e seus “primos”, mas explorá-los com a cautela que a autopreservação exige, extraindo o que se pode da legislação existente e contribuindo para a construção da regulamentação específica da matéria.
[1] Machine learning ou, em tradução livre, aprendizado de máquina, é uma das vertentes da inteligência artificial. e abarca as ferramentas que aprendem de forma autônoma, a partir de uma vastíssima quantidade de dados (big data) e da interação com o usuário.
[2] WIENER, Norbert. Some Moral and Technical Consequences of Automation. Science, New Series, Vol. 131, No. 3410 (May 6, 1960), pp. 1355-1358
[3] A prestação de contas (accountability) com uma minuciosa explicação e justificação de suas ações e decisões; a responsabilidade (responsability) com a vinculação dos processos de tomada de decisão ao uso justo de dados e à atuação das partes envolvidas e; a transparência (transparency), finalmente, com a imposição às empresas do ramo do dever de descrever os protocolos de tomada de decisões, cumulado à implementação, mandatória, de métodos de inspeção e medidas de governança para os dados tratados em suas operações. DIGNUM, V. Responsible Artificial Intelligence – How to Develop and Use AI in a Responsible Way. Artificial Intelligence: Foundations, Theory, and Algorithms. Springer, 2019
DANIEL BECKER – Sócio do BBL Advogados, diretor de novas tecnologias no Centro Brasileiro de Mediação e Arbitragem (CBMA), organizador dos livros "O Advogado do Amanhã: Estudos em Homenagem ao professor Richard Susskind", "O fim dos advogados? Estudos em Homenagem ao professor Richard Susskind - vol. II", "Regulação 4.0, vols. I e II", "Litigation 4.0" e "Comentários à Lei Geral de Proteção de Dados", todos publicados pela Revista dos Tribunais
BEATRIZ HAIKAL – Sócia da área de Proteção de Dados e Regulatório de Novas Tecnologias no BBL | Becker Bruzzi Lameirão Advogados. Graduada em Direito pela PUC-Rio, pós-graduada em Estado e Sociedade pela Associação do Ministério Público do Estado do Rio de Janeiro (AMPERJ), Certified Information Privacy Manager (CIPM) pela International Association of Privacy Professionals (IAPP), IAPP Member, OneTrust Certified Privacy Professional, professora convidada de instituições como Ibmec, Curso Fórum e Faculdade CERS
LUDMILLA CAMPOS – Advogada da área de Proteção de Dados no BBL | Becker Bruzzi Lameirão Advogados. Pesquisadora no Núcleo de Estudos e Pesquisa em Direito Internacional da UERJ e OneTrust Certified Privacy Professional