Flowers
Flowers

Conteúdo

Content

Voltar

ARTIGOS

IA em exame: Europa impõe raio-X dos dados de treinamento

Nova regra de transparência sobre dados de treinamento de IA acende alerta sobre insegurança e freios à inovação

Beatriz Haikal, Daniel Becker e Gabriela Sotomayor

Publicado no JOTA.

A partir de 2 de agosto deste ano, provedores de inteligência artificial que operam na União Europeia têm um novo dever regulatório: tornar visível o que, até então, permanecia opaco. Em nota técnica publicada em 24 de julho, a Comissão Europeia apresentou um modelo obrigatório de divulgação pública dos dados usados no treinamento de modelos de IA de propósito geral, conforme determina o artigo 53(1)(d) do EU AI Act.

Estão no centro dessa nova obrigação os grandes modelos de linguagem (LLMs) e os modelos multimodais, capazes de realizar múltiplas tarefas sem uma finalidade específica predefinida. A regra se aplica a todos os modelos de IA de propósito geral, inclusive os de código aberto, desde que acessados, implantados ou distribuídos no mercado europeu.

Vale mencionar que, embora a exigência entre em vigor em 2025, a fiscalização pela autoridade europeia terá início apenas em 2026. Já os modelos lançados antes de agosto de 2025 poderão cumprir a exigência até 2027, desde que justifiquem eventuais lacunas, caso não consigam apresentar todas as informações.

template publicado pelo AI Office define uma estrutura de relatório padronizada. Os desenvolvedores deverão descrever as modalidades de dados utilizadas (texto, imagem, vídeo ou áudio), as proporções de cada tipo de conteúdo, os principais conjuntos de dados empregados no treinamento (inclusive bases públicas, privadas, sintéticas e raspadas da internet), além da indicação de nomes de domínios utilizados como fontes. Também há campos específicos que exigem informações sobre o uso de dados de usuários, a incorporação de outros modelos (e suas respectivas licenças), além de aspectos relacionados à remoção de conteúdos ilícitos e respeito a direitos autorais.

Apesar de não exigir a divulgação completa e técnica dos datasets, alegando a necessidade de proteger segredos comerciais, a regra demanda um resumo “suficientemente detalhado” apresentado em linguagem narrativa, preenchido pelas próprias empresas desenvolvedoras. A ausência de parâmetros técnicos claros, no entanto, abre margem para distorções: relatórios excessivamente genéricos, redigidos sob cautela jurídica, ou descrições técnicas pouco acessíveis, de utilidade limitada para o público. Em vez de ampliar a transparência, o modelo pode acabar diluindo seu próprio propósito.

A obrigação também impõe desafios significativos para quem atua globalmente. A fragmentação regulatória, somada à ausência de critérios uniformes, tende a aumentar o custo jurídico e operacional para provedores que mantêm bases de dados historicamente construídas, com fontes mistas, incompletas ou parcialmente públicas. Em vez de favorecer a previsibilidade, o modelo regulatório da UE pode gerar insegurança e incentivando estratégias defensivas por modelos emergentes.

A crítica à retórica de que os dados “estavam disponíveis publicamente na internet” é legítima. Mas a resposta regulatória proposta parece mais simbólica do que funcional. Desde 2023, plataformas como The New York Times, Amazon, CNN, Reddit e outras passaram a bloquear bots de coleta, como o GPTBot, demonstrando o incômodo crescente com práticas opacas de coleta. A exigência europeia, ao transferir integralmente a responsabilidade de explicação para os desenvolvedores, sem contrapartidas técnicas nem estrutura de validação, corre o risco de penalizar quem age de boa-fé e deixar intocadas as práticas mais sensíveis.

No plano jurídico, a nova obrigação de transparência se articula com diferentes campos do direito: propriedade intelectual, proteção de dados pessoais, responsabilidade civil e regulação algorítmica. Em tese, contribui para o enforcement de direitos, permitindo que titulares identifiquem usos não autorizados de suas obras ou que usuários questionem o tratamento indevido de dados pessoais. Na prática, no entanto, transfere a carga da transparência para os desenvolvedores, criando uma obrigação mal calibrada, de difícil aplicação e pouco adaptada à complexidade dos modelos modernos.

Nesse contexto, é interessante pontuar o surgimento de discussões acerca da anonimização dos dados antes do treinamento de modelos de IA. Para alguns, essa seria uma forma eficaz de reduzir tensões entre inovação e proteção de direitos. Isto porque, se for possível a desidentificação definitiva durante a fase de preparação — eliminando qualquer possibilidade razoável de determinação individual —, toda a discussão sobre exercício de direitos de privacidade se torna, na prática, irrelevante, tornando desnecessárias obrigações como atender pedidos individuais de titulares e manter mecanismos complexos de rastreabilidade, ao mesmo tempo em que preservaria a conformidade com a legislação de proteção de dados.

Ainda assim, a ausência de diretrizes técnicas claras não apenas compromete a efetividade da obrigação como também pode gerar efeitos colaterais indesejados. Um dos riscos mais evidentes é que o resumo público acabe se convertendo em barreira à inovação.

O próprio EU AI Act é claro ao estabelecer que o resumo não deve ser tecnicamente exaustivo, tampouco exigir a exposição completa dos dados brutos, justamente para preservar a competitividade e evitar abusos. Essa cautela é particularmente relevante para modelos desenvolvidos por instituições acadêmicas, pesquisadores independentes e startups, que poderiam ser desproporcionalmente afetados por exigências excessivamente burocráticas.

Sem apoio técnico, prazo realista de adaptação ou diretrizes práticas suficientemente claras, a regra pode gerar mais ruído do que segurança. Não se trata de negar a importância da transparência, mas de reconhecer que o modelo escolhido impõe obrigações complexas com base em parâmetros subjetivos, com risco de interpretações desiguais e impactos desproporcionais.

Trata-se de um raio-X regulatório exigente — e, para muitos, desconfortável. A nova obrigação impõe aos desenvolvedores uma responsabilidade ampla, sem critérios objetivos e sem coordenação internacional. Em vez de promover transparência, o modelo pode gerar incertezas, desigualdades na aplicação e barreiras à entrada de novos agentes. Resta saber se esse esforço trará mais accountability ou se ampliará a distância entre reguladores e quem desenvolve a tecnologia — com o risco real de sufocar a inovação.

BBL ADVOGADOS , Beatriz Haikal , Daniel Becker , EU AI Act , Gabriela Sotomayor , IA , Inteligência Artificial , LLMs , Proteção de Dados