A controvérsia do DeepSeek: autoridades perguntam de onde vêm os dados e quão seguros eles são?
Notícias Tecnologia

A controvérsia do DeepSeek: autoridades perguntam de onde vêm os dados e quão seguros eles são?

O crescimento repentino do DeepSeek levantou preocupações e questões, especialmente sobre a origem e o destino dos dados de treinamento, bem como a segurança dos dados.

Para aqueles que retornam de um curto feriado longe das notícias, o DeepSeek é um novo jogador no campo da Inteligência Artificial (IA). A startup chinesa certamente tomou as lojas de aplicativos de assalto: em apenas uma semana após o lançamento, ele liderou as paradas como o aplicativo gratuito mais baixado nos EUA. Isso causou uma perturbação no mercado de ações que custou muito dinheiro aos acionistas da nVidia e da Oracle.

O DeepSeek foi chamado de projeto de código aberto, no entanto, isso tecnicamente não é verdade porque apenas as saídas do modelo e certos aspectos são publicamente acessíveis. Isso o qualifica como um modelo de peso aberto. De qualquer forma, a diferença importante é que os dados de treinamento subjacentes e o código necessário para a reprodução completa dos modelos não são totalmente divulgados.

E são os dados que representam uma preocupação para muitos. A OpenAI acusou a DeepSeek de usar seu modelo ChatGPT para treinar o chatbot de IA da DeepSeek, o que desencadeou alguns memes. Se apenas porque a OpenAI sofreu anteriormente acusações de usar dados que não eram seus para treinar o ChatGPT.

As autoridades também começaram a fazer perguntas. O regulador de privacidade italiano GPDP pediu que a DeepSeek fornecesse informações sobre os dados que processa no chatbot e seus dados de treinamento. Por ver um risco à privacidade de milhões de cidadãos italianos, a GDPD exigiu que a DeepSeek respondesse em 20 dias a perguntas sobre:

  • Quais dados pessoais são coletados
  • A origem dos dados
  • Finalidade da coleção
  • Se os dados são armazenados em servidores na China

De acordo com a agência de notícias italiana ANSA , o DeepSeek desapareceu em 29 de janeiro de 2025 das lojas de aplicativos do Google e da Apple na Itália.

E se tudo isso não for assustador o suficiente, pesquisadores da Wiz encontraram um banco de dados de acesso público pertencente ao DeepSeek.

“Este banco de dados continha um volume significativo de histórico de bate-papo, dados de backend e informações confidenciais, incluindo fluxos de log, segredos de API e detalhes operacionais. “

O banco de dados não era apenas acessível e legível, ele também era aberto ao controle e à escalada de privilégios dentro do ambiente DeepSeek. Nenhuma autenticação era necessária, então qualquer um que tropeçasse no banco de dados era capaz de executar consultas para recuperar logs sensíveis e mensagens de bate-papo em texto simples reais, e até mesmo roubar senhas em texto simples e arquivos locais.

Nem é preciso dizer que esse descuido colocou o DeepSeek e seus usuários em risco.

Já dissemos isso antes e provavelmente teremos que repetir inúmeras vezes, mas a necessidade de desenvolvimentos rápidos neste campo está criando riscos de privacidade que nunca vimos antes, simplesmente porque a segurança é uma reflexão tardia para os desenvolvedores. Então, não importa qual chatbot de IA você prefira, esteja sempre atento às informações que você fornece a ele: elas podem encontrar seu caminho para lugares inesperados e indesejáveis.

Pieter Arntz