A startup de buscas por inteligência artificial Perplexity está no centro de uma nova polêmica. Segundo um relatório divulgado pela Cloudflare, a empresa teria burlado intencionalmente restrições de sites para coletar conteúdos que não deveriam ser acessados por robôs.
Na prática, isso significa que a Perplexity teria driblado instruções técnicas que servem justamente para proteger páginas da internet de acessos automatizados não autorizados.
O caso chama atenção porque essas instruções — conhecidas como robots.txt — são amplamente usadas para dizer aos bots de busca o que pode e o que não pode ser acessado.
O que a Cloudflare alega é que a Perplexity estaria escondendo sua identidade, usando bots disfarçados e servidores alternativos, para ignorar essas regras e, assim, copiar o conteúdo mesmo sem permissão.
Cloudflare diz ter provas do acesso indevido
Para comprovar a prática, a Cloudflare criou uma página escondida em seu site — sem links externos, sem indexação no Google, e com restrições claras para bots.
Era, na verdade, uma armadilha técnica. Mesmo com todas essas barreiras, segundo a Cloudflare, o conteúdo da página apareceu nos resultados de busca da Perplexity. Com isso, a empresa afirmou que a startup violou diretamente os termos de uso da Cloudflare.
Como consequência, a Perplexity foi removida da lista de bots verificados (ou seja, os que têm permissão explícita para acessar conteúdos protegidos) e a Cloudflare anunciou que vai reforçar ainda mais suas defesas contra esse tipo de comportamento.
Perplexity nega tudo, mas a discussão já está aberta
A Perplexity, por sua vez, nega todas as acusações. Alega que o relatório da Cloudflare é falho, que os dados foram interpretados fora de contexto e que a investigação deixou de lado aspectos como a transparência — algo que a empresa diz valorizar desde sua fundação.
Na visão da startup, tudo não passa de um mal-entendido ampliado por conclusões precipitadas. Só que a questão vai muito além de um desentendimento entre duas empresas.
O que está em jogo aqui é uma preocupação crescente dentro do universo da inteligência artificial: de onde exatamente vêm os dados que alimentam esses sistemas? E, mais importante ainda, com que permissão esses dados estão sendo coletados?
A nova batalha da internet: conteúdo x inteligência artificial
O episódio deixa claro que estamos entrando em um território cada vez mais complexo, onde a busca por conteúdo valioso para treinar IAs pode ultrapassar limites técnicos e éticos.
Se empresas como a Perplexity realmente estão ignorando regras básicas da internet, isso abre precedentes perigosos para a relação entre criadores de conteúdo, empresas de tecnologia e usuários. O próprio CEO da Cloudflare, Matthew Prince, tem sido bastante vocal sobre isso.
Ele alerta que a forma como essas IAs estão sendo treinadas representa um risco direto para criadores de conteúdo, jornalistas, educadores e donos de sites — basicamente, todo mundo que publica conteúdo na internet.
Em resposta, a Cloudflare passou a oferecer uma ferramenta para que sites possam cobrar de empresas de IA pelo acesso ao seu conteúdo e, além disso, já bloqueia rastreadores de IA por padrão.
Mesmo que você não seja programador, dono de site ou criador de conteúdo, esse debate te afeta. Estamos falando do uso dos dados que você consome e compartilha diariamente.
A forma como as IAs acessam, copiam e usam informações está mudando as regras do jogo — e quanto menos transparência houver nesse processo, mais vulnerável fica o usuário comum.
Esse caso entre Cloudflare e Perplexity pode ser só o começo de uma discussão bem maior: até onde a inteligência artificial pode ir para obter dados? E quem deve ter o controle sobre isso?