A inteligência artificial generativa revolucionou a criação de conteúdos, mas também trouxe práticas pouco éticas, como o scraping massivo de dados. Nesse contexto, a Cloudflare lançou o AI Labyrinth, uma ferramenta que visa conter os bots que rastreiam e extraem informações de páginas web sem autorização, utilizando um engenhoso sistema baseado em páginas geradas por inteligência artificial.
Desde o surgimento de plataformas como ChatGPT, Claude, Perplexity, Llama e Gemini, a corrida para treinar modelos de inteligência artificial mais avançados intensificou a necessidade de grandes volumes de dados. Isso fez com que algumas empresas recorressem ao scraping de sites web, ignorando até mesmo diretrizes de exclusão como o ‘no crawl’. De acordo com dados da Cloudflare, os crawlers de IA geram mais de 50 bilhões de solicitações diárias à sua rede.
A função AI Labyrinth busca combater essa prática criando um “labirinto” de páginas web geradas por IA. Esses sites, embora plausíveis e repletos de dados científicos reais, não contêm informações úteis para o treinamento de modelos de IA. O objetivo é fazer com que os bots desperdicem tempo e recursos processando esse conteúdo irrelevante.
Diferentemente dos sistemas tradicionais que bloqueiam bots—alertando assim os atacantes—, o AI Labyrinth permite que eles entrem em um ambiente controlado de páginas fictícias. Esse mecanismo atua como um honeypot de nova geração, enganando apenas bots e não usuários reais, uma vez que uma pessoa dificilmente navegaria por várias páginas irrelevantes de forma consecutiva.
Para desenvolver esse sistema, a Cloudflare utilizou sua plataforma Workers AI e modelos de código aberto, criando conteúdo pré-gerado e armazenado em seus servidores R2 para agilizar a resposta. Além disso, esses links são integrados de forma oculta no HTML das páginas reais, garantindo que apenas bots suspeitos os detectem.
Um dos aspectos mais inovadores é que cada tentativa de scraping detectada alimenta seus modelos de aprendizado de máquina, ajudando a identificar padrões e novas assinaturas de bots maliciosos. Dessa forma, cada bot que cai no labirinto contribui para reforçar a defesa de toda a rede da Cloudflare.
A ativação do AI Labyrinth é simples e está disponível para todos os clientes, inclusive para usuários do plano gratuito. Basta ativar a função a partir do painel de gestão de bots na console da Cloudflare.
Este sistema representa um avanço na luta contra o uso indevido de dados na era da inteligência artificial. Enquanto as grandes empresas de tecnologia buscam novas formas de treinar seus modelos, a Cloudflare oferece a empresas e administradores de páginas web uma solução inteligente e proativa para proteger seus conteúdos.
A empresa confirmou que continuará a melhorar esta função, integrando-a ainda mais ao design das páginas web e dificultando ainda mais sua detecção por parte dos rastreadores. Com o AI Labyrinth, a Cloudflare demonstra que a defesa contra o scraping não se limita a bloquear, mas sim a confundir e desgastar os atacantes.