• About
  • Advertise
  • Careers
  • Contact
Quarta-feira, 22 Abril 2026
  • Iniciar sessão
Sem resultados
Ver todos os resultados
Noticias Portugal
  • Home
  • Últimas notícias
  • Economia
  • Deporto
  • Sociedade
  • Internacional
  • Mais notícias
    • Tecnologia
    • Receitas
    • Viagens
  • Home
  • Últimas notícias
  • Economia
  • Deporto
  • Sociedade
  • Internacional
  • Mais notícias
    • Tecnologia
    • Receitas
    • Viagens
Sem resultados
Ver todos os resultados
Noticias Portugal
Sem resultados
Ver todos os resultados
início da web Tecnologia

Scrapling aposta por um scraping “auto-reparável” em Python: parser adaptativo, spiders e uma API unificada

por Notícias Tecnologia
01/03/2026
em Tecnologia
0
0
ACÇÕES
6
VISTAS
Share on FacebookShare on Twitter

O crescimento do Scrapling: uma nova abordagem para o web scraping em Python

O ecossistema Python tem visto evoluções significativas no campo do web scraping, uma prática que caminha entre soluções rápidas e a necessidade de manutenção contínua. Surge agora o Scrapling, um framework desenvolvido por Karim Shoair, do D4Vinci, que promete resolver um dos maiores desafios enfrentados por equipes técnicas e engenheiros de dados: a manutenção de scrapers em um cenário onde sites frequentemente mudam.

A proposta do Scrapling é clara: os redirecionamentos quebram seletores e as alterações no DOM desestabilizam rotas de dados, tornando a real manutenção do scraping um esforço constante. Para enfrentar esse problema, o projeto une três componentes em uma única biblioteca: um parser de alto desempenho, um mecanismo adaptativo para localizar elementos após mudanças no HTML e um sistema de spiders que permite escalabilidade no crawling, tudo isso sem a necessidade de alternar entre diferentes ferramentas.

Entre as características marcantes do Scrapling, seus benchmarks de parsing chamam a atenção. Testes realizados com 5.000 elementos aninhados mostraram que o Scrapling alcançou uma média de 2,02 ms, em contraste com os 1.584,31 ms do BeautifulSoup com lxml. Essa comparação destaca a eficiência do Scrapling, embora também evidencie que ferramentas como Parsel/Scrapy e o lxml “puro” se aproximam em termos de desempenho.

O diferencial do Scrapling vai além da velocidade; seu projeto incorpora um conceito de “rastreamento inteligente de elementos”, que permite preservar o contexto de um elemento e, quando um site altera sua estrutura, tenta realocá-lo com algoritmos de similaridade, ao invés de depender apenas de seletores fixos. Essa inovação visa reduzir o trabalho necessário para corrigir scrapers ativos a cada vez que um site muda.

Adicionalmente, o Scrapling se propõe a unificar o trabalho de transporte, integrando diferentes tipos de “fetchers” sob uma única API: um Fetcher padrão para requisições HTTP, um DynamicFetcher baseado em Playwright para sites dinâmicos e um StealthyFetcher para situações onde métodos tradicionais não são eficazes.

No que se refere aos spiders, o Scrapling adota uma abordagem semelhante ao Scrapy, oferecendo funcionalidade de múltiplas sessões, pausar e retomar crawls, além de permitir a configuração de concorrência e delays por domínio. Isso facilita a implementação de pipelines de dados, onde o controle do estado e reintentos são tão importantes quanto a lógica de parsing.

Finalmente, Scrapling proporciona uma experiência positiva para o desenvolvedor, com uma interface de linha de comando (CLI), um shell interativo similar ao IPython e integração com ferramentas de IA para otimizar fluxos de trabalho de extração de dados.

Com uma cobertura de testes de 92% e total compatibilidade com type hints, o Scrapling promete ser uma ferramenta robusta para aqueles que buscam uma solução eficaz e sustentável no campo do web scraping. Disponível no PyPI como scrapling 0.4 desde 15 de fevereiro de 2026, requer Python 3.10 ou versões superiores.

Tags: adaptativoAPIapostaautoreparávelparserporPythonscrapingScraplingspidersumaunificada
Notícias Tecnologia

Notícias Tecnologia

Related Posts

IBM e Arm juntam forças para levar Arm à computação empresarial

por Notícias Tecnologia
21/04/2026
0

IBM e Arm firmam colaboração estratégica para inovação em hardware A IBM e a Arm anunciaram no dia 2 de...

Iniciativas de Mobilidade Acadêmica em Portugal: Programas para Professores e Estudantes até 2026

por Notícias Tecnologia
21/04/2026
0

Estão abertos os concursos para a edição de 2026 das Iniciativas de Mobilidade CMU‑Portugal, que têm o apoio da Fundação...

Concurso de Bolsas de Doutoramento 2026 atinge recorde histórico de inscrições

por Notícias Tecnologia
20/04/2026
0

A edição de 2026 do Concurso de Bolsas de Investigação para Doutoramento da Fundação para a Ciência e a Tecnologia...

Recommended

Análise de Preços e Qualidade no Mercado Imobiliário: Vantagens para o Consumidor

10 meses atrás

BISC: o chip cerebral sem fio que aproxima a “telepatia” em tempo real

4 meses atrás

Popular News

  • Silvia Pastor

    Rede Completa: Refinanciamento Paneuropeu de 1,1 Mil Bilhões para Impulsionar o Crescimento

    0 shares
    Share 0 Tweet 0
  • Estádio do Bessa: Leilão Previstos em 31 Milhões de Euros

    0 shares
    Share 0 Tweet 0
  • Líder da Assembleia Geral destaca os desafios do novo presidente da ONU

    0 shares
    Share 0 Tweet 0
  • Descobri a Força da Autoconfiança: Aprendendo a Valorizar Minhas Capacidades

    0 shares
    Share 0 Tweet 0
  • Taxa de Juros do Crédito Habitacional Atinge 3,088%

    0 shares
    Share 0 Tweet 0

Connect with us

  • About
  • Advertise
  • Careers
  • Contact

© 2025 Noticias Portugal

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
Sem resultados
Ver todos os resultados
  • Home
  • Internacional
  • Economia
  • Viagens
  • Deporto
  • Sociedade
  • Tecnologia
  • Receitas

© 2025 Noticias Portugal