• About
  • Advertise
  • Careers
  • Contact
Segunda-feira, 11 Maio 2026
  • Iniciar sessão
Sem resultados
Ver todos os resultados
Noticias Portugal
  • Home
  • Últimas notícias
  • Economia
  • Deporto
  • Sociedade
  • Internacional
  • Mais notícias
    • Tecnologia
    • Receitas
    • Viagens
  • Home
  • Últimas notícias
  • Economia
  • Deporto
  • Sociedade
  • Internacional
  • Mais notícias
    • Tecnologia
    • Receitas
    • Viagens
Sem resultados
Ver todos os resultados
Noticias Portugal
Sem resultados
Ver todos os resultados
início da web Tecnologia

LangExtract do Google mira para o coração da extração documental com IA

por Notícias Tecnologia
24/03/2026
em Tecnologia
0
0
ACÇÕES
5
VISTAS
Share on FacebookShare on Twitter

Google lança LangExtract, uma biblioteca open source para extração de dados em documentos

Em um movimento que pode transformar a automação de processos documentais, a Google apresentou, em julho de 2025, uma nova ferramenta voltada para desenvolvedores: o LangExtract. Trata-se de uma biblioteca open source de Python que promete converter texto desordenado em dados estruturados, verificáveis e rastreáveis, permitindo que usuários localizem com precisão a origem de cada dado extraído em documentos não estruturados.

A iniciativa surge em um momento crucial, em que muitas empresas ainda se apoiam em expressões regulares frágeis ou em APIs fechadas e onerosas para extrair dados essenciais de contratos, relatórios e outros documentos. O LangExtract, ao elevar o padrão de automação, oferece uma abordagem moderna que inclui estrutura, rastreabilidade, revisão visual e flexibilidade na escolha do modelo subjacente.

O destaque do LangExtract não é apenas a extração de entidades, já comum em outras ferramentas, mas sim a possibilidade de mapeamento preciso das extrações ao texto original. Isso permite uma verificação visual do fragmento de onde o dado foi extraído, o que é especialmente relevante em setores onde erros podem acarretar riscos operacionais e regulatórios.

Além disso, a biblioteca proporciona uma visualização interativa, gerando um HTML autocontido que facilita a navegação entre as entidades detectadas e sua origem, oferecendo uma experiência de validação significativamente superior àquela proporcionada por saídas JSON.

Outro ponto interessante é que o LangExtract foi projetado para lidar com documentos extensos, utilizando fragmentação de texto e processamento em paralelo, questões comuns enfrentadas por usuários que lidam com grandes volumes de informações.

Embora seja impulsionada pelo modelo Gemini, a biblioteca não está restrita a um único fornecedor, permitindo suporte a modelos locais através de Ollama e OpenAI, além de plugins para a adição de provedores personalizados. Essa flexibilidade torna o LangExtract uma opção atraente para organizações que prezam pela privacidade dos dados.

Contudo, é importante destacar que o LangExtract não é uma solução mágica. A qualidade das extrações depende do modelo utilizado, das instruções fornecidas e da complexidade da tarefa. A biblioteca, licenciada sob Apache 2.0, não conta com suporte comercial completo da Google, mas já começa a ser adotada em diversos fluxos de trabalho, como demonstrado pelo suporte do Microsoft Presidio para detecção de dados sensíveis.

O verdadeiro impacto do LangExtract pode estar na maneira como redefine as expectativas em relação às ferramentas de extração documental. Ao combinar a extração estruturada com rastreabilidade e visualização interativa, a nova biblioteca promete desafiar ferramentas tradicionais a justificar sua relevância no mercado.

Tags: coraçãodocumentalExtraçãoGoogleLangExtractmirapara
Notícias Tecnologia

Notícias Tecnologia

Related Posts

NVIDIA e SPAN querem levar os data centers de IA para as casas

por Notícias Tecnologia
10/05/2026
0

A próxima batalha da Inteligência Artificial não se trava apenas em modelos, mas também na infraestrutura elétrica. A crescente demanda...

FCT impulsiona inovação com apoio a 31 projetos na terceira edição do Programa RESTART

por Notícias Tecnologia
10/05/2026
0

A Fundação para a Ciência e a Tecnologia (FCT) anunciou, em 4 de maio, os resultados provisórios da terceira edição...

Marco Antonio Catussi Paschoalotto Conquista o Prestigiado Prêmio João Monjardino 2025

por Notícias Tecnologia
09/05/2026
0

Marco Antonio Catussi Paschoalotto foi reconhecido como o vencedor da edição de 2025 do Prémio João Monjardino, com seu artigo...

Recommended

PORTOS AZUIS: Potencializando Terminais para um Futuro Mais Sustentável

2 meses atrás

U.Porto Conquista o Vice-Campeonato Europeu Universitário de Andebol de Praia

10 meses atrás

Popular News

  • NVIDIA e SPAN querem levar os data centers de IA para as casas

    0 shares
    Share 0 Tweet 0
  • Expansão do Ecossistema da Freedom Holding no Evento Freedom Inside 2026

    0 shares
    Share 0 Tweet 0
  • Novidades e Informações Essenciais para o Consumidor

    0 shares
    Share 0 Tweet 0
  • Chefe da OMS Realiza Visita a Tenerife em Resposta a Incidente de Hantavírus em Navio

    0 shares
    Share 0 Tweet 0
  • Universidade do Porto Celebra a Chegada do Verão com Música Clássica

    0 shares
    Share 0 Tweet 0

Connect with us

  • About
  • Advertise
  • Careers
  • Contact

© 2025 Noticias Portugal

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
Sem resultados
Ver todos os resultados
  • Home
  • Internacional
  • Economia
  • Viagens
  • Deporto
  • Sociedade
  • Tecnologia
  • Receitas

© 2025 Noticias Portugal