Snowflake anuncia nova funcionalidade para Apache Spark
Snowflake, a plataforma especializada em AI Data Cloud, anunciou recentemente a disponibilidade em pré-visualização pública do Snowpark Connect for Apache Spark™, um recurso inovador que permite aos usuários do Spark executar seu código diretamente sobre o motor de Snowflake. Essa integração promete melhorias significativas em desempenho, redução de custos e simplificação operacional para organizações que lidam com cargas de trabalho intensivas em dados.
Com uma arquitetura cliente-servidor desacoplada, o Snowpark Connect separa o código do usuário do cluster Spark responsável pelo processamento. Introduzida na versão 3.4 da comunidade Apache Spark™, essa nova arquitetura possibilita que os trabalhos de Spark sejam impulsionados diretamente pelo motor de Snowflake.
A nova funcionalidade permite que os usuários executem código Spark moderno — incluindo Spark DataFrame, Spark SQL e funções definidas pelo usuário (UDF) — sem a necessidade de manter ambientes Spark independentes. O Snowflake gerencia automaticamente todo o processo, lidando com escalonamento dinâmico e otimização de desempenho, o que alivia a carga operacional para os desenvolvedores.
Além disso, ao transferir o processamento de dados para o Snowflake, as organizações podem estabelecer um marco único de governança desde o início do fluxo de dados, garantindo coerência, segurança e conformidade regulatória ao longo de todo o ciclo de vida, sem duplicação de esforços.
Um estudo interno da Snowflake revelou que clientes que utilizam o Snowpark Client para criar pipelines em Python, Java ou Scala conseguiram um desempenho médio 5,6 vezes superior e economizaram 41% em custos, em comparação com ambientes Spark gerenciados de forma tradicional.
Com essa iniciativa, a Snowflake fortalece seu compromisso em oferecer ferramentas eficientes e unificadas para desenvolvedores e cientistas de dados, integrando o que há de melhor do Spark em seu ecossistema em nuvem.
O Snowpark Connect aproveita a arquitetura desacoplada do Spark Connect, permitindo que as aplicações enviem um plano lógico não resolvido para um cluster Spark remoto para processamento. Essa filosofia de separação tem sido fundamental no design do Snowpark desde seu início. Atualmente, o Snowpark Connect é compatível com as versões 3.5.x do Spark, garantindo a compatibilidade com as últimas funcionalidades e melhorias.
A nova solução elimina a necessidade de mover dados entre Spark e Snowflake, um processo que historicamente gerava custos adicionais e complexidade de governança. Agora, as organizações podem executar código Spark diretamente em Snowflake através de Snowflake Notebooks, Jupyter Notebooks, procedimentos armazenados, VSCode, Airflow ou Snowpark Submit, garantindo uma integração suave em diferentes armazenamentos, como Iceberg.
O Snowpark Connect para Spark também opera com tabelas Apache Iceberg™, permitindo que usuários aproveitem o desempenho e a governança da plataforma Snowflake sem necessidade de mover dados ou reescrever códigos.