A colaboração entre Arm e Stability AI tem promovido um avanço significativo na geração de áudio por meio da inteligência artificial diretamente em dispositivos móveis. A otimização da tecnologia Arm KleidiAI possibilitou que a conversão de texto para áudio seja agora 30 vezes mais rápida, abrindo novas possibilidades na criação de conteúdo e experiências digitais sem a necessidade de conexão com a internet.
O modelo de geração de áudio da Stability AI, conhecido como Stable Audio Open, permite que os usuários criem efeitos sonoros, toques de telefone ou até mesmo trilhas sonoras com apenas uma descrição escrita. No entanto, realizar esse tipo de tarefa em dispositivos móveis sem depender da nuvem era um desafio técnico considerável. Anteriormente, a geração de um único trecho de áudio levava mais de quatro minutos, o que se mostrava impraticável para o usuário final. Com a integração do KleidiAI, somada às otimizações em XNNPack e ExecuTorch, esse tempo foi reduzido para apenas alguns segundos em dispositivos móveis com processadores Arm.
Essa melhoria não apenas torna o uso da IA generativa em áudio mais acessível, mas também permite que milhões de dispositivos ao redor do mundo aproveitem essa tecnologia sem depender de servidores externos. Para alcançar esses resultados, a Stability AI colaborou com a Arm na redução e otimização do modelo de IA para sua execução em CPUs móveis. Isso incluiu a otimização de parâmetros do modelo para equilibrar desempenho e qualidade, o uso do KleidiAI, que melhora a execução da IA em processadores Arm, e a execução de todo o processo offline, garantindo maior privacidade e menor consumo de energia.
“A medida que mais empresas e criadores adotam a IA generativa, é fundamental que esses modelos sejam acessíveis em qualquer plataforma. A Arm tem sido um parceiro ideal para tornar isso possível”, afirmou Prem Akkaraju, CEO da Stability AI.
Essa inovação tem potencial para transformar setores como a criação de conteúdo, permitindo a geração de efeitos sonoros personalizados para vídeos, redes sociais e jogos; a edição de vídeo móvel, que integra rapidamente áudio sem a necessidade de downloads; e o entretenimento, possibilitando a criação de toques de telefone ou alarmes personalizados em questão de segundos. Além disso, pode melhorar a acessibilidade e a educação, produzindo narrações automáticas ou assistentes de áudio aprimorados.
No Mobile World Congress 2025, Arm e Stability AI apresentarão sua solução no estande da Arm, localizado no Hall 2, Stand I60. A demonstração contará com dispositivos como o vivo X200 Series, equipado com o processador MediaTek Dimensity 9400, baseado na arquitetura Armv9. Essa colaboração representa apenas o início de uma nova era na IA generativa executada em dispositivos móveis, possibilitando experiências mais rápidas, privadas e acessíveis. Com futuras otimizações, a Stability AI e a Arm pretendem expandir essa tecnologia para imagens, vídeos e modelos 3D, redefinindo a criação digital diretamente a partir dos smartphones.