Pesquisadores da Apple estão trabalhando em uma nova forma de tornar as respostas da Siri mais rápidas e com voz mais natural.
A iniciativa surge em meio ao uso de tecnologias externas, como o Google Gemini, adotadas para suprir limitações da própria empresa na área de inteligência artificial. Mesmo assim, a equipe da Apple segue buscando soluções internas para evoluir sua assistente virtual.
Um novo estudo divulgado pelos pesquisadores da empresa de Cupertino detalha um caminho considerado viável para reduzir o tempo de resposta da Siri e melhorar a naturalidade da fala gerada pela IA.
Hoje, modelos de inteligência artificial costumam gerar voz a partir de pequenos trechos de sons, chamados de tokens fonéticos, que duram apenas alguns milissegundos.
O sistema escolhe cada fragmento de som por meio de um processo chamado autorregressão, no qual a próxima parte da fala é definida com base na anterior.
Esse método pode causar atraso na resposta e, em alguns casos, gerar pronúncias estranhas, já que o modelo trabalha com uma quantidade limitada de fragmentos sonoros usados no treinamento.
No novo estudo, os pesquisadores defendem a substituição do sistema atual por outro baseado em Grupos de Similaridade Acústica, chamados de ASGs.
Nesse modelo, os tokens de fala são organizados conforme a semelhança sonora percebida pelo ouvido humano. Alguns grupos podem se sobrepor, já que certos sons são parecidos entre si.
Ao combinar esses grupos com busca probabilística e autorregressão dentro dos próprios ASGs, o modelo de IA consegue chegar mais rapidamente ao token de fala mais adequado. Segundo o estudo, isso pode reduzir o tempo de resposta da Siri e gerar uma fala mais fluida e natural.
Embora a proposta não represente uma mudança radical no setor, o trabalho mostra que a Apple continua investindo no avanço de suas tecnologias de inteligência artificial e aprendizado de máquina.
O movimento também indica o interesse da empresa em desenvolver uma solução própria e completa para seus dispositivos no futuro, diminuindo a dependência de plataformas externas como os modelos Gemini, do Google.








