Apple estuda nova tecnologia para deixar a Siri mais rápida e natural

Imagem de: Apple estuda nova tecnologia para deixar a Siri mais rápida e natural

Pesquisadores da Apple estão trabalhando em uma nova forma de tornar as respostas da Siri mais rápidas e com voz mais natural.

A iniciativa surge em meio ao uso de tecnologias externas, como o Google Gemini, adotadas para suprir limitações da própria empresa na área de inteligência artificial. Mesmo assim, a equipe da Apple segue buscando soluções internas para evoluir sua assistente virtual.

Um novo estudo divulgado pelos pesquisadores da empresa de Cupertino detalha um caminho considerado viável para reduzir o tempo de resposta da Siri e melhorar a naturalidade da fala gerada pela IA.

Hoje, modelos de inteligência artificial costumam gerar voz a partir de pequenos trechos de sons, chamados de tokens fonéticos, que duram apenas alguns milissegundos.

O sistema escolhe cada fragmento de som por meio de um processo chamado autorregressão, no qual a próxima parte da fala é definida com base na anterior.

Esse método pode causar atraso na resposta e, em alguns casos, gerar pronúncias estranhas, já que o modelo trabalha com uma quantidade limitada de fragmentos sonoros usados no treinamento.

No novo estudo, os pesquisadores defendem a substituição do sistema atual por outro baseado em Grupos de Similaridade Acústica, chamados de ASGs.

Nesse modelo, os tokens de fala são organizados conforme a semelhança sonora percebida pelo ouvido humano. Alguns grupos podem se sobrepor, já que certos sons são parecidos entre si.

Ao combinar esses grupos com busca probabilística e autorregressão dentro dos próprios ASGs, o modelo de IA consegue chegar mais rapidamente ao token de fala mais adequado. Segundo o estudo, isso pode reduzir o tempo de resposta da Siri e gerar uma fala mais fluida e natural.

Embora a proposta não represente uma mudança radical no setor, o trabalho mostra que a Apple continua investindo no avanço de suas tecnologias de inteligência artificial e aprendizado de máquina.

O movimento também indica o interesse da empresa em desenvolver uma solução própria e completa para seus dispositivos no futuro, diminuindo a dependência de plataformas externas como os modelos Gemini, do Google.

Romário Leite
Fundador do TecFoco. Atua na área de tecnologia há mais de 10 anos, com rotina constante de criação de conteúdo, análise técnica e desenvolvimento de código. Tem ampla experiência com linguagens de programação, sistemas e jogos. Estudou nas universidades UNIPÊ e FIS, tendo passagem também pela UFPB e UEPB. Hoje, usa todo seu conhecimento e experiência para produzir conteúdo focado em tecnologia.