Planetóide X

A Sintetização de Voz em Tempo Real e os Jogos Eletrônicos

segunda-feira, janeiro 10, 2011 José Guilherme Wasner Machado 0 Comentários Categoria: , ,

 Calem-se, calem-se, caaaaleeem-se.... vocês me deixam looouuuuco!

Estudo de Caso: você está passeando pelas vastas paisagens de um mundo medieval, quando chega a uma magnífica cidade. Ao cruzar seus muros, você fica maravilhado com a multidão passeando pelas ruas. Cada pessoa com sua própria aparência, cuidando de seus afazeres diários, jogando conversa fora, reclamando dos impostos, olhando torto para você. A animação é fluida, os rostos detalhados, a sincronia labial perfeita. Não dá para não se maravilhar com todo aquele realismo. A imersão é total. Ou talvez não. Como ocorre bastante na vida real, o encanto se perde quando alguém abre a boca.

Pois é. Depois de conversar um bocado com aqueles cidadãos, você começa a perceber algo bizarro. O anão barbudo da taverna O Dragão Verde-Abacate tem exatamente a mesma voz daquele velho ancião, o mal-humorado dono da alfaiataria O Troll Elegante. Já a elfa gostosa que está atrás do balcão tem a mesmíssima voz da sua prima Inga. Sim, aquela anta. E a velha de olhar vesgo, que não pára de tagarelar com o atendente, tem uma voz de gralha... idêntica à da bruxa do bosque! Sim, aquela que quase lhe torrou as jóias da família com um fireball bem colocado, logo no dia anterior. Para piorar, todo esse pessoal só sabe dizer as mesmas falas! Os mesmos diálogos! As mesmas piadas! Tá certo que a reconquista da Fortaleza das Mil Mortes foi um feito e tanto - graças a você, não esqueçamos! - mas daí a todo mundo só falar sobre isso, é um tanto demais! E com as mesmíssimas palavras! E com as mesmíssimas vozes! De novo, e de novo e de novo! Qual o problema com esse povo? Será que é tarde demais para você se aliar ao seu velho inimigo, o Senhor do Mal, e exterminar esses discos riscados?

Todos já passamos por isso em algum jogo. E o problema é particularmente grave em RPGs, gênero que, via de regra, possui milhares de linhas de texto e centenas de personagens controlados pelo computador. Mais do que nunca, o problema da repetição de vozes e de diálogos é embaraçoso e salta aos olhos. Não que exista uma saída fácil. Afinal, não dá para contratar um elenco de centenas - quiçá milhares! - de atores, de forma que cada personagem tenha uma voz distinta. Também seria inviável gravar milhares de falas com cada um dos atores, e assim obter uma maior variedade nos diálogos cotidianos.

Mas o problema não termina aí. Se o jogo permitir que o usuário crie o seu próprio personagem, este não poderá participar ativamente das conversas. Melhor dizendo, ele não reproduzirá foneticamente a opção textual escolhida pelo jogador. Daí o termo tão conhecido dos veteranos de RPG, o chamado "Herói Silencioso". E tem que ser assim, pois seria impossível disponibilizar diálogos pré-gravados para cada um dos milhões de personagens possíveis de serem criados pelos jogadores. Também não é possível fazer os outros NPCs se referirem ao personagem do jogador pelo nome próprio escolhido por ele, já que não dá para saber de antemão que nome será esse. E isso é algo que quebra um bocado da fluidez e da credibilidade dos diálogos. Basta notar quantas vezes você repete o nome do seu interlocutor numa conversa no mundo real. Por conta disso, algumas empresas (Bioware, mais notadamente) estão cortando a possibilidade de customização do personagem do jogador, preferindo entregar um já pré-definido de fábrica. Foi o que aconteceu, recentemente, com a franquia Dragon Age. Sem dúvida, essa decisão aumenta a imersão e o fator cinematográfico de um jogo, já que os diálogos soam muito mais naturais. Porém, isso tem um custo enorme, que é a extinção da pedra fundamental de um bom RPG: o personagem próprio.

Sintetização de Voz em Tempo Real

Todos os problemas acima listados poderiam ser evitados com uma sintetização realista de voz. Uma sintetização que ocorresse em tempo real, em substituição ou complementação aos tradicionais diálogos pré-gravados. Não me refiro - que fique bem claro - às vozes robóticas como aquelas dos sintetizadores eletrônicos dos anos 80. Quem se lembra aí de Jogos de Guerra ("How about a nice game of chess?") ou da hilária voz do pinball Cavaleiro Negro ("Eu sou a Cava. Leiro NEE-gro. A procura de um. DEEE-safiiio.")? Não, nada dessas coisas ultrapassadas e involuntariamente engraçadas. Estou falando de uma voz sintetizada praticamente indistinguível da voz natural. Algo como o computador da nave Enterprise de Jornada nas Estrelas, ou como o HAL 9000. Ficção científica? Viagem na maionese?

 A velha Cavaleiro Negro.

Falando apenas hipoteticamente, as vantagens seriam inegáveis:

- Se desejarmos usar a voz de um ator famoso, os custos serão bem menores, já que não será necessário que ele grave centenas ou milhares de linhas de diálogo. Bastaria capturar o padrão fonético da sua voz, e aplicá-lo a qualquer diálogo escrito.
 
- Um elenco numeroso não seria mais necessário, pois centenas de vozes distintas poderiam ser geradas a partir de variações nos padrões fonéticos (timbre, tonalidade, frequência, velocidade, etc) de um elenco mais reduzido.
 
- Os diálogos poderiam ser alterados à vontade durante todo o ciclo de desenvolvimento. Atualmente, isso não é possível. Hoje, qualquer alteração nos diálogos exige uma nova convocação dos atores envolvidos e uma custosa regravação. Por esse motivo, o elenco só é convocado quando o jogo está praticamente pronto. Só então as vozes poderão ser testadas, aumentando o risco de problemas imprevistos, principalmente na sincronização das animações. Com o uso de padrões vocais aplicados aos textos, não só as vozes poderiam ser integradas e testadas desde bem cedo no ciclo de desenvolvimento, como haveria total liberdade para fazer os ajustes na história e nos diálogos, se necessários.

- A localização/tradução de um jogo poderia ser ampliada também para os diálogos falados, e não apenas para os textos - sem necessidade de redublagem. Bastaria substituir o conjunto básico de padrões fonéticos originais por outro contendo padrões fonéticos nativos. Isso seria necessário por causa das diferenças de pronúncia. Mas, com a evolução da tecnologia, mesmo essa barreira poderia ser superada. Que tal escutar, em perfeito português, Patrick Stewart dizendo "Bota na conta do Papa"? Hum, melhor não.

- Poderia existir uma variedade muito maior de diálogos, principalmente nos chamados "diálogos cotidianos", que servem apenas para ambientação. Como as pequenas conversas do dia-dia, entre os NPCs de uma localidade. A probabilidade do jogador escutar repetições dos mesmos diálogos diminuiria bastante, já que o jogo teria à sua disposição milhares de linhas de texto, e não umas poucas centenas de gravações.

- Conversas mais banais poderiam ser criadas em tempo real, por uma engine de construção automática de diálogos. Esses diálogos, por sua vez, seriam convertidos em voz pelo sintetizador. Isso aumentaria dramaticamente o número de frases possíveis de serem escutadas pelo usuário, durante um jogo. Esse mesmo recurso pode ser utilizado para introduzir pequenas variações aleatórias em frases mais complexas e pré-determinadas pelos escritores, fazendo com que a experiência de um usuário seja distinta de outro, ainda que ambos estejam jogando um mesmo título.

- Um personagem criado e customizado pelo jogador poderia ter voz própria. Essa voz poderia ser montada a partir de seletores que regulariam os diversos padrões fonéticos. O jogador poderia brincar com esses seletores até obter uma voz que se adequasse mais ao personagem que está imaginando. Um anão teria, por exemplo, uma voz rascante e abrutalhada. Já um elfo ganharia uma voz mais sofisticada e musical. Frases pré-definidas seriam "tocadas" com esse padrão customizado, para que o jogador escolhesse a voz que mais lhe conviesse. O jogo já viria com algumas dezenas de padrões vocais pré-configurados, podendo o jogador mais preguiçoso escolher diretamente entre eles. Outro, mais meticuloso, teria um ponto de partida para uma customização própria. O padrão vocal poderia ser importado em futuras continuações daquele jogo.

- O jogador teria a possibilidade de emprestar sua própria voz ao personagem criado por ele. Com auxílio de um microfone, ele leria um texto montado de forma a capturar o padrão de sua voz. Com a mesma técnica utilizada com os atores, a engine de sintetização obteria o padrão fonético da voz do jogador. A partir daí, ele poderia escutar seu personagem conversar com outros com uma voz extremamente familiar: a sua! Ainda assim, ele teria os seletores descritos acima, de forma a brincar um pouco com o seu padrão fonético, introduzindo variações que julgasse interessantes.


- Não seria necessário gravar diálogos, mas apenas o texto e padrões fonéticos, economizando um grande espaço nas mídias físicas, e reduzindo bastante o tempo de download dos jogos.

- E finalmente os outros personagens poderiam chamar o seu pelo nome! Seja qual for o que você imaginar. E se a pronúncia estiver errada, é só corrigir o problema com a ajuda de um microfone.


Dá para notar que as vantagens são muitas, e as possibilidades, inúmeras. Maior liberdade, maior realismo e maior imersão, com um processo de desenvolvimento mais barato, mais fácil, mais racional e mais ágil. E, por quê não dizer, maior diversão? É lamentável que a indústria de jogos atual não possa contar com algo assim.

Ou pode?

O Futuro... Hoje?

A ótima notícia é que existem tecnologias para isso. Tecnologias razoavelmente maduras. Várias empresas já oferecem engines avançadas de sintetização de voz em tempo real, para uso em games ou qualquer outro tipo de aplicação que necessite de tal recurso. Dessas, talvez a mais avançada seja a tecnologia da Phonetic Arts, uma empresa que entrou no radar há algum tempo atrás, quando foi adquirida pela Google. Como sabemos, a Google não costuma dar ponto sem nó. Com vários produtos interessantes criados a partir de sua tecnologia, a Phonetic Arts já possui um bom portfolio de clientes. Entre eles, empresas famosas da indústria de games, como a Bethesda e a Bioware. Até o momento, essas companhias estão empregando a tecnologia da Phonetic Arts de uma forma mais conservadora, usando a sintetização de vozes para efeito de preview, em etapas iniciais do desenvolvimento. Mas já aparece no horizonte a possibilidade de vermos títulos que incluirão a sintetização vocal mesmo no produto final. A EA Sports, por exemplo, licenciou a tecnologia PA Commentator para uso em sua famosa franquia de futebol, FIFA. Com ele, ficará mais natural a narração de frases criadas on the fly, como "O jogador X passou a bola para Y. Y chutou, mas Z defendeu!".

O PA Commentator

Apesar das boas novas, vale manter o pé no chão e uma ponta de ceticismo. Afinal, existem sutilezas da linguagem humana que são difíceis de emular com credibilidade. Talvez sejam elas que estejam impedindo a adoção em massa de tais engines de sintetização, a despeito de todo o seu potencial. Por exemplo, é raro pronunciarmos uma determinada palavra sempre de forma idêntica. Usualmente fatores espúrios provocam alterações fonéticas temporárias em termos de ritmo, modulação, velocidade, etc. Algumas engines tentam reproduzir o efeito introduzindo variações aleatórias durante a execução de um padrão fonético. Há também a questão das diferenças na pronúncia dos fonemas em cada língua. Seria difícil, senão impossível, aplicar o padrão fonético brasileiro a um texto, por exemplo, escrito em inglês. Existem também fatores contextuais difíceis de serem emulados. Por exemplo, a urgência e a emoção tempestiva do protagonista. Se o personagem está com pressa, ou com raiva, ou cansado, o diálogo precisa refletir isso na entonação, no ritmo, no volume, de modo que o seu estado de espírito seja transmitido ao espectador. Isso é tão importante quanto a mensagem em si. Tente colocar o Schwarzenegger para interpretar Shakespeare, e entenderá o que estou dizendo. Por mais realista que uma simulação seja, sem o respectivo contexto emocional (ou" expressividade") teremos a sensação de dialogarmos com um robô. Enfim, uma experiência árida e bem pouco imersiva. Não é acidental a popularidade do uso de smileys na comunicação textual, para transmitir emoção e evitar mal-entendidos. Vale observar, todavia, que esse problema não ocorreria se a sintetização fosse aplicada apenas para obter variações de voz sobre um texto pré-gravado por um ator. Nesse caso, sua interpretação artística permaneceria intocada, junto com toda a sua carga emocional. Mas o problema não é incontornável. Algumas tecnologias analisam gravações onde atores reproduzem os diversos contextos emocionais, e então comparam essas gravações com outras, de contexto emocional "neutro". A partir daí, deduzem como uma emoção afeta as diversas variáveis fonéticas.

 As telas do PA Studio.

Os obstáculos são mesmo formidáveis, mas a tecnologia de sintetização de voz em tempo real já é uma realidade e parece estar evoluindo rapidamente, assim como o poder de processamento necessário para sua viabilidade. Dessa forma, penso que não demorará muito para que ela logo esteja presente em nossas franquias prediletas. Tenho grande esperança de que o próximo Elder Scrolls, Skyrim, já utilize alguma engine de sintetização. Mesmo que de uma forma mais limitada e modesta. Por exemplo, em variações fonéticas de diálogos pré-gravados, em conversas cotidianas de personagens "genéricos". Ou seja, aqueles que estão ali apenas para compor "cenário de fundo". Não é uma idéia de todo improvável. A Bethesda já vem usando um produto da Phonetic Arts em seu processo de desenvolvimento. Os resultados, quem sabe, podem ser bons o suficiente para que ela aprove o uso da tecnologia no produto final

É uma perspectiva empolgante.

 A tecnologia da Phonetic Arts (clique para ampliar)

Para Saber Mais:
Veja Também:

OUTROS POSTS

0 comentários

Por favor, fique à vontade para comentar, criticar ou sugerir. Mas não será permitido trolling, bullying, spam, preconceito e ataques meramente pessoais ou destrutivos.