*Por Pablo Sáez
Em novembro do ano passado, menos de mês depois do anúncio da mudança de nome da sua empresa, de Facebook para Meta, Mark Zuckerberg apresentava nas redes sociais os avanços do laboratório de investigação que ele batizou como “laboratório da realidade”.
O que o vídeo mostrava: de um lado, uma mão com uma luva em cima de uma mesa vazia; do outro, uma imagem de uma mão digital sobre uma mesa com diversos objetos, também digitais. Enquanto a mão com a luva se movia no vazio, a mão digital reproduzia os movimentos, pegando os objetos virtuais.
A pergunta que fica é: por que uma luva é tão importante para o metaverso, e por que tanto barulho para algo que todos já vimos em vídeos de realidade virtual e até nos mesmos experimentamos anos atrás? A chave está no sentido do tato e a bidirecionalidade.
Os sentidos e o Metaverso
Podemos entender o metaverso como uma internet em 3D onde existirá um mundo digital novo no qual seremos capazes de entrar, interagir e sentir as sensações desse novo mundo, assim como “trazer” entidades virtuais ao nosso mundo físico, mostrando-as e sentindo-as no mundo real. Trata-se de interações bidirecionais, que proporcionam experiências físicas no mundo virtual — e experiências virtuais no mundo físico, simulando um único mundo integrado.
A principal característica do metaverso será capacidade de interação natural e contínua entre entidades de diversos mundos. Para isso, devemos “enganar” nosso cérebro, fazendo-o sentir as experiências digitais como reais. Para isso, temos que conseguir “hackear” nossos sentidos. Acreditamos que há duas formas de fazer isso:
Diretamente no cérebro: diversas pesquisas estão sendo conduzidas para a criação de implantes cerebrais que simulem no nosso corpo físico os sinais dos nossos cinco sentidos recebidos quando estivermos dentro do metaverso. Num futuro mais distante, estimular diretamente o cérebro será o melhor mecanismo de simulação dos sentidos. Contudo, para isso acontecer, precisamos decifrar em profundidade o funcionamento do nosso cérebro.
No próprio sentido: até hoje, a forma mais simples e direta é enganar o aparelho sensitivo na fonte, e não no cérebro. Se conseguimos simular na frente do aparelho sensitivo a realidade digital, conseguimos que o cérebro o sinta como verdadeiro. Podemos citar alguns exemplos: um vídeo na frente dos olhos, um som na orelha, uma resistência na mão, um vento na cara ou, quem sabe, um gosto na língua. Quanto melhor seja a simulação, e quanto mais sentidos consigamos enganar ao mesmo tempo, mais real será a experiência digital que criamos para o usuário.
O sucesso do metaverso dependerá de inúmeros fatores. Um dos mais óbvios é que as interações devem oferecer uma excelente experiência ao usuário. As interações entre os dois mundos serão constantes; portanto, uma experiência ruim condenaria qualquer tentativa de integração. Quanto mais real sintamos as interações digitais, maior será o engajamento com este novo mundo.
A visão (e o ouvido) no metaverso
Existe ainda muito trabalho de pesquisa e avanços tecnológicos para que o metaverso atinja todas suas capacidades, mas já sabemos que o ambiente, o ecossistema, o lugar onde as interações aconteceram é na chamada realidade estendida (XR em inglês). Aí é onde precisamos ter sucesso enganando ao cérebro.
Para entender melhor a realidade estendida, temos que falar dos seus três tipos, que variam conforme o nível de interação:
Realidade virtual (RV): é a mais conhecida de todas. Nela usamos capacetes, óculos ou fones que nos transportam para o mundo virtual. Eles são um avanço para enganar vista e ouvido, mas estamos ainda longe de simular os sentidos e enganar por completo o cérebro. Isso ocorre hoje por há limitações de visão periférica, de desvio de atenção no mundo real, de latência e de sincronização simultânea, além do desafio do controle que desabilitam as mãos para outras tarefas.
Realidade aumentada (RA): visa trazer objetos e experiências digitais para o ambiente físico (como no filme Minority Report) por meio da criação de hologramas visuais diante da realidade. Na AR, estamos longe de enganar o cérebro ao ponto de fazer com que ele “acredite” que um objetivo digital na nossa frente seja real; mas há pesquisas com óculos leves para sobrepor visualizações. No futuro, poderemos ter lentes de contato “inteligentes” que permitirão essa visualização sobreposta e integrada com o mundo real.
No entanto, mesmo que avancemos na capacidade de enganar a vista e ouvido, para uma experiência imersiva total e natural, precisamos enganar ao cérebro com mais sentidos; precisamos, assim, do tato. E aí entra a luva apresentada pela Meta, mediante a qual podemos, aparte de ver como movemos objetos, sentir mesmo como pegamos e soltamos eles.
A importância do tato (e o ouvido) no metaverso
Um problema que passa despercebido pelos usuários, mas que é de extrema importância para uma experiência de sucesso são os sinais de feedback. Quando usamos um teclado, recebemos dois estímulos de feedback a cada pulsação de tecla: o som e toque.
Agora, pense num teclado virtual ou na chave de fenda do exemplo anterior, podemos desenhá-las digitalmente e colocá-las na frente dos nossos olhos. Até aí ok. Contudo, na hora de apertar um parafuso, por exemplo, não teríamos esses sinais de feedback. Sem sons ou tato, o cérebro não irá processar e a experiência será frustrante.
Existe todo um campo de estudo relacionado aos sinais visuais e táteis, haptic em inglês, (háptico em português), para que a experiência digital seja a mais próxima possível da real. Voltando ao exemplo da chave de fenda real que aperta um parafuso digital, além dos sons e do tato, a experiência precisa simular com realismo a resistência do parafuso sendo apertado ou solto.
Daí a relevância da luva do vídeo do Mark. Não é apenas uma luva para usar de interface de usuário no metaverso e para mover nossa mão no mundo digital. É uma luva bidirecional que, além de captar nossos movimentos, vai reproduzir o feedback do mundo digital de volta para a nossa mão real, elevando a experiência a um outro patamar.
Entretanto, pensemos na luva só como um primeiro passo. Para que a experiência fosse totalmente imersiva e natural, todo o corpo precisa sentir que está num outro lugar, e que está recebendo esses sinais hápticos. Pensemos não uma luva para a mão, senão num completo macacão que transmita para cada parte do corpo esses sinais. Juntando o macaco com uns óculos com fones, seriamos capazes de enganar ao corpo até fazer sentir que este voando, como acontece no filme Jogador Nº 1.
O feedback háptico é útil, mas o tempo de latência (o JND — Just Noticeable Difference, diferença apenas perceptível) entre nossa ação e nossa percepção no mudo virtual da reação é crítica, sendo que um milissegundo é considerado o tempo máximo para percebermos o resultado de nossa ação. O desafio aqui é múltiplo, mas é diretamente condicionado pela latência da rede e tempo de processamento.
Interação e experiência de usuário
Já entendemos a importância dos sentidos e a necessidade de simulá-los com o máximo de realismo no metaverso. A tecnologia precisa evoluir, em paralelo com a melhora das técnicas de experiência de usuário. Nesse aspecto, um dos fatores que condicionará enormemente as interações são os mecanismos de controle que, por definição, devem ser portáteis.
Atualmente, interagimos na internet pelo teclado, mouse ou control pad, que usamos, por exemplo, para mover nosso avatar pelo mundo digital. Para que a experiência de nos mover e interagir com objetivos digitais seja imersiva, precisamos de muito mais do que isso.
Numa primeira fase de evolução, além de usar óculos e fones, usaríamos o movimento das mãos para as interações, o que transformaria totalmente a experiência, levando-a para outro patamar. No entanto, esse tipo de controle é baseado em visão por computação, técnica que ainda não é perfeita e requer alta capacidade de processamento, pelo que não seria 100% imersiva.
O objetivo final, ou sonho de consumo, seriam macacões no corpo (como no Jogador Nº 1) que capturam os movimentos de todo o corpo e os reproduzem no avatar, assim como panos e tecidos digitais que habilitariam uma nova série de interações completamente imersivas.
Outro campo de estudo são os óculos MR/AR. Os avanços nessa área estão orientados a habilitar interações digitais imersivas sem impedir a visualização da realidade, assim como em aumentar o campo de visão tentando imitar a visão periférica humana que, com os aparelhos atuais, está bem limitada e um fator crítico para que nos adaptemos a seu uso de forma contínua.
Pensando num futuro mais distante, parece obvio que o ideal seria lentes de contato digitais e inteligentes, que evitariam todos os impedimentos aqui citados de visibilidade da realidade e visão periférica. Importante ressaltar: ainda precisamos de muito avanço para tornar o metaverso uma realidade.
*Pablo Sáez é sócio líder de Digital Technology da NTT DATA
Aviso: A opinião apresentada neste artigo é de responsabilidade de seu autor e não da ABES – Associação Brasileira das Empresas de Software