Astra: novo projeto do Google quer ser “futuro dos assistentes de IA”

Apresentado durante o Google I/O, Astra é capaz de interpretar imagens de vídeo em tempo real e de realizar conversas naturais

Author Photo
7:10 pm - 14 de maio de 2024
Sundar Pichai, CEO do Google, durante o Google I/O 2024 (Imagem: Reprodução/Google)

Não é nenhuma surpresa que novidades em inteligência artificial (IA) foram o principal tema do Google I/O, evento anual do Google para desenvolvedores realizado na tarde desta terça-feira (14).

Na batalha para ganhar a dianteira na disputa com concorrentes como a OpenAI, da Microsoft, a empresa de Mountain View anunciou um novo modelo para o Gemini, modelo da companhia que rivaliza com o ChatGPT, e mais capacidades de IA para outros produtos da organização.

O chamado Projeto Astra, no entanto, foi um dos destaques do evento. Descrito como o “futuro de assistentes de IA”, o projeto consiste em um novo assistente que tem como objetivo ajudar usuários a automatizar tarefas do dia a dia de forma mais natural do que sistemas como Alexa, da Amazon, e Siri, da Apple, são capazes.

Segundo Sundar Pichai, CEO do Google, o assistente é capaz de entender o contexto de conversas com os usuários, demonstrando capacidades de raciocinar, planejar e memorizar informações. O assistente se baseia nas capacidades multimodais do Gemini, que permitem que a plataforma não apenas responda perguntas pontuais, mas também interaja com elementos ao redor do usuário para contextualizar suas respostas com informações relevantes.

Leia também: 4 indicadores para empresas se manterem à frente na cultura de dados

Durante a apresentação, a empresa demonstrou que o assistente pode, por exemplo, descrever objetos e informações capturadas pela câmera do celular em tempo real. Um dos exemplos mostrou uma usuária andando ao redor de um escritório com uma câmera ligada, pedindo que o assistente analisasse o conteúdo de um código de programação, identificasse uma parte específica de um alto-falante e até encontrasse seus óculos perdidos em uma mesa bagunçada. Além de um smartphone Google Pixel, o Projeto Astra também foi demonstrado rodando em um protótipo de óculos inteligente. Veja abaixo:

O Projeto Astra também utiliza as capacidades do Gemini Live, sistema que permite conversas naturais entre o usuário e a IA. A promessa é que a tecnologia torne as conversas mais fluidas entre pessoas e máquinas, sem longos tempos de espera entre uma pergunta e a resposta da IA

“Para ser realmente útil, um agente precisa entender e responder ao mundo complexo e dinâmico assim como as pessoas fazem – e absorver e lembrar o que vê e ouve para entender o contexto e agir. Ele também precisa ser proativo, ensinável e personalizado, para que os usuários possam conversar com ele de forma natural e sem atrasos”, escreveu Demis Hassabis, CEO do Google DeepMind, em um artigo sobre o anúncio.

O sistema ainda está no estágio de protótipo, segundo a empresa. “Astra”, aliás, é um acrônimo para Advanced Seeing and Talking Responsive Agent (algo como “agente responsivo avançado de visão e conversação”, em tradução livre).

A demonstração e as capacidades anunciadas são similares ao que a OpenAI, empresa responsável pelo ChatGPT, apresentou nesta segunda-feira (13) com o modelo GPT-4o. O sistema da OpenAI também se mostrou capaz de descrever, em tempo real, imagens captadas através de vídeo e de interagir com usuários em uma conversa natural.

Gemini e Android

O Google também expandiu o leque de ofertas do modelo Gemini através do Gemini 1.5 Flash. A nova versão promete ser a mais rápida entre as APIs de IA oferecidas para desenvolvedores, com baixa latência e alta eficiência, e capacidade similar ao Gemini Pro. De acordo com a organização, o 1.5 Flash se destaca em tarefas como resumo de textos, aplicações de chat, criação de legendas para imagens e vídeos e extração de dados de documentos longos e tabelas.

O Gemini para Android também receberá uma série de atualizações para visualizar o que está na tela dos dispositivos. A nova versão do assistente poderá analisar vídeos sendo reproduzidos no dispositivo e identificar informações dentro de um PDF.

Veja mais: Chief AI Officer: 98% dos líderes de TI e dados querem um líder de IA

A função “Circle to Search” também será otimizada. Agora, usuários poderão circular uma informação na tela com os dedos para buscar a resposta instantaneamente no Google. O sistema se mostrou capaz até de realizar cálculos matemáticos e resolver problemas de física com poucos toques.

A IA também reforçará a segurança dos sistemas Android. A empresa anunciou ainda que está testando uma nova ferramenta de monitoramento de chamadas que será capaz de identificar possíveis golpes. O sistema buscará palavras-chave na conversa para identificar padrões de golpe e alertará o usuário em tempo real. O recurso usará o Gemini Nano, versão reduzida do Gemini que pode rodar em dispositivos Android localmente.

Por fim, usuários dos aplicativos Calendário, Tarefas e Notas também receberão novos recursos de IA através da integração do Gemini aos serviços.

Veo

Não foi apenas o recém-anunciado GPT-4, da OpenAI, que foi desafiado pelo Google. A empresa revelou ainda no Google I/O 2024 o Veo, um modelo de IA capaz de criar vídeos – de forma similar ao Sora, da OpenAI. O Veo também produz vídeos em alta definição, com 1080p de resolução, de duração superior a um minuto e em diferentes estilos visuais.

O modelo é multimodal e pode produzir vídeos a partir de prompts de texto, imagem ou outros vídeos.”

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Author Photo
Redação

A redação contempla textos de caráter informativo produzidos pela equipe de jornalistas do IT Forum.

Author Photo

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.