Astra: novo projeto do Google quer ser “futuro dos assistentes de IA”

Apresentado durante o Google I/O, Astra é capaz de interpretar imagens de vídeo em tempo real e de realizar conversas naturais

7:10 pm - 14 de maio de 2024

Sundar Pichai, CEO do Google, durante o Google I/O 2024 (Imagem: Reprodução/Google)

Não é nenhuma surpresa que novidades em inteligência artificial (IA) foram o principal tema do Google I/O, evento anual do Google para desenvolvedores realizado na tarde desta terça-feira (14).

Na batalha para ganhar a dianteira na disputa com concorrentes como a OpenAI, da Microsoft, a empresa de Mountain View anunciou um novo modelo para o Gemini, modelo da companhia que rivaliza com o ChatGPT, e mais capacidades de IA para outros produtos da organização.

O chamado Projeto Astra, no entanto, foi um dos destaques do evento. Descrito como o “futuro de assistentes de IA”, o projeto consiste em um novo assistente que tem como objetivo ajudar usuários a automatizar tarefas do dia a dia de forma mais natural do que sistemas como Alexa, da Amazon, e Siri, da Apple, são capazes.

Segundo Sundar Pichai, CEO do Google, o assistente é capaz de entender o contexto de conversas com os usuários, demonstrando capacidades de raciocinar, planejar e memorizar informações. O assistente se baseia nas capacidades multimodais do Gemini, que permitem que a plataforma não apenas responda perguntas pontuais, mas também interaja com elementos ao redor do usuário para contextualizar suas respostas com informações relevantes.

Leia também: 4 indicadores para empresas se manterem à frente na cultura de dados

Durante a apresentação, a empresa demonstrou que o assistente pode, por exemplo, descrever objetos e informações capturadas pela câmera do celular em tempo real. Um dos exemplos mostrou uma usuária andando ao redor de um escritório com uma câmera ligada, pedindo que o assistente analisasse o conteúdo de um código de programação, identificasse uma parte específica de um alto-falante e até encontrasse seus óculos perdidos em uma mesa bagunçada. Além de um smartphone Google Pixel, o Projeto Astra também foi demonstrado rodando em um protótipo de óculos inteligente. Veja abaixo:

O Projeto Astra também utiliza as capacidades do Gemini Live, sistema que permite conversas naturais entre o usuário e a IA. A promessa é que a tecnologia torne as conversas mais fluidas entre pessoas e máquinas, sem longos tempos de espera entre uma pergunta e a resposta da IA

“Para ser realmente útil, um agente precisa entender e responder ao mundo complexo e dinâmico assim como as pessoas fazem – e absorver e lembrar o que vê e ouve para entender o contexto e agir. Ele também precisa ser proativo, ensinável e personalizado, para que os usuários possam conversar com ele de forma natural e sem atrasos”, escreveu Demis Hassabis, CEO do Google DeepMind, em um artigo sobre o anúncio.

O sistema ainda está no estágio de protótipo, segundo a empresa. “Astra”, aliás, é um acrônimo para Advanced Seeing and Talking Responsive Agent (algo como “agente responsivo avançado de visão e conversação”, em tradução livre).

A demonstração e as capacidades anunciadas são similares ao que a OpenAI, empresa responsável pelo ChatGPT, apresentou nesta segunda-feira (13) com o modelo GPT-4o. O sistema da OpenAI também se mostrou capaz de descrever, em tempo real, imagens captadas através de vídeo e de interagir com usuários em uma conversa natural.

Gemini e Android

O Google também expandiu o leque de ofertas do modelo Gemini através do Gemini 1.5 Flash. A nova versão promete ser a mais rápida entre as APIs de IA oferecidas para desenvolvedores, com baixa latência e alta eficiência, e capacidade similar ao Gemini Pro. De acordo com a organização, o 1.5 Flash se destaca em tarefas como resumo de textos, aplicações de chat, criação de legendas para imagens e vídeos e extração de dados de documentos longos e tabelas.

O Gemini para Android também receberá uma série de atualizações para visualizar o que está na tela dos dispositivos. A nova versão do assistente poderá analisar vídeos sendo reproduzidos no dispositivo e identificar informações dentro de um PDF.

Veja mais: Chief AI Officer: 98% dos líderes de TI e dados querem um líder de IA

A função “Circle to Search” também será otimizada. Agora, usuários poderão circular uma informação na tela com os dedos para buscar a resposta instantaneamente no Google. O sistema se mostrou capaz até de realizar cálculos matemáticos e resolver problemas de física com poucos toques.

A IA também reforçará a segurança dos sistemas Android. A empresa anunciou ainda que está testando uma nova ferramenta de monitoramento de chamadas que será capaz de identificar possíveis golpes. O sistema buscará palavras-chave na conversa para identificar padrões de golpe e alertará o usuário em tempo real. O recurso usará o Gemini Nano, versão reduzida do Gemini que pode rodar em dispositivos Android localmente.

Por fim, usuários dos aplicativos Calendário, Tarefas e Notas também receberão novos recursos de IA através da integração do Gemini aos serviços.

Veo

Não foi apenas o recém-anunciado GPT-4, da OpenAI, que foi desafiado pelo Google. A empresa revelou ainda no Google I/O 2024 o Veo, um modelo de IA capaz de criar vídeos – de forma similar ao Sora, da OpenAI. O Veo também produz vídeos em alta definição, com 1080p de resolução, de duração superior a um minuto e em diferentes estilos visuais.

O modelo é multimodal e pode produzir vídeos a partir de prompts de texto, imagem ou outros vídeos.”

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Tags:

Redação

A redação contempla textos de caráter informativo produzidos pela equipe de jornalistas do IT Forum.

Notícias relacionadas

Pure Storage aposta em mudança de paradigma para gestão de dados corporativos

A inteligência artificial é mesmo uma catalisadora de novos unicórnios?

Finlândia ativa a maior bateria de areia do mundo

Reforma tributária deve elevar custos com mão de obra no setor de tecnologia

Ver todas as noticias