Recentemente, o gigante da tecnologia Google fez ondas no campo da inteligência artificial, seguindo o ritmo intensivo de lançamento do Open AI, e lançou sua mais recente obra-prima - o modelo Gemini 0.0 AI no meio da noite. O Google afirma que o Gemini 0.0 não é apenas seu modelo de IA mais avançado e abrangente até o momento, mas também a primeira inovação do setor a alcançar entrada e saída multimodal nativa.
Gemini2.0的问世,标志着谷歌在AI技术上的重大突破。在此之前,谷歌发布的Gemini-exp-1206模型已凭借处理200万个标记(相当于一个多小时的视频)的卓越能力,在Livebench上名列前茅,仅次于OpenAI的o1-preview,超越Claude 3.5 Sonnet,引发了业界的广泛关注与猜测。而Gemini2.0的真正亮相,更是将这些期待推向了新的高度。
Em termos de desempenho, o Gemini 0.0 foi totalmente atualizado. A velocidade de processamento é totalmente duplicada em comparação com a geração anterior do carro-chefe Gemini 0.0 Pro, oferecendo aos usuários um poder de processamento mais eficiente e tempos de resposta mais rápidos. O que é mais impressionante é que o Gemini 0.0 suporta entrada e saída multimodal, como imagens, vídeos e áudio, e pode gerar diretamente conteúdo misturado com imagens e texto, bem como gerar nativamente áudio multilíngue de conversão de texto em fala (TTS) controlável. Ele também chama ferramentas como a Pesquisa Google, execução de código e funções definidas pelo usuário de terceiros, fornecendo flexibilidade e usabilidade sem precedentes.
Com base na poderosa arquitetura do Gemini 0.0, o Google lançou ainda três novos protótipos de agentes de IA: Project Astra, um assistente de modelo geral, Project Mariner e Jules, um assistente de programação. O advento desses agentes marca um novo capítulo na era da IA do Google, à medida que avança em direção à era do "Agente".
Como o principal produto do assistente de IA do Google, o Project Astra possui recursos de processamento visual e de fala em tempo real e é capaz de inferência multimodal em tempo real em texto, áudio e vídeo por meio de telefones celulares ou Google Glass. O Astra alcançou melhorias significativas na compreensão da conversa, chamada de ferramentas, memória e capacidade de resposta. Ele não apenas é mais capaz de entender diferentes sotaques e palavras incomuns, mas também pode usar a pesquisa do Google, lentes e mapas com o Gemini 0.0 para ajudar os usuários em suas vidas diárias.
O Project Mariner é um assistente de navegador projetado para explorar o futuro da interação humano-computador. Ele é capaz de entender e raciocinar sobre informações na tela do navegador, incluindo elementos da web, como pixels, texto, código, imagens e formulários, e usa essas informações para realizar tarefas por meio de uma extensão experimental do Chrome. Desde fazer login em sites de supermercados até fazer compras, encontrar voos e hotéis, comprar utensílios domésticos, encontrar receitas e muito mais, a Mariner tem tudo. No benchmark WebVoyager, a Mariner alcançou um melhor resultado de trabalho de 5,0% como uma configuração de agente único.
Jules, por outro lado, é um assistente de IA criado para programadores. Ele se integra diretamente aos fluxos de trabalho do GitHub, com a capacidade de visualizar o código que os usuários já possuem e fazer alterações diretamente no GitHub, resolvendo os desafios que os desenvolvedores encontram ao corrigir bugs. Tudo isso é feito sob a supervisão do usuário, o que garante segurança e tempo.
O Gemini 0.0 também foi experimentado nas áreas de jogos, pesquisa acadêmica e robótica. O Google fez parceria com desenvolvedores de jogos como a Supercell para explorar o uso de agentes em jogos; O lançamento do Deep Research é como um assistente de pesquisa acadêmica, gerando artigos diretamente por meio de raciocínio avançado e recursos de contexto longo; O Google também planeja aplicar os recursos de raciocínio espacial do Gemini 0.0 a robôs para promover o processo inteligente de robôs.
Para evitar o uso indevido, o Google usa a tecnologia SynthID para colocar marca d'água em todos os áudios e imagens gerados. Ao mesmo tempo, o Google também lançou uma API multimodal em tempo real para ajudar os desenvolvedores a criar aplicativos com recursos de streaming de áudio e vídeo em tempo real. Essa API dá suporte à entrada de áudio e vídeo da câmera ou da tela e é capaz de lidar com padrões de conversa naturais.
O poderoso desempenho do Gemini 0.0 se deve ao hardware personalizado do Google TPU Trillium de sexta geração. Comparado com seu antecessor, o Trillium alcançou melhorias significativas no desempenho de treinamento, taxa de transferência de inferência e desempenho de computação de pico. Atualmente, os usuários podem experimentar a versão experimental do Gemini 0.0 Flash primeiro no lado do PC, e a versão móvel estará disponível em breve.
Sundar Pichai, CEO do Google e da Alphabet, tem grandes esperanças para o Gemini 0.0. Ele disse que, se o Gemini 0.0 trata de organizar e entender as informações, o Gemini 0.0 trata de tornar as informações mais úteis. Entre eles, "Agente" é a próxima grande direção na era da inteligência artificial. Os aplicativos Copilot e Agent no nível do sistema do Google demonstram totalmente as mudanças gerais que o Agent pode trazer para a vida das pessoas.
Com o lançamento do Gemini 0.0 e o advento de uma série de agentes de IA, o Google está acelerando a integração da IA em todos os seus produtos. No futuro, o Google planeja introduzir os recursos avançados de inferência do Gemini 0.0 em mais recursos do produto para oferecer aos usuários uma experiência mais inteligente e conveniente.