Estão preparados? GPT-4o: ChatGPT evolui e fica mais rápido para ouvir, conversar e descrever objetos

4 Min

Por Carol Affonso - Comunicação Estratégica para Instagram

14/05/2024 15h56 - Atualizado em 14/05/2024 às 15h56

Estão preparados? GPT-4o: ChatGPT evolui e fica mais rápido para ouvir, conversar e descrever objetos

Joaquin Phoenix no filme “Ela” - Foto: Divulgação

Atualização será liberada gratuitamente para todos os usuários, diz a desenvolvedora OpenAI. Nas redes, usuários comparam a novidade com “Her”, filme em que um homem se apaixona por um robô conversador

Trata-se da nova versão do modelo de inteligência artificial (IA) usado pelo robô conversador que ganhou fama nos últimos tempos.

É o primeiro modelo da OpenAI criado para combinar textos, imagens e áudios em tempo real por conta própria. Segundo a empresa, o GPT-4o tem mais capacidade para entender esses conteúdos do que seu antecessor, o GPT-4, lançado em março de 2023 e que é pago. A atualização será liberada gradualmente, para todos os usuários, inclusive quem está na versão gratuita.

O que muda, na prática?
A promessa é que vai dar para falar e mostrar coisas para o robô e ter respostas numa velocidade mais parecida com a de uma conversa com pessoas, em vez de apenas digitar o que você quer saber ou pedir.
Nas redes sociais, usuários compararam a nova versão com a assistente virtual do filme "Ela" ("Her", no título original), em que o protagonista se apaixona por um sistema operacional. A reação chegou a Altman, que postou o nome do filme em seu perfil no X (antigo Twitter).

Para demonstrar, a OpenAI divulgou o vídeo em que uma pessoa pede para o ChatGPT avaliar sua roupa para uma entrevista de emprego. Em outro teste, ele foi usado para criar uma música. Até então, o ChatGPT seguia várias etapas para analisar e responder comandos de voz.

Primeiro, era preciso usar um modelo para converter o áudio para texto. Depois, o GPT-3.5 ou o GPT-4 interpretava o conteúdo e criava uma resposta. Por fim, outro modelo transformava o material de volta para áudio. Segundo a OpenAI, o GPT-4o leva, em média, 320 milissegundos para responder comandos de áudio - o tempo mínimo foi de 232 milissegundos. A empresa diz que ele é muito mais veloz que os modelos antecessores: em média, o GPT-3.5 leva 2,8 segundos e o GPT-4, que é pago, toma 5,4 segundos.

"Com o GPT-4o, treinamos um único modelo de ponta a ponta em texto, visão e áudio, o que significa que todas as entradas e saídas são processadas pela mesma rede neural", disse a OpenAI, em comunicado.
O presidente-executivo da OpenAI, Sam Altman, afirmou que este é o melhor modelo já criado pela empresa. "É inteligente, é rápido, é nativamente multimodal", disse. A empresa também anunciou um aplicativo do ChatGPT para computador, que se junta à versão para navegadores e ao aplicativo para Android e iOS.

Quando o GPT-4o será liberado?
A OpenAI informou que começou a liberar nesta segunda-feira os recursos de texto e foto do GPT-4o. Eles também estão disponíveis para desenvolvedores usarem as funcionalidades em seus próprios aplicativos. Usuários da versão gratuita poderão usá-lo com um limite de mensagens que não foi informado, enquanto assinantes do ChatGPT Plus terão um limite maior. O uso do GPT-4o com comandos de voz será liberado nas próximas semanas para quem paga pelo ChatGPT Plus.

A empresa não revelou quando os recursos de vídeos chegarão para todos os usuários, mas informou que eles chegarão primeiro para um grupo restrito de desenvolvedores parceiros.

O novo modelo da tecnologia é chamado de "40" por abreviação da palavra "oni", que refere-se a capacidade de se adaptar a diferentes modelos de linguagem. O ChatGPT-4o promete ter um desempenho para receber mensagens 5 vezes maiores em comparação à versão anterior.

*O Brand-News não se responsabiliza por artigos assinados por nossos colaboradores

FONTE: @carolonlline