OpenAI lança modelos de áudio para tarefas de voz em tempo real

0
2


Lançamento da API leva a criadora do ChatGPT além da transcrição e chat

Logo da OpenAI em um smartphone
Startup fez lançamento voltado para desenvolvedores – Imagem: Mehaniq/Shutterstock

A OpenAI apresentou, nesta quinta-feira (7), três modelos de áudio para sua plataforma de desenvolvedores, com o objetivo de tornar agentes de software baseados em voz mais conversacionais e capazes de completar tarefas em tempo real.

Continua após a publicidade

O lançamento da interface de programação de aplicações (API, na sigla em inglês) leva a criadora do ChatGPT além da transcrição e chat, direcionando para agentes que podem ouvir, traduzir e agir durante conversas ao vivo.

  • Os novos modelos são GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, disponíveis para teste no playground de desenvolvedores da OpenAI;
  • O GPT-Realtime-2 foi projetado para gerenciar solicitações mais complexas, chamar ferramentas, lidar com interrupções e manter contexto em sessões de voz mais longas;
  • O segundo modelo suporta tradução de mais de 70 idiomas para 13 idiomas de saída, direcionado para suporte ao cliente, educação e outros ambientes;
  • O GPT-Realtime-Whisper fornece conversão de fala para texto ao vivo, permitindo que legendas, notas de reuniões e atualizações de fluxo de trabalho sejam geradas enquanto o palestrante fala.
Ícone do aplicativo ChatGPT exibido na tela de um smartphone
Novos modelos são GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, disponíveis para teste no playground de desenvolvedores da OpenAI – Imagem: Primakov/Shutterstock

Leia mais:

Clientes da OpenAI e preços dos novos modelos

Entre os clientes testando os modelos estão o marketplace imobiliário online Zillow, a agência de viagens online Priceline e a empresa europeia de telecomunicações Deutsche Telekom. Os preços do GPT-Realtime-2 começam em US$ 32 (R$ 158,26) por milhão de tokens de entrada de áudio, o GPT-Realtime-Translate custa US$ 0,034 (R$ 0,17) por minuto e o GPT-Realtime-Whisper US$ 0,017 (R$ 0,084) por minuto.

GPT-Fone? Rumores sobre celular da OpenAI estão aumentando


OpenAI pode estar desenvolvendo seu primeiro produto de hardware: um smartphone voltado ao ChatGPT. De acordo com o analista de cadeia de suprimentos Ming-Chi Kuo, o projeto está sendo acelerado, com previsão de início da produção em massa no começo de 2027.

Leia a matéria completa aqui

Rodrigo Mozelli

Rodrigo Mozelli

Rodrigo Mozelli é jornalista formado pela Universidade Metodista de São Paulo (UMESP) e, atualmente, é redator do Olhar Digital.

Bruno Capozzi

Bruno Capozzi

Bruno Capozzi é jornalista, mestre em Ciências Sociais e editor executivo do OD.


Gostou? Compartilhe!
Ajude mais pessoas a ficarem informadas.



Source link

LEAVE A REPLY

Please enter your comment!
Please enter your name here