Relatório de notícias Equipar
16 de março de 2023

OpenAI Anuncia Evals, uma estrutura de software de código aberto para avaliar modelos de IA

Em Breve

OpenAI espera obter benchmarks de crowdsourcing para avaliar modelos de IA como GPT-4.

A empresa de processamento de pagamentos Stripe já usou o Evals para medir a precisão de seus GPTferramenta de documentação avançada.

OpenAI estará concedendo GPT-4 acesso por tempo limitado para aqueles que contribuem com avaliações de alta qualidade.

OpenAI Anuncia Evals, uma estrutura de software de código aberto para avaliar modelos de IA

Ao lado do anúncio de GPT-4, OpenAI anunciou a estrutura de software de código aberto OpenAI Avaliações. Esta ferramenta foi projetada para criar e executar benchmarks que avaliam o desempenho de modelos como GPT-4. Com Evas, OpenAI espera obter benchmarks de crowdsourcing para testes de modelos de IA. 

“Usamos Evals para orientar o desenvolvimento de nossos modelos (identificando deficiências e prevenindo regressões), e nossos usuários podem aplicá-lo para rastrear o desempenho nas versões do modelo (que agora serão lançadas regularmente) e desenvolver integrações de produtos”, explica a empresa em a no blog.

A Stripe, uma popular empresa de processamento de pagamentos, já usou o Evals para complementar suas avaliações humanas e medir a precisão de suas GPTferramenta de documentação avançada.

Os desenvolvedores podem usar Evals para criar e executar avaliações que:

  • Use conjuntos de dados para gerar prompts,
  • Medir a qualidade das conclusões fornecidas por um OpenAI modelo e
  • Compare o desempenho em diferentes conjuntos de dados e modelos.

Com o código-fonte aberto, os desenvolvedores também podem escrever e adicionar um avaliação personalizada assim como vários modelos que podem acomodar diferentes benchmarks. A empresa incluiu modelos que foram mais úteis internamente, incluindo um modelo para “avaliações avaliadas por modelo”, que GPT-4 pode usar para verificar seu próprio trabalho. Como exemplo a seguir, a empresa criou uma avaliação de quebra-cabeças lógicos contendo dez prompts onde GPT-4 falha.

Evals também é compatível com a implementação de benchmarks existentes, incluindo vários notebooks implementando benchmarks acadêmicos e algumas variações de integração de pequenos subconjuntos de CoQA.

Embora os desenvolvedores não sejam pagos para contribuir com avaliações, OpenAI estará concedendo GPT-4 acesso por tempo limitado para aqueles que contribuem com “avaliações de alta qualidade”. 

O anúncio de Evals vem depois OpenAI disse recentemente ela pararia de usar os dados enviados pelos clientes por meio de sua API para treinar ou melhorar seus modelos, a menos que os clientes decidissem aceitá-los. -modelos de arte” por sua Banco Dyna plataforma.

Leia mais:

Tags:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Cindy é jornalista da Metaverse Post, abordando temas relacionados web3, NFT, metaverso e IA, com foco em entrevistas com Web3 players da indústria. Ela conversou com mais de 30 executivos de nível C e continua aumentando, trazendo seus valiosos insights aos leitores. Originária de Cingapura, Cindy agora mora em Tbilisi, na Geórgia. Ela é bacharel em Estudos de Comunicação e Mídia pela University of South Australia e tem uma década de experiência em jornalismo e redação. Entre em contato com ela através [email protegido] com arremessos de imprensa, anúncios e oportunidades de entrevista.

Mais artigos
Cindy Tan
Cindy Tan

Cindy é jornalista da Metaverse Post, abordando temas relacionados web3, NFT, metaverso e IA, com foco em entrevistas com Web3 players da indústria. Ela conversou com mais de 30 executivos de nível C e continua aumentando, trazendo seus valiosos insights aos leitores. Originária de Cingapura, Cindy agora mora em Tbilisi, na Geórgia. Ela é bacharel em Estudos de Comunicação e Mídia pela University of South Australia e tem uma década de experiência em jornalismo e redação. Entre em contato com ela através [email protegido] com arremessos de imprensa, anúncios e oportunidades de entrevista.

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

O frenesi DOGE: analisando o recente aumento de valor do Dogecoin (DOGE)

A indústria de criptomoedas está se expandindo rapidamente e as moedas meme estão se preparando para um aumento significativo. Dogecoin (DOGE), ...

Saber Mais

A evolução do conteúdo gerado por IA no metaverso

O surgimento de conteúdo generativo de IA é um dos desenvolvimentos mais fascinantes dentro do ambiente virtual...

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
As principais ofertas desta semana, grandes investimentos em IA, TI, Web3e criptografia (22-26.04)
Digerir O negócio Mercados Equipar
As principais ofertas desta semana, grandes investimentos em IA, TI, Web3e criptografia (22-26.04)
26 de abril de 2024
Vitalik Buterin comenta sobre centralização do PoW, observa que era um estágio temporário até o PoS
Relatório de notícias Equipar
Vitalik Buterin comenta sobre centralização do PoW, observa que era um estágio temporário até o PoS
26 de abril de 2024
Offchain Labs revela descoberta de duas vulnerabilidades críticas nas provas de fraude do OP Stack do Optimism
Relatório de notícias Software Equipar
Offchain Labs revela descoberta de duas vulnerabilidades críticas nas provas de fraude do OP Stack do Optimism
26 de abril de 2024
Mercado aberto da Dymension para aumentar a liquidez da RollApps eIBC é lançado na rede principal
Relatório de notícias Equipar
Mercado aberto da Dymension para aumentar a liquidez da RollApps eIBC é lançado na rede principal 
26 de abril de 2024
CRYPTOMERIA LABS PTE. LTDA.