OpenAI Anuncia Evals, uma estrutura de software de código aberto para avaliar modelos de IA
Em Breve
OpenAI espera obter benchmarks de crowdsourcing para avaliar modelos de IA como GPT-4.
A empresa de processamento de pagamentos Stripe já usou o Evals para medir a precisão de seus GPTferramenta de documentação avançada.
OpenAI estará concedendo GPT-4 acesso por tempo limitado para aqueles que contribuem com avaliações de alta qualidade.
Ao lado do anúncio de GPT-4, OpenAI anunciou a estrutura de software de código aberto OpenAI Avaliações. Esta ferramenta foi projetada para criar e executar benchmarks que avaliam o desempenho de modelos como GPT-4. Com Evas, OpenAI espera obter benchmarks de crowdsourcing para testes de modelos de IA.
“Usamos Evals para orientar o desenvolvimento de nossos modelos (identificando deficiências e prevenindo regressões), e nossos usuários podem aplicá-lo para rastrear o desempenho nas versões do modelo (que agora serão lançadas regularmente) e desenvolver integrações de produtos”, explica a empresa em a no blog.
A Stripe, uma popular empresa de processamento de pagamentos, já usou o Evals para complementar suas avaliações humanas e medir a precisão de suas GPTferramenta de documentação avançada.
Os desenvolvedores podem usar Evals para criar e executar avaliações que:
- Use conjuntos de dados para gerar prompts,
- Medir a qualidade das conclusões fornecidas por um OpenAI modelo e
- Compare o desempenho em diferentes conjuntos de dados e modelos.
Com o código-fonte aberto, os desenvolvedores também podem escrever e adicionar um avaliação personalizada assim como vários modelos que podem acomodar diferentes benchmarks. A empresa incluiu modelos que foram mais úteis internamente, incluindo um modelo para “avaliações avaliadas por modelo”, que GPT-4 pode usar para verificar seu próprio trabalho. Como exemplo a seguir, a empresa criou uma avaliação de quebra-cabeças lógicos contendo dez prompts onde GPT-4 falha.
Evals também é compatível com a implementação de benchmarks existentes, incluindo vários notebooks implementando benchmarks acadêmicos e algumas variações de integração de pequenos subconjuntos de CoQA.
Embora os desenvolvedores não sejam pagos para contribuir com avaliações, OpenAI estará concedendo GPT-4 acesso por tempo limitado para aqueles que contribuem com “avaliações de alta qualidade”.
O anúncio de Evals vem depois OpenAI disse recentemente ela pararia de usar os dados enviados pelos clientes por meio de sua API para treinar ou melhorar seus modelos, a menos que os clientes decidissem aceitá-los. -modelos de arte” por sua Banco Dyna plataforma.
Leia mais:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Cindy é jornalista da Metaverse Post, abordando temas relacionados web3, NFT, metaverso e IA, com foco em entrevistas com Web3 players da indústria. Ela conversou com mais de 30 executivos de nível C e continua aumentando, trazendo seus valiosos insights aos leitores. Originária de Cingapura, Cindy agora mora em Tbilisi, na Geórgia. Ela é bacharel em Estudos de Comunicação e Mídia pela University of South Australia e tem uma década de experiência em jornalismo e redação. Entre em contato com ela através [email protegido] com arremessos de imprensa, anúncios e oportunidades de entrevista.
Mais artigosCindy é jornalista da Metaverse Post, abordando temas relacionados web3, NFT, metaverso e IA, com foco em entrevistas com Web3 players da indústria. Ela conversou com mais de 30 executivos de nível C e continua aumentando, trazendo seus valiosos insights aos leitores. Originária de Cingapura, Cindy agora mora em Tbilisi, na Geórgia. Ela é bacharel em Estudos de Comunicação e Mídia pela University of South Australia e tem uma década de experiência em jornalismo e redação. Entre em contato com ela através [email protegido] com arremessos de imprensa, anúncios e oportunidades de entrevista.