Relatório de notícias Equipar
15 de março de 2023

GPT-4 Supera o desempenho GPT-3.5 Em geral sobre uma variedade de referências de estudo

Em Breve

A GPT-4 alcançou um limite de nota mais alto do que o GPT-3.5 em uma variedade de benchmarks.

Esta é uma grande conquista, pois mostra que as máquinas não são apenas capazes de inteligência semelhante à humana, mas também podem nos superar, o que levanta questões sobre o futuro da IA ​​e seu potencial impacto no mercado de trabalho.

GPT-4 é significativamente superado por modelos de última geração (SOTA), incluindo aqueles que usam protocolos de treinamento adicionais ou design específico de benchmark, bem como modelos de grande linguagem existentes.

A GPT-4 alcançou pontuações mais altas do que GPT-3.5 em uma variedade de benchmarks. Este é um grande avanço para as máquinas, pois prova que agora elas podem não apenas resolver problemas para os quais foram originalmente projetadas, mas também podem fazê-lo melhor do que os estudantes universitários.

GPT-4 supera GPT-35 em todos os níveis em uma variedade de referências de estudo

Há algumas coisas a serem levadas em consideração ao analisar esse resultado. Em primeiro lugar, o GPT-4 não recebeu nenhum treinamento específico para esses exames. Prosseguiu usando os testes mais recentes disponíveis ao público (no caso das Olimpíadas e perguntas de resposta gratuita de AP) ou comprando as edições de exames práticos de 2022–2023. Em segundo lugar, é importante notar que o GPT-4O desempenho do pode não refletir necessariamente as habilidades dos participantes humanos, pois opera com base em um conjunto diferente de princípios e algoritmos.

Esta é uma grande conquista, pois isto mostra que as máquinas não são apenas capazes de inteligência semelhante à humana, mas também podem nos superar. Isso abre caminho para um futuro em que as máquinas podem assumir tarefas cada vez mais complexas, levando a um futuro em que elas podem nos ajudar em nossa vida cotidiana.

A GPT-4A capacidade de superar os humanos em certas tarefas levanta questões sobre o futuro da inteligência artificial e seu potencial impacto no mercado de trabalho. Também destaca a necessidade de pesquisa e desenvolvimento contínuos neste campo para garantir que a IA seja usada de forma ética e responsável.
Leia mais: 5+ modelos de IA de conversão de texto em imagem mais esperados de 2023

GPT-4, por exemplo, passa em um exame simulado da ordem com uma pontuação entre os 10% melhores participantes do teste; GPT-3A pontuação de 5 ficou entre os 10% inferiores. Esta melhoria significativa GPT-4O desempenho do é devido aos seus maiores dados de treinamento e arquitetura aprimorada. Espera-se que tenha uma ampla gama de aplicações em vários campos, incluindo processamento de linguagem natural e escrita automatizada.

 
GPT-4 exibe desempenho de nível humano na maioria desses exames profissionais e acadêmicos. Notavelmente, ele passou em uma versão simulada do Uniform Bar Examination com uma pontuação entre os 10% melhores participantes do teste. As capacidades do modelo nos exames parecem resultar principalmente do processo de pré-formação e não são significativamente afetadas pelo RLHF. Em questões de múltipla escolha, tanto a base GPT-4 o modelo e o modelo RLHF tiveram desempenho igualmente bom, em média, entre os desenvolvedores do exame testado.

A maioria dos modelos de ponta (SOTA), incluindo aqueles que podem usar protocolos de treinamento adicionais ou design específico de referência, bem como grandes modelos de linguagem, são significativamente superados por GPT-4.

GPT-4desempenho em termos de padrões acadêmicos. Contraste dos desenvolvedores GPT-4 com o melhor SOTA para algumas fotos avaliadas por LM, bem como o melhor SOTA com treinamento específico de benchmark. Com exceção do DROP, GPT-4 supera todos os LMs atuais em todos os benchmarks e SOTA com treinamento específico de benchmark.

Internamente, os desenvolvedores têm utilizado GPT-4, que teve um impacto significativo em atividades como programação, vendas, suporte e moderação de conteúdo. A segunda etapa do nosso método de alinhamento está em andamento, à medida que os desenvolvedores o utilizam para ajudar os humanos na revisão dos resultados da IA.

O conjunto de dados MMLU (Massive Multi-Task Language Understanding) contém perguntas de uma ampla gama de tópicos sobre compreensão de linguagem em diferentes tarefas (abrangendo 57 domínios, incluindo matemática, biologia, direito, ciências sociais e humanas, etc.). Existem quatro respostas possíveis para a pergunta, uma das quais está correta. Ou seja, a adivinhação aleatória mostra um resultado de 25% de respostas corretas. Veja na figura abaixo exemplos de questões e suas dificuldades. O marcador de pessoa médio (ou seja, não é um cientista, nem um professor - uma pessoa comum que trabalha como uma marcação) responde corretamente a 35% das perguntas; no entanto, os especialistas podem atingir uma pontuação de +/- 90%.

Performance de GPT-4 em vários idiomas em comparação com modelos anteriores em inglês no MMLU. GPT-4 excede o desempenho da língua inglesa dos modelos linguísticos existentes para a grande maioria das línguas examinadas, incluindo línguas de poucos recursos, como o letão, o galês e o suaíli.
Leia mais: 5 razões para usar o Bing com inteligência artificial sobre o Google

Originalmente, todo o conjunto de dados estava em inglês. Mas e se as perguntas e respostas forem traduzidas para outros idiomas, especialmente os menos comuns? O modelo funcionará para eles de alguma forma? Neste teste, o serviço Microsoft Azure Translate foi utilizado para tradução. As traduções não são perfeitas; em alguns casos, informações importantes são perdidas. Contudo, mesmo neste caso, o GPT-4 funciona bem em outros idiomas. Nas versões traduzidas do MMLU, GPT-4 supera o nível de inglês de outros grandes modelos (incluindo o do Google) em 24 dos 26 idiomas examinados.

O que mais, GPT-4 tem melhor desempenho em idiomas raros do que ChatGPT fez em inglês (ChatGPT alcançou uma pontuação de 70.1%, enquanto a pontuação do novo modelo para o tailandês foi de 71.8%). A pontuação do teste em inglês foi a mais alta, com GPT-4 desempenho 10% melhor do que outros modelos, incluindo o maior PaLM do Google. Alcançou uma pontuação de 86.4%, enquanto um grupo de especialistas – 90%.

  • Até o verão de 2023, a IA pode ter atingido um novo nível de poder graças a ChatGPT, um chatbot que usa o GPT-4 algoritmo e supera GPT-3 por um fator de 570. Uma variedade de elementos contribui para ChatGPTO sucesso da empresa, incluindo seu design para ser mais “semelhante ao humano” e seu uso de mineração de dados de ponta e processamento de linguagem natural para aumentar sua eficácia e precisão.
  • Microsoft e OpenAI anunciaram sua renovação de colaboração e planos para que a pesquisa do Bing adote recursos de pesquisa aprimorados por IA em janeiro. O muito sofisticado GPTSubstituição do modelo 3.5, GPT4, acaba de ser lançado, e tem o potencial de aumentar consideravelmente a capacidade de pesquisa do Bing para compreender consultas de linguagem natural e fornecer resultados mais precisos. É uma boa ideia ter um bom plano de backup caso algo dê errado.

Leia mais notícias relacionadas:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
Injective une forças com AltLayer para trazer segurança de restabelecimento para inEVM
O negócio Relatório de notícias Equipar
Injective une forças com AltLayer para trazer segurança de restabelecimento para inEVM
3 de maio de 2024
Masa se une ao Teller para introduzir o pool de empréstimos MASA, permitindo empréstimos em USDC na base
Mercados Relatório de notícias Equipar
Masa se une ao Teller para introduzir o pool de empréstimos MASA, permitindo empréstimos em USDC na base
3 de maio de 2024
Velodrome lança versão beta do Superchain nas próximas semanas e se expande para blockchains OP Stack Layer 2
Mercados Relatório de notícias Equipar
Velodrome lança versão beta do Superchain nas próximas semanas e se expande para blockchains OP Stack Layer 2
3 de maio de 2024
CARV anuncia parceria com Aethir para descentralizar sua camada de dados e distribuir recompensas
O negócio Relatório de notícias Equipar
CARV anuncia parceria com Aethir para descentralizar sua camada de dados e distribuir recompensas
3 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.