GPT-4 Supera o desempenho GPT-3.5 Em geral sobre uma variedade de referências de estudo
Em Breve
A GPT-4 alcançou um limite de nota mais alto do que o GPT-3.5 em uma variedade de benchmarks.
Esta é uma grande conquista, pois mostra que as máquinas não são apenas capazes de inteligência semelhante à humana, mas também podem nos superar, o que levanta questões sobre o futuro da IA e seu potencial impacto no mercado de trabalho.
GPT-4 é significativamente superado por modelos de última geração (SOTA), incluindo aqueles que usam protocolos de treinamento adicionais ou design específico de benchmark, bem como modelos de grande linguagem existentes.
A GPT-4 alcançou pontuações mais altas do que GPT-3.5 em uma variedade de benchmarks. Este é um grande avanço para as máquinas, pois prova que agora elas podem não apenas resolver problemas para os quais foram originalmente projetadas, mas também podem fazê-lo melhor do que os estudantes universitários.
Há algumas coisas a serem levadas em consideração ao analisar esse resultado. Em primeiro lugar, o GPT-4 não recebeu nenhum treinamento específico para esses exames. Prosseguiu usando os testes mais recentes disponíveis ao público (no caso das Olimpíadas e perguntas de resposta gratuita de AP) ou comprando as edições de exames práticos de 2022–2023. Em segundo lugar, é importante notar que o GPT-4O desempenho do pode não refletir necessariamente as habilidades dos participantes humanos, pois opera com base em um conjunto diferente de princípios e algoritmos.
Esta é uma grande conquista, pois isto mostra que as máquinas não são apenas capazes de inteligência semelhante à humana, mas também podem nos superar. Isso abre caminho para um futuro em que as máquinas podem assumir tarefas cada vez mais complexas, levando a um futuro em que elas podem nos ajudar em nossa vida cotidiana.
GPT-4, por exemplo, passa em um exame simulado da ordem com uma pontuação entre os 10% melhores participantes do teste; GPT-3A pontuação de 5 ficou entre os 10% inferiores. Esta melhoria significativa GPT-4O desempenho do é devido aos seus maiores dados de treinamento e arquitetura aprimorada. Espera-se que tenha uma ampla gama de aplicações em vários campos, incluindo processamento de linguagem natural e escrita automatizada.
A maioria dos modelos de ponta (SOTA), incluindo aqueles que podem usar protocolos de treinamento adicionais ou design específico de referência, bem como grandes modelos de linguagem, são significativamente superados por GPT-4.
Internamente, os desenvolvedores têm utilizado GPT-4, que teve um impacto significativo em atividades como programação, vendas, suporte e moderação de conteúdo. A segunda etapa do nosso método de alinhamento está em andamento, à medida que os desenvolvedores o utilizam para ajudar os humanos na revisão dos resultados da IA.
O conjunto de dados MMLU (Massive Multi-Task Language Understanding) contém perguntas de uma ampla gama de tópicos sobre compreensão de linguagem em diferentes tarefas (abrangendo 57 domínios, incluindo matemática, biologia, direito, ciências sociais e humanas, etc.). Existem quatro respostas possíveis para a pergunta, uma das quais está correta. Ou seja, a adivinhação aleatória mostra um resultado de 25% de respostas corretas. Veja na figura abaixo exemplos de questões e suas dificuldades. O marcador de pessoa médio (ou seja, não é um cientista, nem um professor - uma pessoa comum que trabalha como uma marcação) responde corretamente a 35% das perguntas; no entanto, os especialistas podem atingir uma pontuação de +/- 90%.
Originalmente, todo o conjunto de dados estava em inglês. Mas e se as perguntas e respostas forem traduzidas para outros idiomas, especialmente os menos comuns? O modelo funcionará para eles de alguma forma? Neste teste, o serviço Microsoft Azure Translate foi utilizado para tradução. As traduções não são perfeitas; em alguns casos, informações importantes são perdidas. Contudo, mesmo neste caso, o GPT-4 funciona bem em outros idiomas. Nas versões traduzidas do MMLU, GPT-4 supera o nível de inglês de outros grandes modelos (incluindo o do Google) em 24 dos 26 idiomas examinados.
O que mais, GPT-4 tem melhor desempenho em idiomas raros do que ChatGPT fez em inglês (ChatGPT alcançou uma pontuação de 70.1%, enquanto a pontuação do novo modelo para o tailandês foi de 71.8%). A pontuação do teste em inglês foi a mais alta, com GPT-4 desempenho 10% melhor do que outros modelos, incluindo o maior PaLM do Google. Alcançou uma pontuação de 86.4%, enquanto um grupo de especialistas – 90%.
- Até o verão de 2023, a IA pode ter atingido um novo nível de poder graças a ChatGPT, um chatbot que usa o GPT-4 algoritmo e supera GPT-3 por um fator de 570. Uma variedade de elementos contribui para ChatGPTO sucesso da empresa, incluindo seu design para ser mais “semelhante ao humano” e seu uso de mineração de dados de ponta e processamento de linguagem natural para aumentar sua eficácia e precisão.
- Microsoft e OpenAI anunciaram sua renovação de colaboração e planos para que a pesquisa do Bing adote recursos de pesquisa aprimorados por IA em janeiro. O muito sofisticado GPTSubstituição do modelo 3.5, GPT4, acaba de ser lançado, e tem o potencial de aumentar consideravelmente a capacidade de pesquisa do Bing para compreender consultas de linguagem natural e fornecer resultados mais precisos. É uma boa ideia ter um bom plano de backup caso algo dê errado.
Leia mais notícias relacionadas:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.