StabilityAI e o CarperAI Lab apresentam o LLM FreeWilly de código aberto com recursos de raciocínio aprimorados
StabilityAI e a equipe da CarperAI revelaram dois novos Modelos de Linguagem Grande (LLMs) de código aberto chamados FreeWilly1 e FreeWilly2. Esses modelos se destacam no campo dos LLMs devido às suas capacidades de raciocínio aprimoradas.
FreeWilly1 é construído no LLaMA Modelo 65B e passou por ajuste fino com um conjunto de dados gerado sinteticamente. FreeWilly2 é construído no LLaMA 2 70B e apresenta desempenho comparável ao GPT-3.5 para determinadas tarefas. As metodologias de treinamento para esses modelos foram influenciadas por pesquisa da Microsoft, conforme detalhado em seu artigo intitulado “Orca: Progressive Learning from Complex Explanation Traces of GPT-4. " Stability AIA abordagem da Envolvia solicitar modelos de linguagem com instruções de alta qualidade para criar um conjunto de dados contendo 600,000 pontos de dados. Esse tamanho de conjunto de dados é aproximadamente 10% do que foi usado na pesquisa original do Orca. Apesar desse tamanho reduzido do conjunto de dados, os modelos FreeWilly mostraram desempenho excepcional em vários benchmarks.
O processo de geração de dados envolveu a criação de 500,000 casos usando uma modelo LLM e 100,000 casos adicionais com um modelo LLM mais complexo. Para garantir comparações válidas, os conjuntos de dados foram meticulosamente selecionados para remover casos originados de benchmarks de avaliação. A eficácia desse conjunto de dados gerado sinteticamente é evidente no desempenho dos modelos FreeWilly, mesmo que eles tenham sido treinados em um conjunto de dados com apenas um décimo do tamanho do papel original do Orca.
Para a avaliação desses modelos, os pesquisadores empregaram Eleuther AI, complementado com AGIEval. As descobertas indicam que ambos os modelos FreeWilly se destacam ao abordar questões desafiadoras em campos especializados, como direito e matemática. Eles também demonstram um raciocínio intrincado e uma compreensão aguçada das nuances da linguagem. A equipe da CarperAI está otimista com o potencial desses modelos para melhorar nossa compreensão da linguagem falada e está ansiosa para testemunhar suas aplicações inovadoras no campo da inteligência artificial.
Para uma compreensão abrangente do FreeWilly1 e FreeWilly2, o Artigo de referência e página do projeto fornecer insights detalhados.
LLaMa-2: Uma Nova Era em Modelos de Linguagem de Domínio Público
LLaMa-2 é o primeiro modelo de linguagem hoje é de domínio público, abrindo caminho para a evolução contínua e implantação de Large Language Models (LLMs) em vários produtos. Seu antecessor, LLaMa-1, lançou as bases ao inspirar vários projetos impactantes. Com a introdução de LLaMa-2, as perspectivas de utilização em diversas aplicações são ainda maiores, especialmente dada a sua disponibilização para uso comercial gratuito.
Em um diálogo recente com a BBC, Nick Clegg, uma figura notável da Meta, discutiu a decisão de lançar LLMs como código aberto. Segundo Clegg, tal movimento aumenta a segurança desses modelos, principalmente porque facilita pesquisas e análises aprofundadas de entidades externas.
Algumas observações importantes de Clegg incluem:
- LLaMa-2 estabelece um novo padrão de segurança entre os modelos de código aberto. Esta afirmação encontra apoio nos benchmarks mencionados no artigo vinculado.
- Lidando com questões sobre potenciais ameaças existenciais representadas pela IA, Clegg opinou que o discurso pode estar um pouco à frente das capacidades tecnológicas reais. Ele sublinhou que a maioria das preocupações está ligada a modelos hipotéticos de IA ultraavançados – aqueles que possuem inteligência, autonomia e habilidades de autorreplicação incomparáveis. Em total contraste, Clegg descreveu os modelos de código aberto de Meta, incluindo LLaMa-2, como marcadamente rudimentar.
- Embora acredite firmemente na regulamentação da IA, Clegg enfatizou que não é imperativo que todos os modelos de IA sejam de código aberto.
O compromisso da Meta com a transparência e a contribuição para a comunidade em geral é evidente em seu histórico de uma década. Nos últimos dez anos, a empresa disponibilizou mais de 1000 modelos, bibliotecas e conjuntos de dados para uso público. Os lançamentos proeminentes incluem React, PyTorch e os mais recentes 'Segmentar qualquer coisa' modelo.
- Recentemente, o co-fundador da Meta lançou LLaMa-2-Modelos de bate-papo, um avanço significativo na IA de código aberto. Esses modelos, com 70 bilhões de parâmetros, são comparáveis aos GPT-3.5 e superar os benchmarks. Eles são ajustados usando RLHF (Aprendizagem por Reforço a partir de Feedback Humano) e oferecem ChatGPT equivalentes, métricas de avaliação humana e capacidades matemáticas de resolução de problemas. O modelo é o primeiro do seu tamanho a ser ajustado usando RLHF, tornando-o ainda mais notável. A Meta tornou este modelo totalmente gratuito para uso comercial. Uma vantagem significativa LLaMa-2-Chat é o seu potencial para criar ChatGPT análogos sem compartilhar nenhum dado com OpenAI, permitindo que desenvolvedores e pesquisadores aproveitem o poder do modelo enquanto mantêm controle total sobre seus dados.
Leia mais sobre IA:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.