AlphaZero da DeepMind aprende algoritmos de classificação eficientes na otimização de redes neurais
Em Breve
O AlphaZero da DeepMind aprende algoritmos de classificação eficientes jogando um jogo de classificação usando técnicas de aprendizado por reforço.
A DeepMind mais uma vez fez um avanço no aprendizado de máquina. Seguindo seu sucesso no uso de aprendizado por reforço (RL) para ensinar o AlphaZero de forma mais eficiente algoritmos de multiplicação de matrizes, eles agora voltaram sua atenção para algoritmos de classificação, com resultados promissores.
A classificação é uma operação fundamental usada em vários programas de computador. A eficiência da ordenação de matrizes, realizando a tarefa no menor número possível de operações, é de grande importância. Tradicionalmente, os pesquisadores desenvolveram vários algoritmos de classificação eficientes para diferentes cenários com base em tamanhos de array e características de dados. No entanto, a DeepMind decidiu explorar uma nova abordagem: ensinar um rede neural para resolver esse problema.
Para conseguir isso, DeepMind introduziu a tarefa de classificar uma matriz como um jogo para AlphaZero. Por meio de técnicas de RL, eles treinaram o AlphaZero para jogar esse jogo de classificação. O modelo resultante, conhecido como AlphaDev, apresentou recursos notáveis no aprendizado de algoritmos de classificação eficientes.
O jogo de ordenação opera representando o estado do ambiente como um par, onde P denota o algoritmo de ordenação atual gerado em linguagem assembly e Z representa o estado da memória e dos registradores. A cada intervalo de tempo, o agente AlphaZero toma o estado atual como entrada e executa uma ação, que envolve a adição de uma nova instrução ao algoritmo da linguagem assembler, como mov.
Passo a passo, o AlphaZero constrói o algoritmo de ordenação final em linguagem assembly. A recompensa do modelo em cada etapa é determinada por dois fatores: a correção do algoritmo obtido e sua latência. A correção é avaliada com base em pré-defiPares de entrada-saída definidos, onde a entrada representa uma matriz não classificada e a saída representa a mesma matriz, mas classificada.
O processo de geração do algoritmo de classificação continua por um número predeterminado de etapas. Se um algoritmo de trabalho final não for obtido dentro desse prazo, o processo de geração começa de novo.
O modelo treinado foi encarregado de produzir algoritmos de classificação para sequências de comprimento 3, 4 e 5. Vale a pena observar que existem dois tipos de algoritmos de classificação: classificação fixa, que classifica matrizes de comprimento específico e classificação variável, que pode manipular matrizes de diferentes comprimentos. Em ambos os casos, o AlphaZero superou os algoritmos existentes comumente usados em programas. O AlphaZero obteve melhorias na classificação de arrays de comprimento 3 e 5 para classificação fixa e descobriu uma abordagem intrigante para classificar arrays de comprimento 4 para classificação variável.
Para uma compreensão mais abrangente dos algoritmos de classificação descobertos pelo AlphaDev, consulte o artigo da Nature intitulado “AlphaDev: AlphaZero's Journey into Efficient Sorting Algorithms”.
Leia mais sobre IA:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.