Amplificadores de versão DALL-E 3 OpenAIInfluência, Saindo Midjourney e Stable Diffusion Atrás
Em Breve
O DALL-E 3 está configurado para ser perfeitamente integrado com GPT-4, adaptado especificamente para ChatGPT+ assinantes.
O DALL-E 3 evita recriar imagens de figuras públicas quando seus nomes são mencionados explicitamente.
O cronograma de acesso ao DALL-E 3 está definido para outubro.
OpenAI revelou sua última criação: DALL-E3. Ao contrário dos seus antecessores, o DALL-E 3 concentra-se em refinar as minúcias, abordando questões como letras e detalhes intrincados do corpo, como os dedos. O resultado? Uma variedade de imagens esteticamente agradáveis, sem a necessidade de instruções complexas ou soluções alternativas.
É importante observar que esta versão não vem com um conjunto abrangente de detalhes de implementação, artigos ou APIs. Em vez disso, o DALL-E 3 está configurado para ser perfeitamente integrado com GPT-4, adaptado especificamente para ChatGPT+ assinantes.
Este desenvolvimento pode não ser uma mudança sísmica no panorama da IA, mas sim um passo em frente na colaboração entre modelos. Muitos antecipam que o próximo Stable Diffusion modelo oferecerá ainda maior sofisticação e apelo artístico.
Para colocá-lo em contexto, OpenAIA jornada de através da geração de imagens de IA tem sido uma jornada e tanto:
- 2021: O DALL-E 1, um modelo de 12 bilhões de parâmetros, foi introduzido com informações limitadas.
- 2021: GLIDE, um modelo de 2 bilhões de parâmetros, foi revelado junto com modelos de código aberto de 300 milhões de parâmetros.
- 2022: Chegou o DALL-E 2, ostentando 2 bilhões de parâmetros, acompanhado de um papel unCLIP e API.
- 2023: O DALL-E 3 fez sua entrada e, embora os detalhes possam ser um tanto enigmáticos, uma coisa é certa: ele se integrará com GPT-4 para ChatGPT+ assinantes.
No momento, os recursos visuais do DALL-E 3 permanecem um tanto escassos. Não há base de código, postagem de blog ou comparação detalhada com o estado da arte (SOTA). OpenAI parece estar mantendo as cartas fechadas.
O modelo é apresentado por possuir uma compreensão mais profunda das nuances e detalhes em comparação com seus antecessores. Isso significa que traduzir seus conceitos criativos em imagens altamente precisas será um processo mais tranquilo.
Uma promessa intrigante do DALL-E 3 é a sua integração com ChatGPT. Isso implica que os usuários não precisarão se preocupar com a elaboração de prompts complexos; uma breve descrição deve ser suficiente, com ChatGPT gerando habilmente avisos detalhados em seu nome.
OpenAI também enfatizou a importância do contexto em solicitações longas. O DALL-E 3 foi projetado para abraçar a verbosidade, tornando-o mais sintonizado com o contexto descrito em prompts extensos.
No entanto, como acontece com qualquer novo modelo de IA, existe um elemento de desconhecido. Embora os vislumbres iniciais pareçam promissores, o verdadeiro teste decisivo virá com o uso prolongado. Persistem dúvidas sobre sua eficiência e velocidade de operação.
É provável que o DALL-E 3 seja um processo de difusão em vários estágios, com GPT-4 servindo como codificador de texto. A intrincada mecânica desta configuração pode permanecer envolta em segredo.
O cronograma de acesso ao DALL-E 3 está previsto para outubro, inicialmente para ChatGPT Mais e ChatGPT Usuário corporativos, com possibilidade de acesso mais amplo para pesquisadores posteriormente.
nuances e Censura de DALL-E 3
O principal ponto focal do desenvolvimento do DALL-E 3 foi o processo meticuloso de limitar suas capacidades. Isso envolveu alinhamento rigoroso e filtros projetados para excluir tipos específicos de conteúdo. Por exemplo, o modelo se recusa veementemente a gerar imagens de personalidades famosas, replicar obras de arte no estilo de artistas renomados ou criar qualquer conteúdo considerado inseguro por OpenAIpadrões exigentes. Esta abordagem estratégica não envolve apenas limitações; é uma medida proativa que visa proteger a empresa de possíveis complicações legais.
No entanto, para além destes filtros e alinhamentos, algumas observações intrigantes vêm à luz. O DALL-E 3 parece apresentar uma certa fraqueza quando se trata de gerar conteúdo fotorrealista. Em vez de produzir imagens que imitam fotografias reais perfeitamente, a saída traz uma qualidade estilizada distinta. Essas imagens criadas por IA exalam uma aparência quase renderizada e levemente plástica. Mesmo quando explicitamente solicitado pela palavra “fotografia”, o resultado permanece enraizado em sua estilização característica.
Vale a pena notar que, apesar destas idiossincrasias, o DALL-E 3 oferece um vislumbre de um potencial notável. Entre suas criações, alguns exemplares apresentam notável semelhança com fotografias. Ter em mente que o realismo simulado dessas imagens não se alinha necessariamente com a aparência de uma fotografia genuína do mesmo assunto, especialmente se submersa na água.
Relacionado: A Microsoft lançou o Designer, a primeira ferramenta profissional de conversão de texto em imagem baseada no DALL-E 2 |
Recursos e detalhes do DALL-E 3
Vamos examinar os pixels e ler nas entrelinhas para entender o que esse novo modelo realmente oferece.
A arte da estilização: Olhando através OpenAIconta do Instagram de, você notará uma abundância de obras de arte caracterizadas por uma estilização requintada. Embora haja uma variedade impressionante de composições e designs abstratos, o modelo parece evitar a produção de conteúdo fotorrealista. A ênfase aqui está na estética e na criatividade, não na imitação da realidade.
Restrições Artísticas: DALL-E 3 segue um caminho diferente de seu antecessor. Recusa-se veementemente a criar imagens no estilo de artistas vivos, um afastamento total do DALL-E 2, que poderia imitar o estilo de certos artistas. Isto pode levantar suspeitas na comunidade criativa, semelhante à recepção morna de Stable Diffusion 2.0.
Capacitando Artistas: Num movimento para respeitar os direitos dos artistas, OpenAI permite que os artistas excluam seus trabalhos de versões futuras do DALL-E. Ao enviar uma imagem da qual detêm os direitos, os artistas podem solicitar sua exclusão da produção do modelo. Futuras iterações do DALL-E evitarão a geração de conteúdo semelhante ao estilo do artista.
Segurança e Censura: OpenAIA paranóia do governo em relação à segurança é palpável. Eles colaboraram com “equipes vermelhas” externas para testar a segurança do modelo e empregaram classificadores de entrada para ensinar o modelo a ignorar palavras específicas que poderiam levar a conteúdo explícito ou prejudicial. DALL-E 3 se abstém de recriar imagens de figuras públicas quando seus nomes são explicitamente mencionados. Ainda não se sabe se as celebridades se enquadram nesta categoria, impactando potencialmente a qualidade dos rostos gerados.
Marcas d'água e rastreamento: há uma sugestão de incorporação de tags para rastrear “imagens geradas por IA”, indicando um movimento em direção a um melhor monitoramento e potencialmente marcas d’água no conteúdo gerado.
Texto e mãos melhorados: OpenAI apregoa melhor geração de texto e renderização manual, uma reivindicação comum entre os concorrentes. O verdadeiro teste está no resultado real, além dos exemplos escolhidos a dedo.
Compreensão Espacial: DALL-E 3 se destaca na compreensão das relações espaciais descritas nos prompts. Isto aumenta a capacidade do modelo de construir ângulos e composições complexas, embora os usuários aguardem evidências mais concretas desta promessa.
O poder dos prompts: O cerne da DALL-E3 reside em suas capacidades imediatas e integração com ChatGPT. Ele promete automação, velocidade e simplificação do design imediato. A tendência aqui é para chatGPT gerando prompts, traduzindo ideias vagas ou sugestões rudimentares em ideias eloquentes. A compreensão contextual aprimorada do DALL-E 3 agiliza o processo, permitindo que os usuários se concentrem na intenção e não na verbosidade.
Territórios Desconhecidos: Notavelmente ausentes da discussão estão aspectos como pintura interna, pintura externa, preenchimento generativo e modelagem 3D. A ausência desses recursos pode ser uma limitação, principalmente para usuários acostumados com modelos mais versáteis.
Detalhes de acesso: DALL-E 3 está configurado para ficar disponível para ChatGPT Clientes Plus e Enterprise no início de outubro. No entanto, as especificidades relativas à atribuição de créditos para ChatGPT Além disso, os usuários e os custos associados permanecem obscuros. O acesso será fornecido através da API e do OpenAI Plataforma Labs “no final do outono”.
Capacidade de integração: O DALL-E está configurado para ser perfeitamente integrado aos produtos de parceiros e da Microsoft. Espere testemunhar a geração de apresentações, ilustrações, designs, logotipos, tudo em contexto e ampliado com a ajuda de ChatGPT. Esta integração deverá tornar-se generalizada, representando um desafio significativo para concorrentes como Google com seu Bardo e Ideograma.
A convergência de LLM e conteúdo visual: O aspecto mais intrigante reside na convergência de Large Language Models (LLMs) e modelos de geração de conteúdo visual. Significa uma mudança da engenharia complexa e imediata para a expressão de ideias em uma linguagem mais acessível. A IA recolherá contexto e ideias destas expressões, oferecendo possibilidades criativas difíceis de resistir.
Relacionado: Os 50 principais prompts de conversão de texto em imagem para geradores de arte de IA Midjourney e DALL-E |
DALL-E 3: Seja um novo líder na geração de imagens de IA
OpenAIdecisão de integrar o DALL-E 3 no ChatGPT ecossistema é um movimento estratégico. Esta integração concede ao DALL-E 3 acesso a um vasto banco de dados de 100 milhões de usuários ativos. Esta etapa melhora significativamente a acessibilidade do DALL-E 3 e tem o potencial de catapultar a sua popularidade.
Atualmente, Midjourney e Stable Diffusion gabar-se 15 milhões de usuários registrados. No entanto, com esta integração, o DALL-E 3 deverá obter acesso a uma base de usuários dez vezes maior – 100 milhões de usuários. Isso faz com que ChatGPT Mais assinatura planejar ainda mais atraente, pois oferece acesso a chatbot, ferramentas analíticas e geração de imagens, tudo a um preço acessível.
A integração não é apenas vantajosa para os usuários existentes, mas também serve como um poderoso ímã para novos usuários. Ele expande o OpenAI alcance e popularidade do ecossistema, atraindo indivíduos que buscam soluções de conteúdo geradas por IA.
Este movimento estratégico está preparado para impulsionar OpenAIreceita e outras métricas importantes. Os investidores da empresa provavelmente verão este desenvolvimento de forma favorável, especialmente à luz de um recente Queda de 20% no volume de tráfego durante o verão.
Leia mais tópicos relacionados:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.