Dall-E 3 vs. Midjourney: Uma grande comparação dos geradores de arte de IA mais avançados
Junte-se a nós nesta jornada emocionante enquanto exploramos Dall-E 3 e Midjourneysutilezas, complexidades e potencial inexplorado. Este artigo destaca as comparações mais intrigantes baseadas em pesquisas feitas pelo entusiasta de IA Atachkina; se você estiver interessado em saber mais, clique no link.
Dicas Pro |
---|
1. Descubra o Os 50 principais prompts de texto para imagem para geradores de arte AI Midjourney e DALL-E. |
2. Desperte sua criatividade com o Os 20 principais geradores de arte de texto em imagem de IA de 2023. |
Este artigo fornece um prompt de texto para imagem, uma imagem que mostra os resultados do Dall-E 3 e Midjourneye uma explicação das diferenças entre os dois geradores de arte. Vamos começar.
Ambas as redes neurais tiveram um desempenho admirável neste caso, com o Midjourney superando ligeiramente os outros.
Dall-E 3 fez um trabalho muito pior aqui; obteve as cores vivas dos estilos, mas não a clareza dos detalhes; corpos deformados apareceram ao fundo e os rostos não tiveram nenhum sucesso.
Acabou sendo interessante em ambos os lugares, mas Dall-E 3 mais uma vez lutou com os rostos. Em vez disso, fez uma bolsa bege de pelúcia conforme as instruções do prompt, e Midjourney desconsiderou isso. Neste caso, Dall-E 3 foi muito obediente ao cumprir a instrução.
E mais uma vez, embora ambas as grades façam excelentes colagens, o Dall-E 3 é mais fiel ao prompt; adicionou apenas os heróis que especificamos, não poderia virar curinga e cruzou o capitão com o Batman.
Midjourney foi capaz de combinar os respectivos estilos dos dois artistas desde o início, enquanto Dall-E 3 apenas adicionou muitos detalhes interessantes e cores brilhantes ao fundo.
Mais uma vez, os gatos estão em sua melhor forma e ambas as redes neurais compreendem perfeitamente as câmeras de filme. No entanto, o Dall-E 3 ainda adiciona granulação às imagens.
Dall-E 3 criou um jovem Leonardo DiCaprio com texturas legais de suéter, adicionou granulação de filme e esquema de cores e refletiu de maneira muito legal a sensação de uma dacha russa. Midjourney foi um bom refletor de cores para o filme, e DiCaprio deu a ela uma aparência mais madura.
Embora ambos redes neurais são adeptos da criação de colagens, se você olhar de perto, Midjourney distorce rostos e alguns formatos de objetos, enquanto Dall-E 3 é mais preciso na execução dos próprios personagens — acabou sendo até Chewbacca.
Ao ampliar as fotos, você notará que Dall-E 3 está com os olhos embaçados; Midjourney, por outro lado, é impecável. Dall-E 3 também prescreveu uma marca; as cobras nas cabeças parecem mais vivas e em movimento; Midjourney sempre os fazia deitados, e não de cabeça.
Ambos são legais, mas Midjourney considerou o estilo do artista, bem como o efeito de uma câmera de filme, enquanto Dall-E 3 ignorou o plano completo e não o considerou.
Também tomamos a decisão de testar uma foto com fadas, mas Dall-E 3 recusou-se obstinadamente a cooperar. Midjourney não ignorou as asas porque a referência com asas foi adicionada. Quando Dall-E 3 tirou uma foto, ofereceu algumas possibilidades intrigantes, mas com uma mulher americana.
Midjourney fez um trabalho fantástico, mas queremos chamar atenção especial para como Dall-E 3 criou os efeitos de filme na imagem superior direita e adicionou sua própria caligrafia branca; ficou ótimo.
Dall-E 3 foi capaz de reunir obedientemente todos os heróis do prompt em uma imagem mais uma vez. Midjourney tentei muito e até cheguei perto de ter sucesso.
À primeira vista, parece que ambos são bons, mas uma inspeção mais detalhada revela que o Dall-E 3 carece de volume fotorrealista e que Midjourney manipulou as juntas com garfos com força.
Ambos os geradores são proficientes em seus respectivos campos, com Dall-E 3 se destacando em texto e Midjourney destacando-se em fotorrealismo.
A física e a geometria dos secadores de cabelo são difíceis para Midjourney. Você pode gastar muito tempo lutando com tentativas e referências e, ocasionalmente, os resultados lembram um secador de cabelo, mas Dall-E 3 produziu um resultado aceitável na primeira tentativa e até escreveu o texto.
O único olho é bom, mas isso é outra história. Em Midjourney, escrevemos uma mensagem negativa – sem desenho animado, ilustração, plano, dois olhos. Dall-E 3 obedeceu imediatamente e fez um olho, um sorriso e um chapéu, mas se recusou terminantemente a deixar alguém tirar uma foto dela.
Midjourney fez com que a geração não gostasse de Brad, então usamos o serviço extra Insight Swap de rosto colocar a cara de Brad na geração; teve um post sobre isso aqui. Dall-E 3 sabe quem é Brad Pitt e pode desenhar estrelas sem nenhum software adicional.
Ambas as malhas são boas, mas o Dall-E 3 pode criar chifres de unicórnio enquanto Midjourney normalmente não pode.
Dall-E 3 fez um bom trabalho ao colocar os personagens em ação; podemos ver um orc e um elfo com orelhas de elfo. Há também uma pessoa vestindo um agasalho Nike, mas seus olhos estão manchados. As orelhas pontudas dos elfos são geralmente ignoradas pelos Midjourney, e a Nike também é desconsiderada.
Quando o pós-escrito “ilustração” foi inicialmente omitido do prompt, Dall-E 3 criou uma. Decidimos então compará-lo com Midjourneyilustração. Enquanto Midjourney se assemelhava mais às ilustrações da era soviética e não incluía as asas de fada, Dall-E 3 fez um trabalho fantástico desenhando a foice e o martelo. O exemplo à direita mostra como Dall-E 3 pode aparecer no texto.
O Mercado Pago não havia executado campanhas de Performance anteriormente nessas plataformas. Alcançar uma campanha de sucesso exigiria Midjourney entrou no fotorrealismo; não há personagem principal nas imagens, apenas o entorno, mas ainda assim legal. Dall-E 3 não queria aparecer na foto novamente.
Dall-E 3 vs. Midjourney: Prós e contras
À medida que os usuários exploram essa tecnologia, vários pontos fortes e limitações notáveis vêm à tona, proporcionando mais informações sobre sua funcionalidade.
Prós:
- Obediência imediata: Um dos recursos de destaque do Dall-E 3 é sua notável capacidade de seguir instruções com precisão. Os usuários relataram que o modelo de IA responde de forma eficaz a uma ampla gama de informações, tornando-o uma ferramenta versátil para diversas tarefas.
- Criatividade Multifacetada: Dall-E 3 exibe a capacidade de representar vários personagens em uma única imagem, expandindo seu potencial para contar histórias e projetos criativos. Esta abordagem multifacetada aumenta a sua utilidade em diferentes domínios.
- Integração de texto: Os usuários notaram a proficiência do Dall-E 3 na integração perfeita de texto em imagens. Este recurso facilita a criação de conteúdo visualmente envolvente com elementos textuais incorporados.
Contras:
- Clareza da imagem: Uma limitação notável é a tendência da IA de produzir imagens com rostos e olhos desfocados. Embora seja excelente em criatividade, às vezes falta a clareza e a precisão vistas no conteúdo gerado por humanos.
- Consistência de estilo: Dall-E 3 não reproduz consistentemente estilos de artistas específicos, o que pode ser uma desvantagem para quem busca emulação artística precisa.
- Requisito de VPN: O acesso ao Dall-E 3 atualmente requer o uso de uma VPN, o que pode representar desafios de acessibilidade para alguns usuários.
- Gerenciamento de imagens: Os usuários encontraram limitações ao gerenciar imagens geradas no site do Microsoft Bing. Notavelmente, não há função de orientação de formato e o histórico de imagens é restrito a uploads recentes, necessitando de cópia imediata para uso posterior.
- Velocidade de geração: Em alguns casos, foi relatado que o processo de geração no Dall-E 3 é mais lento em comparação com outros modelos de IA.
Apesar dessas limitações, o Dall-E 3 é uma promessa substancial. Usuários e especialistas reconhecem seu potencial para revolucionar a criação de conteúdo e a narrativa de histórias. Como OpenAI continua a refinar e expandir suas ofertas, espera-se que os pontos fortes do Dall-E 3 brilhem ainda mais, tornando-o uma ferramenta valiosa em vários campos.
Perguntas Frequentes:
Tanto Dall-E 3 quanto Midjourney têm seus pontos fortes e fracos. O Dall-E 3 é notavelmente obediente aos prompts e pode integrar texto perfeitamente às imagens. No entanto, às vezes produz imagens com rostos e olhos desfocados e pode não replicar de forma consistente os estilos de artistas específicos. Por outro lado, Midjourney é excelente em fotorrealismo, mas nem sempre captura a essência de certos prompts com a mesma precisão que Dall-E 3.
O artigo fornece prompts de texto para imagem, mostrando os resultados do Dall-E 3 e Midjourneye explica as diferenças entre os dois geradores de arte.
Ambos os modelos de IA têm seus pontos fortes e fracos. Por exemplo, numa mensagem sobre um astronauta em Júpiter, Midjourney superou ligeiramente o Dall-E 3. No entanto, em outro prompt sobre a Mulher Maravilha, o Dall-E 3 foi mais preciso ao capturar a essência do prompt.
- Obediência imediata: Dall-E 3 segue com precisão as instruções.
- Criatividade Multifacetada: pode representar vários personagens em uma única imagem.
- Integração de texto: Dall-E 3 pode integrar texto em imagens perfeitamente.
- Clareza da imagem: às vezes produz imagens com rostos e olhos desfocados.
- Consistência de estilo: Dall-E 3 não reproduz consistentemente estilos de artistas específicos.
- Gestão de Imagens: há limitações ao gerenciar imagens geradas no site do Microsoft Bing.
- Velocidade de geração: O processo de geração do Dall-E 3 pode ser mais lento em comparação com outros modelos de IA.
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.