뉴스 보도 Technology
2023 년 9 월 21 일

DALL-E 3 릴리스 증폭 OpenAI의 영향, 떠나다 Midjourney 및 Stable Diffusion 뒤에

요컨대

DALL-E 3는 다음과 완벽하게 통합되도록 설정되었습니다. GPT-4, 특별히 맞춤 제작된 ChatGPT+ 구독자.

DALL-E 3는 유명인의 이름이 명시적으로 언급된 경우 해당 인물의 이미지를 재현하는 것을 삼가합니다.

DALL-E 3에 대한 액세스 일정은 XNUMX월로 설정되어 있습니다.

OpenAI 최신 창작물을 공개했습니다. 달-이 3. 이전 모델과 달리 DALL-E 3는 문자 및 손가락과 같은 복잡한 신체 세부 사항과 같은 문제를 해결하여 세부 사항을 개선하는 데 중점을 둡니다. 결과? 복잡한 프롬프트나 해결 방법이 필요 없는 미학적으로 만족스러운 이미지 배열입니다.

DALL-E 3 릴리스 증폭 OpenAI의 영향, 떠나다 Midjourney 및 Stable Diffusion 뒤에

이번 릴리스에는 포괄적인 구현 세부 정보, 기사 또는 API 세트가 제공되지 않는다는 점에 유의하는 것이 중요합니다. 대신 DALL-E 3는 다음과 완벽하게 통합되도록 설정됩니다. GPT-4, 특별히 맞춤 제작된 ChatGPT+ 구독자.

이러한 발전은 AI 환경의 획기적인 변화라기보다는 모델 간 협업의 한 단계 진전일 수 있습니다. 많은 사람들이 다음을 예상하고 있다. Stable Diffusion 모델 더욱 세련되고 예술적인 매력을 선사할 것입니다.

상황에 맞게 OpenAIAI 이미지 생성을 통한 의 여정은 꽤 험난했습니다.

  • 2021 : 1억 매개변수 모델인 DALL-E 12이 제한된 정보로 출시되었습니다.
  • 2021 : 2억 개의 매개변수 모델인 GLIDE가 오픈소스 300억 개의 매개변수 모델과 함께 공개되었습니다.
  • 2022 : unCLIP 문서와 API와 함께 2억 개의 매개변수를 갖춘 DALL-E 2가 도착했습니다.
  • 2023 : DALL-E 3가 출시되었습니다. 세부 사항은 다소 비밀스러울 수 있지만 한 가지는 분명합니다. GPT-4 for ChatGPT+ 구독자.

현재로서는 DALL-E 3의 비주얼이 다소 부족합니다. 코드베이스, 블로그 게시물 또는 최신 SOTA(최신 기술)와의 자세한 비교가 없습니다. OpenAI 카드를 가슴 가까이에 두는 것 같습니다.

DALL-E 3 릴리스 증폭 OpenAI의 영향, 떠나다 Midjourney 및 Stable Diffusion 뒤에

이 모델은 이전 모델에 비해 뉘앙스와 디테일에 대한 더 깊은 이해를 갖고 있는 것으로 평가됩니다. 즉, 창의적인 컨셉을 매우 정확한 이미지로 변환하는 과정이 더욱 원활해질 것으로 예상됩니다.

DALL-E 3의 흥미로운 약속 중 하나는 ChatGPT. 이는 사용자가 복잡한 프롬프트를 작성하는 데 어려움을 겪을 필요가 없음을 의미합니다. 간단한 설명이면 충분합니다. ChatGPT 귀하를 대신하여 자세한 메시지를 적절하게 생성합니다.

OpenAI 또한 긴 메시지에서 맥락의 중요성을 강조했습니다. DALL-E 3는 자세한 내용을 수용하도록 설계되어 광범위한 프롬프트에 설명된 상황에 더 잘 적응합니다.

그러나 모든 새로운 AI 모델에는 알려지지 않은 요소가 있습니다. 처음에는 유망해 보이지만 진정한 리트머스 테스트는 확장된 용도로 제공될 것입니다. 효율성과 작동 속도에 대한 의문이 남아 있습니다.

DALL-E 3는 다단계 확산 프로세스가 될 가능성이 높습니다. GPT-4 텍스트 인코더 역할을 합니다. 이 설정의 복잡한 메커니즘은 비밀로 남아 있을 수 있습니다.

DALL-E 3에 대한 액세스 일정은 XNUMX월로 설정되어 있습니다. ChatGPT 플러스 및 ChatGPT 엔터프라이즈 사용자s, 이후 연구자들의 접근 범위가 더 넓어질 가능성이 있습니다.

관련: OpenAIAI의 위험을 논의하기 위해 미국 상원에서 Altman의 Altman

뉘앙스 검열 DALL-E 3의

DALL-E 3 개발의 주요 초점은 기능을 억제하는 세심한 프로세스였습니다. 여기에는 특정 유형의 콘텐츠를 제외하도록 설계된 엄격한 정렬 및 필터가 포함되었습니다. 예를 들어, 모델은 유명 인물의 이미지 생성, 유명 예술가의 스타일로 예술 작품 복제, 안전하지 않다고 판단되는 콘텐츠 생성을 단호히 거부합니다. OpenAI의 안목 있는 기준. 이러한 전략적 접근 방식은 단지 제한 사항에 관한 것이 아닙니다. 이는 잠재적인 법적 얽힘으로부터 회사를 보호하기 위한 사전 조치입니다.

그러나 이러한 필터와 정렬을 넘어서서 몇 가지 흥미로운 관찰이 밝혀졌습니다. DALL-E 3는 사실적인 콘텐츠를 생성하는 데 있어 특정 약점을 보이는 것으로 보입니다. 실제 사진을 완벽하게 모방한 이미지를 생성하는 대신, 출력물은 뚜렷하고 양식화된 품질을 전달합니다. AI가 제작한 이 사진은 거의 렌더링되고 약간 플라스틱처럼 보입니다. "사진"이라는 단어가 명시적으로 표시되더라도 그 결과는 특유의 양식화에 그대로 남아 있습니다.

프롬프트 #1
프롬프트 #1: 젖은 모래 속에 자리잡은 소라게의 클로즈업 사진. 근처에 바다 거품이 있고 껍질의 디테일과 모래의 질감이 강조되어 있습니다.
프롬프트 #2
프롬프트 #2: 아늑한 거실에는 생동감 넘치는 노란색 바나나 모양의 소파가 놓여 있고, 그 곡선에는 다채로운 쿠션이 쌓여 있습니다. 나무 바닥에는 패턴이 있는 러그가 색다른 매력을 더해 주고, 화분은 창문을 통해 들어오는 햇빛을 향해 뻗어 있는 구석에 놓여 있습니다.
프롬프트 #3
프롬프트 #3: 해저에 자리잡은 고대 난파선의 사진. 해양 식물이 나무 구조를 차지했으며, 물고기가 그 빈 공간을 드나들며 헤엄칩니다. 가라앉은 보물과 오래된 대포가 여기저기 흩어져 있어 과거를 엿볼 수 있습니다.

이러한 특이성에도 불구하고 DALL-E 3는 놀라운 잠재력을 엿볼 수 있다는 점은 주목할 가치가 있습니다. 그 창조물 중 일부 사례는 사진과 매우 유사합니다. 이러한 이미지의 시뮬레이션된 현실감은 특히 물속에 잠긴 경우 동일한 피사체의 실제 사진이 어떻게 나타나는지 반드시 일치하지는 않는다는 점을 명심하십시오.

관련: Microsoft는 DALL-E 2를 기반으로 하는 최초의 전문가용 Text-to-Image 도구인 Designer를 발표했습니다.

DALL-E 3 기능 및 세부 정보

이 새로운 모델이 실제로 무엇을 제공하는지 이해하기 위해 잠시 시간을 내어 픽셀을 살펴보고 행 사이를 읽어 보겠습니다.

양식화의 예술: 슬쩍 살펴보다 OpenAI님의 인스타그램 계정, 절묘한 양식화가 특징인 풍부한 예술 작품을 발견하게 될 것입니다. 추상적인 구성과 디자인이 인상적으로 배열되어 있지만, 이 모델은 사실적인 콘텐츠를 생성하는 데에는 적합하지 않은 것으로 보입니다. 여기서 강조점은 현실을 모방하는 것이 아니라 미학과 창의성에 있습니다.

예술적 제약: DALL-E 3는 전작과 다른 길을 택합니다. 이는 특정 아티스트의 스타일을 모방할 수 있는 DALL-E 2와는 완전히 다른 살아있는 아티스트 스타일의 이미지 생성을 단호하게 거부합니다. 이는 창작 커뮤니티에서 미지근한 반응을 보이는 것처럼 눈썹을 치켜세울 수도 있습니다. Stable Diffusion 2.0.

아티스트에게 힘을 실어주기: 아티스트의 권리를 존중하기 위한 움직임으로, OpenAI 아티스트가 향후 DALL-E 버전에서 자신의 작업을 제외할 수 있습니다. 아티스트는 권리가 있는 이미지를 제출하여 모델 출력에서 ​​해당 이미지를 제외하도록 요청할 수 있습니다. 그러면 DALL-E의 향후 반복에서는 다음과 유사한 콘텐츠가 생성되지 않습니다. 예술가의 스타일.

보안 및 검열: OpenAI보안에 대한 편집증은 명백합니다. 그들은 외부 "레드 팀"과 협력하여 모델의 보안을 테스트하고 입력 분류자를 사용하여 노골적이거나 유해한 콘텐츠로 이어질 수 있는 특정 단어를 무시하도록 모델을 가르쳤습니다. DALL-E 3는 다음의 이미지를 재현하지 않습니다. 공인 그들의 이름이 명시적으로 언급될 때. 유명인이 이 범주에 속하는지 여부는 여전히 불확실하며 생성된 얼굴의 품질에 잠재적으로 영향을 미칠 수 있습니다.

워터마크 및 추적: "AI 생성 이미지"를 추적하기 위한 태그 삽입에 대한 힌트가 있습니다. 이는 생성된 콘텐츠에 대한 더 나은 모니터링과 잠재적으로 워터마킹을 향한 움직임을 나타냅니다.

텍스트 및 손 개선: OpenAI 경쟁사에서 공통적으로 주장하는 개선된 텍스트 생성 및 손 렌더링을 자랑합니다. 실제 테스트는 선별된 예를 넘어서는 실제 출력에 있습니다.

공간이해: DALL-E 3는 프롬프트에 설명된 공간 관계를 이해하는 데 탁월합니다. 사용자는 이 약속에 대한 보다 구체적인 증거를 기다리고 있지만 이는 복잡한 각도와 구도를 구성하는 모델의 능력을 향상시킵니다.

프롬프트의 힘: 핵심은 달-이 3 신속한 기능과 통합에 있습니다. ChatGPT. 신속한 설계의 자동화, 속도 및 단순화를 약속합니다. 여기의 추세는 다음과 같습니다. chatGPT 프롬프트 생성, 모호한 아이디어나 기초적인 메시지를 설득력 있는 아이디어로 번역합니다. DALL-E 3의 개선된 상황별 이해는 프로세스를 간소화하여 사용자가 장황한 내용보다는 의도에 집중할 수 있도록 해줍니다.

미지의 영토: inpainting, outpainting, 생성 채우기 및 3D 모델링과 같은 측면은 논의에서 특히 빠졌습니다. 이러한 기능이 없으면 특히 다용도 모델에 익숙한 사용자에게는 제한이 될 수 있습니다.

액세스 세부 정보: DALL-E 3를 사용할 수 있도록 설정되었습니다. ChatGPT XNUMX월 초 Plus 및 Enterprise 고객. 다만, 학점배분에 관한 구체적인 사항은 ChatGPT 게다가 사용자와 관련 비용은 불분명합니다. 액세스는 API를 통해 제공되며 OpenAI 랩 플랫폼은 "가을 후반에"입니다.

통합 능력: DALL-E는 파트너 및 Microsoft 제품과 완벽하게 통합되도록 설정되었습니다. 프리젠테이션, 일러스트레이션, 디자인, 로고가 모두 맥락에 맞춰 생성되고 ChatGPT. 이러한 통합은 주류가 될 것이며 다음과 같은 경쟁업체에 상당한 도전 과제를 제시할 것입니다. 음유시인과 함께하는 Google 그리고 표의문자.

LLM과 시각적 콘텐츠의 융합: 가장 흥미로운 점은 LLM(Large Language Models)과 시각적 콘텐츠 생성 모델의 융합입니다. 이는 복잡한 프롬프트 엔지니어링에서 보다 접근하기 쉬운 언어로 아이디어를 표현하는 방향으로의 전환을 의미합니다. AI는 이러한 표현에서 맥락과 아이디어를 수집하여 거부하기 어려운 창의적인 가능성을 제공합니다.

관련: AI 아트 생성기를 위한 상위 50개의 텍스트-이미지 프롬프트 Midjourney 그리고 DALL-E

DALL-E 3: AI 이미지 생성의 새로운 리더가 되세요

OpenAIDALL-E 3를 통합하기로 한 의 결정 ChatGPT 생태계는 전략적 움직임이다. 이 통합을 통해 DALL-E 3는 100억 명의 활성 사용자로 구성된 방대한 사용자 데이터베이스에 액세스할 수 있습니다. 이 단계는 DALL-E 3의 접근성을 크게 향상시키고 인기를 높일 수 있는 잠재력을 가지고 있습니다.

현재 Midjourney 및 Stable Diffusion 자랑하다 백만 명의 등록 된 사용자 15 명. 그러나 이러한 통합을 통해 DALL-E 3는 100배 더 큰 사용자 기반(XNUMX억 명의 사용자)에 액세스할 수 있게 설정되었습니다. 이는 ChatGPT 플러스 구독 합리적인 가격으로 챗봇, 분석 도구 및 이미지 생성에 대한 액세스를 제공하므로 더욱 매력적인 계획입니다.

통합은 기존 사용자에게 유리할 뿐만 아니라 신규 사용자에게도 강력한 자석 역할을 합니다. 그것은 확장한다 OpenAI 생태계의 도달 범위와 인기를 높여 AI 생성 콘텐츠 솔루션을 찾는 개인을 끌어들이고 있습니다.

이러한 전략적 움직임은 OpenAI의 수익 및 기타 주요 지표. 회사의 투자자들은 특히 최근의 상황을 고려할 때 이러한 발전을 호의적으로 볼 것입니다. 교통량 20% 감소 여름 동안.

ChatGPT 웹 트래픽은 20월에 XNUMX% 감소했으며 계속해서 감소하고 있습니다.

더 많은 관련 항목 읽기:

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

더 많은 기사
다미르 얄랄로프
다미르 얄랄로프

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

Hot Stories
뉴스레터에 가입하세요.
최신 뉴스

Ripple에서 Big Green DAO까지: 암호화폐 프로젝트가 자선 활동에 기여하는 방법

자선 활동을 위해 디지털 통화의 잠재력을 활용하는 이니셔티브를 살펴보겠습니다.

현장 사진

AlphaFold 3, Med-Gemini 등: 2024년 AI가 의료를 혁신하는 방식

AI는 새로운 유전적 상관관계를 밝히는 것부터 로봇 수술 시스템을 강화하는 것까지 의료 분야에서 다양한 방식으로 나타납니다.

현장 사진
혁신적인 기술 커뮤니티에 참여하세요
상세 보기
자세히 보기
Ripple에서 Big Green DAO까지: 암호화폐 프로젝트가 자선 활동에 기여하는 방법
Analysis Crypto Wiki 근무지에서 발생 교육 생활 시장 소프트웨어 Technology
Ripple에서 Big Green DAO까지: 암호화폐 프로젝트가 자선 활동에 기여하는 방법
2024 년 5 월 13 일
AlphaFold 3, Med-Gemini 등: 2024년 AI가 의료를 혁신하는 방식
AI Wiki Analysis 요람 의견 근무지에서 발생 시장 뉴스 보도 소프트웨어 이야기와 리뷰 Technology
AlphaFold 3, Med-Gemini 등: 2024년 AI가 의료를 혁신하는 방식
2024 년 5 월 13 일
Nim Network는 AI 소유권 토큰화 프레임워크를 출시하고 5월로 예정된 스냅샷 날짜로 수익 판매를 실시합니다.
시장 뉴스 보도 Technology
Nim Network는 AI 소유권 토큰화 프레임워크를 출시하고 5월로 예정된 스냅샷 날짜로 수익 판매를 실시합니다.
2024 년 5 월 13 일
바이낸스는 아르헨티나와 협력하여 사이버 범죄에 맞서 싸우고 있습니다.
의견 근무지에서 발생 시장 뉴스 보도 소프트웨어 Technology
바이낸스는 아르헨티나와 협력하여 사이버 범죄에 맞서 싸우고 있습니다.
2024 년 5 월 13 일
CRYPTOMERIA LABS PTE. LTD.