2023 년 3 월 20 일

새로운 Text-to-Image 모델 GigaGAN은 4초 안에 3.66K 이미지를 생성할 수 있습니다.

게시: 20년 2023월 4일 오전 10시 20분 업데이트: 2023년 4월 11일 오전 XNUMX시 XNUMX분

요컨대

연구원들은 4초에 3.66K 이미지를 생성할 수 있는 GigaGAN이라는 새로운 텍스트-이미지 모델을 개발했습니다.

일종의 GAN(Generative Adversarial Network) 프레임워크를 기반으로 한다. 신경망 교육 데이터 세트와 유사한 데이터를 생성하는 방법을 학습할 수 있습니다. GigaGAN은 이전 최첨단 모델보다 512배 빠른 0.13초에 10px 이미지를 생성할 수 있으며, 엉키지 않고 연속적이며 제어 가능한 잠재 공간을 가지고 있습니다.

효율적이고 고품질의 업샘플러를 훈련하는 데에도 사용할 수 있습니다.

연구원들은 새로운 텍스트-이미지 모델을 개발했습니다. GigaGAN 생성할 수 있는 4K 이미지 3.66초. 이것은 단일 이미지를 생성하는 데 몇 분 또는 몇 시간이 걸릴 수 있는 기존의 텍스트-이미지 모델에 비해 크게 개선된 것입니다.

새로운 텍스트-이미지 모델 GigaGAN은 4초에 3.66K 이미지를 생성할 수 있습니다.

GigaGAN은 신경망의 일종인 GAN(Generative Adversarial Network) 프레임워크를 기반으로 훈련 데이터 세트와 유사한 데이터를 생성하도록 학습할 수 있습니다. GAN은 얼굴, 풍경, 스트리트 뷰 이미지의 사실적인 이미지를 생성하는 데 사용되었습니다.

더 읽기 : 5년 가장 기대되는 Text-to-Image AI 모델 2023개 이상

새 모델은 1억 개의 이미지 데이터 세트에서 훈련되었으며, 이는 이전 텍스트-이미지 모델 훈련에 사용된 데이터 세트보다 훨씬 큽니다. 결과적으로 GigaGAN은 512초에 0.13px 이미지를 생성할 수 있으며, 이는 이전의 최첨단 text-to-image 모델보다 10배 이상 빠릅니다.

또한 GigaGAN에는 분리되고 연속적이며 제어 가능한 잠재 공간이 있습니다. 이것은 GigaGAN이 다양한 스타일을 가진 이미지를 생성할 수 있고 생성된 이미지를 어느 정도 제어할 수 있음을 의미합니다. 예를 들어, GigaGAN은 텍스트 입력의 레이아웃을 보존하는 이미지를 생성할 수 있습니다. 이는 예를 들어 텍스트 설명에서 제품 레이아웃의 이미지를 생성할 때 애플리케이션에 중요합니다.

GigaGAN은 효율적이고 고품질의 업샘플러를 교육하는 데에도 사용할 수 있습니다. 이는 실제 이미지 또는 다른 출력물에 적용할 수 있습니다. 텍스트-이미지 모델.

텍스트 인코딩 분기, 스타일 매핑 네트워크, 다중 규모 합성 네트워크, 안정적인 어텐션 및 적응형 커널 선택은 모두 GigaGAN 생성기의 일부입니다. 개발자는 사전 훈련된 CLIP 모델과 학습된 주의 계층 T로 텍스트 임베딩을 추출하여 텍스트 인코딩 분기를 시작합니다. 스타일, 임베딩은 스타일 벡터 w를 생성하는 스타일 매핑 네트워크 M으로 전달됩니다. 이미지 피라미드를 생성하기 위해 합성 네트워크는 이제 스타일 코드를 변조로 사용하고 텍스트 임베딩을 어텐션으로 사용합니다. 또한 개발자는 샘플 적응형 커널 선택을 도입하여 입력 텍스트 조건에 따라 컨볼루션 커널을 적응적으로 선택합니다.

생성기와 마찬가지로 판별자는 이미지 및 텍스트 조건을 처리하기 위한 두 가지 분기가 있습니다. 생성기와 같은 텍스트 브랜치는 텍스트를 처리합니다. 이미지 브랜치에는 이미지 피라미드가 주어지며 각 이미지 스케일에 대해 독립적인 예측을 수행해야 합니다. 또한 모든 후속 다운샘플링 계층 스케일에서 예측이 이루어집니다. 효과적인 수렴을 장려하기 위해 추가 손실도 사용됩니다.

보간 그리드에서 볼 수 있듯이 GigaGAN은 프롬프트 간의 원활한 보간을 허용합니다. XNUMX개의 모서리는 동일한 잠재 z를 사용하지만 다른 텍스트 프롬프트를 사용하여 생성됩니다.

GigaGAN은 풀린 잠재 공간을 보존하기 때문에 개발자는 한 샘플의 거친 스타일을 다른 샘플의 미세한 스타일과 결합할 수 있습니다. GigaGAN은 또한 텍스트 프롬프트로 스타일을 직접 제어할 수 있습니다.

더 많은 관련 기사 읽기:

태그 :

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다.

더 많은 기사

다미르 얄랄로프