Sber AI는 2.0개 이상의 언어로 생성하는 최초의 텍스트-이미지 모델인 Kandinsky 100을 선보였습니다.
요컨대
최초의 다국어 확산 모델인 Kandinsky 2.0은 Sber AI 및 SberDevices의 1억 텍스트 이미지 쌍의 결합된 데이터 세트를 사용하여 AI 인공 지능 연구소의 연구원의 도움을 받아 Sber AI 연구원이 만들고 교육했습니다.
확산은 많은 디지털 이미지 처리 작업에서 점점 더 GAN과 자동회귀 모델을 대체하고 있습니다. 확산은 배우기 쉽고 복잡한 하이퍼 매개변수 선택, 최소-최대 최적화가 필요하지 않고 학습 불안정성을 겪지 않기 때문에 이는 놀라운 일이 아닙니다. 그리고 가장 중요한 것은 확산 모델이 거의 모든 생성 작업(텍스트별 이미지 생성, 사운드 생성, 비디오, 심지어 3D.
안타깝게도 text-to-some 분야의 대부분의 작업은 영어와 중국어에만 집중되어 있습니다. 이 불의를 바로잡기 위해 Sber AI 만들기로 결정 2.0개 이상의 언어로 쿼리를 이해하는 다국어 텍스트-이미지 확산 모델 Kandinsky 100. 포옹 얼굴 이미 Kandinsky 2.0을 제공하고 있습니다. SberAI 및 SberDevices의 연구원들은 협력하다 AI Institute of Artificial Intelligence의 전문가들과 함께 이 프로젝트를 진행했습니다.
확산이란 무엇입니까?
2015년 기사에서 비평형 열역학을 사용한 심층 비지도 학습, 확산 모델은 먼저 물질을 혼합하여 확산을 일으키는 행위로 설명되었으며, 이는 분포를 균등화합니다. 논문 제목에서 알 수 있듯이 그들은 열역학의 틀을 통해 확산 모델에 대한 설명에 접근했습니다.
이미지의 경우 이러한 프로세스는 예를 들어 이미지에서 점진적으로 가우시안 노이즈를 제거하는 것과 유사할 수 있습니다.
종이 확산 모델 이겼지 2021년에 출판된 GANs on Image Synthesis는 GANS보다 확산 모델의 우수성을 처음으로 보여주었습니다. 저자는 또한 분류기 지침이라는 이름의 XNUMX세대 제어 접근 방식(조건화)을 고안했습니다. 이 메서드는 다른 분류자(예: 개)의 그래디언트를 사용하여 의도한 클래스에 맞는 개체를 만듭니다. 정규화 계수의 예측을 포함하는 Adaptive Group Norm 메커니즘을 통해 제어 자체가 수행됩니다.
이 기사는 생성 AI 분야의 전환점으로 볼 수 있으며 많은 사람들이 확산 연구로 전환하도록 유도합니다. 에 대한 새로운 기사 텍스트를 비디오로, 텍스트를 3D로, 이미지 그림 그리기, 오디오 생성, 확산 초고해상도, 모션 생성도 몇 주마다 나타나기 시작했습니다.
텍스트 대 이미지 확산
앞에서 언급했듯이 노이즈 감소 및 노이즈 제거는 일반적으로 이미지 양식의 맥락에서 확산 프로세스의 주요 구성 요소이므로 UNet과 그 많은 변형이 기본 아키텍처로 자주 사용됩니다.
이 텍스트를 기반으로 이미지를 생성하려면 생성 중에 어떤 식으로든 이 텍스트를 고려하는 것이 중요합니다. 의 저자 OpenAI GLIDE 모델에 대한 기사에서는 텍스트에 대한 분류자 없는 안내 접근 방식을 수정할 것을 제안했습니다.
동결된 사전 조사된 텍스트 인코더와 캐스케이드 해상도 향상 메커니즘을 사용하면 텍스트 생성이 상당히 향상됩니다.영상). 의 텍스트 부분을 훈련할 필요가 없다는 것이 밝혀졌습니다. 텍스트-이미지 모델 고정된 T5-xxl을 사용하면 이미지 품질과 텍스트 이해력이 상당히 향상되고 교육 리소스가 훨씬 적게 사용되기 때문입니다.
저자는 잠재 확산 기사는 그림 구성 요소가 실제로 교육이 필요하지 않음을 보여주었습니다(적어도 완전하지는 않음). 강력한 이미지 오토인코더(VQ-VAE 또는 KL-VAE)를 시각적 디코더로 사용하고 이미지 자체가 아닌 확산을 통해 잠재 공간에서 임베딩을 생성하려고 하면 학습이 훨씬 더 빠르게 진행됩니다. 이 방법론은 또한 최근 출시된 Stable Diffusion 모델.
칸딘스키 2.0 AI 모델
몇 가지 주요 개선 사항을 통해 Kandinsky 2.0은 향상된 잠재 확산 기술을 기반으로 합니다(우리는 이미지를 만들지 않고 잠재 벡터를 만듭니다).
- 두 개의 다국어 텍스트 인코더를 사용하고 임베딩을 연결했습니다.
- UNet 추가(1.2억 매개변수).
- 샘플링 절차 동적 임계값.
연구원들은 두 개의 다국어 인코더(XLMR-clip 및 mT5-small)를 동시에 사용하여 모델 정말 다국어. 따라서 영어, 러시아어, 프랑스어 및 독일어 외에도 모델은 몽골어, 히브리어 및 페르시아어와 같은 언어도 이해할 수 있습니다. AI는 총 101개의 언어를 알고 있습니다. 두 모델을 동시에 사용하여 텍스트를 인코딩하기로 결정한 이유는 무엇입니까? XLMR-clip은 사진을 보고 다양한 언어에 대한 긴밀한 임베딩을 제공하고 mT5-small은 복잡한 텍스트를 이해할 수 있기 때문에 이러한 모델은 다르지만 중요한 기능을 가지고 있습니다. 예비 테스트에서 알 수 있듯이 두 모델 모두 적은 수의 매개변수(560M 및 146M)만 가지고 있기 때문에 두 개의 인코더를 동시에 사용하기로 결정했습니다.
아래 Kandinsky 2.0 AI 모델로 새로 생성된 이미지:
Kandinsky 2.0 모델 훈련은 어떻게 이루어졌나요?
Christofari 슈퍼컴퓨터는 ML Space 플랫폼의 교육에 활용되었습니다. 각각 196GB RAM이 장착된 100개의 NVIDIA A80 카드가 필요했습니다. 교육을 완료하는 데 14일 또는 65,856 GPU 시간이 걸렸습니다. 분석은 256×256 해상도에서 512일, 512×XNUMX 해상도에서 XNUMX일, 가장 순수한 데이터에서 XNUMX일이 더 걸렸습니다.
훈련 데이터로서, CLIP-점수 메트릭으로 측정된 바와 같이 워터마크, 저해상도 및 텍스트 설명에 대한 낮은 준수에 대해 사전 필터링된 많은 데이터 세트가 결합되었습니다.
다국어 생성
Kandinsky 2.0은 단어에서 이미지를 생성하기 위한 최초의 다국어 모델로, 언어 문화 전반에 걸친 언어 및 시각적 변화를 평가할 수 있는 최초의 기회를 제공합니다. 동일한 쿼리를 여러 언어로 번역한 결과는 다음과 같습니다. 예를 들어, 러시아어 쿼리 "a person with a high education"에 대한 생성 결과에는 백인 남성만 나타나는 반면, 프랑스어 번역 "Photo d'une personne diplômée de l'enseignement supérieur"에 대한 결과는 더 다양합니다. 고등 교육을 받은 슬픔에 잠긴 사람들은 러시아어 버전에만 존재한다는 점을 지적하고 싶습니다.
거대한 언어 모델과 계획된 확산 프로세스의 다른 방법에 대한 많은 시도가 여전히 있지만 Kandinsky 2.0이 최초의 완전한 다국어 보급 모델이라고 이미 자신있게 말할 수 있습니다! 에 퓨전브레인 웹사이트 와 구글 콜랩, 그녀의 그림의 예를 볼 수 있습니다.
AI에 대해 자세히 알아보기:
책임 부인
줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.
저자에 관하여
Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다.
더 많은 기사Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다.