뉴스 보도 Technology
2022 년 11 월 23 일

Sber AI는 2.0개 이상의 언어로 생성하는 최초의 텍스트-이미지 모델인 Kandinsky 100을 선보였습니다.

요컨대

최초의 다국어 확산 모델인 Kandinsky 2.0은 Sber AI 및 SberDevices의 1억 텍스트 이미지 쌍의 결합된 데이터 세트를 사용하여 AI 인공 지능 연구소의 연구원의 도움을 받아 Sber AI 연구원이 만들고 교육했습니다.

확산은 많은 디지털 이미지 처리 작업에서 점점 더 GAN과 자동회귀 모델을 대체하고 있습니다. 확산은 배우기 쉽고 복잡한 하이퍼 매개변수 선택, 최소-최대 최적화가 필요하지 않고 학습 불안정성을 겪지 않기 때문에 이는 놀라운 일이 아닙니다. 그리고 가장 중요한 것은 확산 모델이 거의 모든 생성 작업(텍스트별 이미지 생성, 사운드 생성, 비디오, 심지어 3D.

Sber AI는 2.0개 이상의 언어로 생성하는 최초의 텍스트-이미지 모델인 Kandinsky 100을 선보였습니다.
Kandinsky AI로 만든 이미지

안타깝게도 text-to-some 분야의 대부분의 작업은 영어와 중국어에만 집중되어 있습니다. 이 불의를 바로잡기 위해 Sber AI 만들기로 결정 2.0개 이상의 언어로 쿼리를 이해하는 다국어 텍스트-이미지 확산 모델 Kandinsky 100. 포옹 얼굴 이미 Kandinsky 2.0을 제공하고 있습니다. SberAI 및 SberDevices의 연구원들은 협력하다 AI Institute of Artificial Intelligence의 전문가들과 함께 이 프로젝트를 진행했습니다.

확산이란 무엇입니까?

2015년 기사에서 비평형 열역학을 사용한 심층 비지도 학습, 확산 모델은 먼저 물질을 혼합하여 확산을 일으키는 행위로 설명되었으며, 이는 분포를 균등화합니다. 논문 제목에서 알 수 있듯이 그들은 열역학의 틀을 통해 확산 모델에 대한 설명에 접근했습니다.

이미지의 경우 이러한 프로세스는 예를 들어 이미지에서 점진적으로 가우시안 노이즈를 제거하는 것과 유사할 수 있습니다.

종이 확산 모델 이겼지 2021년에 출판된 GANs on Image Synthesis는 GANS보다 확산 모델의 우수성을 처음으로 보여주었습니다. 저자는 또한 분류기 지침이라는 이름의 XNUMX세대 제어 접근 방식(조건화)을 고안했습니다. 이 메서드는 다른 분류자(예: 개)의 그래디언트를 사용하여 의도한 클래스에 맞는 개체를 만듭니다. 정규화 계수의 예측을 포함하는 Adaptive Group Norm 메커니즘을 통해 제어 자체가 수행됩니다.

이 기사는 생성 AI 분야의 전환점으로 볼 수 있으며 많은 사람들이 확산 연구로 전환하도록 유도합니다. 에 대한 새로운 기사 텍스트를 비디오로, 텍스트를 3D로, 이미지 그림 그리기, 오디오 생성, 확산 초고해상도, 모션 생성도 몇 주마다 나타나기 시작했습니다.

텍스트 대 이미지 확산

앞에서 언급했듯이 노이즈 감소 및 노이즈 제거는 일반적으로 이미지 양식의 맥락에서 확산 프로세스의 주요 구성 요소이므로 UNet과 그 많은 변형이 기본 아키텍처로 자주 사용됩니다.

텍스트 대 이미지 확산
텍스트 대 이미지 확산

이 텍스트를 기반으로 이미지를 생성하려면 생성 중에 어떤 식으로든 이 텍스트를 고려하는 것이 중요합니다. 의 저자 OpenAI GLIDE 모델에 대한 기사에서는 텍스트에 대한 분류자 없는 안내 접근 방식을 수정할 것을 제안했습니다.

동결된 사전 조사된 텍스트 인코더와 캐스케이드 해상도 향상 메커니즘을 사용하면 텍스트 생성이 상당히 향상됩니다.영상). 의 텍스트 부분을 훈련할 필요가 없다는 것이 밝혀졌습니다. 텍스트-이미지 모델 고정된 T5-xxl을 사용하면 이미지 품질과 텍스트 이해력이 상당히 향상되고 교육 리소스가 훨씬 적게 사용되기 때문입니다.

저자는 잠재 확산 기사는 그림 구성 요소가 실제로 교육이 필요하지 않음을 보여주었습니다(적어도 완전하지는 않음). 강력한 이미지 오토인코더(VQ-VAE 또는 KL-VAE)를 시각적 디코더로 사용하고 이미지 자체가 아닌 확산을 통해 잠재 공간에서 임베딩을 생성하려고 하면 학습이 훨씬 더 빠르게 진행됩니다. 이 방법론은 또한 최근 출시된 Stable Diffusion 모델.

칸딘스키 2.0 AI 모델

몇 가지 주요 개선 사항을 통해 Kandinsky 2.0은 향상된 잠재 확산 기술을 기반으로 합니다(우리는 이미지를 만들지 않고 잠재 벡터를 만듭니다).

  • 두 개의 다국어 텍스트 인코더를 사용하고 임베딩을 연결했습니다.
  • UNet 추가(1.2억 매개변수).
  • 샘플링 절차 동적 임계값.
칸딘스키 2.0 AI 모델
칸딘스키 2.0 AI 모델

연구원들은 두 개의 다국어 인코더(XLMR-clip 및 mT5-small)를 동시에 사용하여 모델 정말 다국어. 따라서 영어, 러시아어, 프랑스어 및 독일어 외에도 모델은 몽골어, 히브리어 및 페르시아어와 같은 언어도 이해할 수 있습니다. AI는 총 101개의 언어를 알고 있습니다. 두 모델을 동시에 사용하여 텍스트를 인코딩하기로 결정한 이유는 무엇입니까? XLMR-clip은 사진을 보고 다양한 언어에 대한 긴밀한 임베딩을 제공하고 mT5-small은 복잡한 텍스트를 이해할 수 있기 때문에 이러한 모델은 다르지만 중요한 기능을 가지고 있습니다. 예비 테스트에서 알 수 있듯이 두 모델 모두 적은 수의 매개변수(560M 및 146M)만 가지고 있기 때문에 두 개의 인코더를 동시에 사용하기로 결정했습니다.

아래 Kandinsky 2.0 AI 모델로 새로 생성된 이미지:

Kandinsky 2.0 모델 훈련은 어떻게 이루어졌나요?

Christofari 슈퍼컴퓨터는 ML Space 플랫폼의 교육에 활용되었습니다. 각각 196GB RAM이 장착된 100개의 NVIDIA A80 카드가 필요했습니다. 교육을 완료하는 데 14일 또는 65,856 GPU 시간이 걸렸습니다. 분석은 256×256 해상도에서 512일, 512×XNUMX 해상도에서 XNUMX일, 가장 순수한 데이터에서 XNUMX일이 더 걸렸습니다.

훈련 데이터로서, CLIP-점수 메트릭으로 측정된 바와 같이 워터마크, 저해상도 및 텍스트 설명에 대한 낮은 준수에 대해 사전 필터링된 많은 데이터 세트가 결합되었습니다.

다국어 생성

Kandinsky 2.0은 단어에서 이미지를 생성하기 위한 최초의 다국어 모델로, 언어 문화 전반에 걸친 언어 및 시각적 변화를 평가할 수 있는 최초의 기회를 제공합니다. 동일한 쿼리를 여러 언어로 번역한 결과는 다음과 같습니다. 예를 들어, 러시아어 쿼리 "a person with a high education"에 대한 생성 결과에는 백인 남성만 나타나는 반면, 프랑스어 번역 "Photo d'une personne diplômée de l'enseignement supérieur"에 대한 결과는 더 다양합니다. 고등 교육을 받은 슬픔에 잠긴 사람들은 러시아어 버전에만 존재한다는 점을 지적하고 싶습니다.

다국어 생성
프롬프트: 강도(1. 러시아어, 2. 영어, 3. 힌디어)
다국어 생성
프롬프트: 고등 교육을 받은 사람 (1. 러시아어, 2. 프랑스어, 3. 중국어)
다국어 생성
프롬프트: 국가 요리(1. 러시아어, 2. 일본어, 3. 힌디어)

거대한 언어 모델과 계획된 확산 프로세스의 다른 방법에 대한 많은 시도가 여전히 있지만 Kandinsky 2.0이 최초의 완전한 다국어 보급 모델이라고 이미 자신있게 말할 수 있습니다! 에 퓨전브레인 웹사이트구글 콜랩, 그녀의 그림의 예를 볼 수 있습니다.

AI에 대해 자세히 알아보기:

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

더 많은 기사
다미르 얄랄로프
다미르 얄랄로프

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

Hot Stories

Galxe, Jambo와 파트너십을 맺고 글로벌 접근성 확대 Web3

by 알리사 데이비슨
2024 년 5 월 02 일
뉴스레터에 가입하세요.
최신 뉴스

Galxe, Jambo와 파트너십을 맺고 글로벌 접근성 확대 Web3

by 알리사 데이비슨
2024 년 5 월 02 일

선고일이 다가왔습니다: 미국 법원이 DOJ의 주장을 고려함에 따라 CZ의 운명이 균형을 이루고 있습니다.

자오창펑(Changpeng Zhao)은 오늘 시애틀의 미국 법원에서 선고를 받을 예정이다.

현장 사진

Samourai Wallet 창립자들은 다크넷 거래에서 2억 달러를 촉진한 혐의로 기소되었습니다

Samourai Wallet 창립자들의 우려는 업계에 주목할만한 좌절을 의미하며 지속적인 ...

현장 사진
혁신적인 기술 커뮤니티에 참여하세요
상세 보기
자세히 보기
Eigen 재단은 커뮤니티 비판 이후 사용자에게 추가로 100개의 EIGEN 토큰을 배포할 계획입니다.
시장 뉴스 보도 Technology
Eigen 재단은 커뮤니티 비판 이후 사용자에게 추가로 100개의 EIGEN 토큰을 배포할 계획입니다.
2024 년 5 월 3 일
Pantera Capital은 TON 블록체인에 투자하고 암호화폐 접근성을 확대할 수 있는 Telegram의 잠재력에 대한 자신감을 표명했습니다.
근무지에서 발생 뉴스 보도 Technology
Pantera Capital은 TON 블록체인에 투자하고 암호화폐 접근성을 확대할 수 있는 Telegram의 잠재력에 대한 자신감을 표명했습니다.
2024 년 5 월 2 일
Mitosis, 모듈식 유동성 프로토콜 발전을 위해 Amber Group 및 Foresight Ventures로부터 7만 달러 자금 조달
근무지에서 발생 뉴스 보도 Technology
Mitosis, 모듈식 유동성 프로토콜 발전을 위해 Amber Group 및 Foresight Ventures로부터 7만 달러 자금 조달
2024 년 5 월 2 일
Galxe, Jambo와 파트너십을 맺고 글로벌 접근성 확대 Web3
근무지에서 발생 뉴스 보도 Technology
Galxe, Jambo와 파트너십을 맺고 글로벌 접근성 확대 Web3
2024 년 5 월 2 일
CRYPTOMERIA LABS PTE. LTD.