뉴스 보도 Technology
2023 년 1 월 24 일

GLIGEN: 경계 상자가 있는 새로운 정지된 텍스트-이미지 생성 모델

요컨대

GLIGEN(Grounded-Language-to-Image Generation)은 현재 사전 훈련된 확산 모델의 기능을 기반으로 확장하는 새로운 기술입니다.

캡션 및 경계 상자 조건 입력을 사용하여 GLIGEN 모델은 오픈 월드 기반 text2img를 생성합니다.

GLIGEN은 미리 훈련된 text2img 모델의 지식을 활용하여 특정 장소와 스타일의 다양한 객체를 생성할 수 있습니다.

GLIGEN은 텍스트를 이미지로 생성하는 동안 사람의 키포인트를 기반으로 할 수도 있습니다.

대규모 텍스트-이미지 확산 모델은 먼 길을 왔습니다. 그러나 현재 관행은 제어 가능성을 제한할 수 있는 텍스트 입력에만 의존하는 것입니다. 글리겐또는 Grounded-Language-to-Image Generation은 접지 입력에 조건을 부여할 수 있도록 하여 현재 사전 훈련된 텍스트-이미지 확산 모델의 기능을 구축하고 확장하는 새로운 기술입니다.

GLIGEN: 경계 상자가 있는 새로운 정지된 텍스트-이미지 생성 모델

사전 훈련된 모델의 광범위한 개념 지식을 유지하기 위해 개발자는 모든 가중치를 동결하고 제어된 프로세스를 통해 접지 정보를 새로운 훈련 가능한 계층으로 펌핑합니다. 캡션 및 경계 상자 조건 입력을 사용하여 GLIGEN 모델은 오픈 월드 접지 텍스트를 이미지로 생성하고 접지 기능은 새로운 공간 구성 및 개념으로 효과적으로 일반화됩니다.

확인 데모 여기를 클릭해 문의해주세요.

GLIGEN은 사전 훈련된 방대한 양의 지식을 유지하기 위해 원래 가중치가 고정된 기존 사전 훈련된 확산 모델을 기반으로 합니다.
  • GLIGEN은 기존의 pre-trained를 기반으로 확산 모델, 사전 훈련된 방대한 양의 지식을 유지하기 위해 원래 가중치가 동결되었습니다.
  • 각 트랜스포머 블록에서 추가 접지 입력을 흡수하기 위해 새로운 훈련 가능한 Gated Self-Attention 레이어가 생성됩니다.
  • 각 접지 토큰에는 두 가지 유형의 정보가 있습니다. 접지된 사물에 대한 의미론적 정보(인코딩된 텍스트 또는 이미지)와 공간 위치 정보(인코딩된 경계 상자 또는 키 포인트)입니다.
관련 기사 : VToonify: 예술적인 초상화 비디오 생성을 위한 실시간 AI 모델
새로 추가된 변조 레이어는 대규모 접지 데이터(이미지-텍스트 상자)에 대해 지속적으로 사전 훈련되며, 이는 전체 모델 미세 조정과 같은 사전 훈련된 확산 모델을 사용하는 대체 방법보다 비용 효율적입니다. 레고와 유사하게 다양한 새로운 기능을 허용하기 위해 서로 다른 훈련된 레이어를 연결 및 분리할 수 있습니다.
새로 추가된 변조 레이어는 대규모 접지 데이터(이미지-텍스트-상자)에 대해 지속적으로 사전 학습됩니다. 이는 사전 훈련된 다른 방법을 사용하는 것보다 비용 효율적입니다. 확산 모델, 전체 모델 미세 조정과 같은. 레고와 유사하게, 다양한 훈련된 레이어를 연결하거나 연결 해제하여 다양한 새로운 기능을 허용할 수 있습니다.
GLIGEN은 추론을 위한 확산 프로세스에서 예약된 샘플링을 지원합니다. 여기서 모델은 접지 토큰(새 레이어 추가)을 사용하거나 이전 확산 모델(새 레이어 제거)을 사용하도록 동적으로 선택하여 생성 품질의 균형을 맞출 수 있습니다. 접지 능력.
GLIGEN은 추론을 위한 확산 프로세스에서 예약된 샘플링을 지원합니다. 여기서 모델은 접지 토큰(새 레이어 추가)을 사용하거나 이전 확산 모델(새 레이어 제거)을 사용하도록 동적으로 선택하여 생성 품질의 균형을 맞출 수 있습니다. 접지 능력.
GLIGEN은 미리 훈련된 text2img 모델의 지식을 활용하여 특정 장소와 스타일의 다양한 객체를 생성할 수 있습니다.
GLIGEN은 미리 훈련된 text2img 모델의 지식을 활용하여 특정 장소와 스타일의 다양한 객체를 생성할 수 있습니다.
관련 기사 : 마이크로소프트가 사람 사진 한 장으로 3D 아바타를 만들 수 있는 확산 모델을 공개했다.
GLIGEN은 참조 사진을 사용하여 훈련할 수도 있습니다.
GLIGEN은 참조 사진을 사용하여 훈련할 수도 있습니다. 맨 위 행은 서면 설명 외에도 참조 사진이 자동차의 스타일 및 모양과 같은 보다 세분화된 특성을 제공할 수 있음을 나타냅니다. 두 번째 행은 참조 이미지가 스타일 이미지로도 활용될 수 있음을 보여줍니다. 이 경우 이미지의 모서리나 가장자리에 기준 이미지를 고정하는 것으로 충분하다는 것을 알 수 있습니다.
GLIGEN은 다른 확산 모델과 마찬가지로 제공된 경계 상자와 거의 일치하는 개체를 생성할 수 있는 접지 이미지 인페인트를 수행할 수 있습니다.
GLIGEN은 다른 확산 모델과 마찬가지로 제공된 경계 상자와 거의 일치하는 개체를 생성할 수 있는 접지 이미지 인페인트를 수행할 수 있습니다.
GLIGEN은 텍스트를 이미지로 생성하는 동안 사람의 키포인트를 기반으로 할 수도 있습니다.
GLIGEN은 인간의 핵심 포인트를 접지할 수도 있습니다. 텍스트를 이미지로 생성.

AI에 대해 자세히 알아보기:

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

더 많은 기사
다미르 얄랄로프
다미르 얄랄로프

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

Hot Stories
뉴스레터에 가입하세요.
최신 뉴스

변동성 속에서 비트코인 ​​ETF를 향한 기관의 선호도 증가

13F 서류를 통한 공개를 통해 주목할만한 기관 투자자들이 비트코인 ​​ETF에 손을 대고 있음이 드러났으며, 이는 비트코인 ​​ETF에 대한 수용이 증가하고 있음을 강조합니다.

현장 사진

선고일이 다가왔습니다: 미국 법원이 DOJ의 주장을 고려함에 따라 CZ의 운명이 균형을 이루고 있습니다.

자오창펑(Changpeng Zhao)은 오늘 시애틀의 미국 법원에서 선고를 받을 예정이다.

현장 사진
혁신적인 기술 커뮤니티에 참여하세요
상세 보기
자세히 보기
Injective는 AltLayer와 힘을 합쳐 inEVM에 재스테이킹 보안을 도입했습니다.
근무지에서 발생 뉴스 보도 Technology
Injective는 AltLayer와 힘을 합쳐 inEVM에 재스테이킹 보안을 도입했습니다.
2024 년 5 월 3 일
Masa는 텔러와 협력하여 MASA 대출 풀을 도입하고 USDC에서 베이스 대출을 활성화합니다.
시장 뉴스 보도 Technology
Masa는 텔러와 협력하여 MASA 대출 풀을 도입하고 USDC에서 베이스 대출을 활성화합니다.
2024 년 5 월 3 일
Velodrome은 앞으로 몇 주 안에 Superchain 베타 버전을 출시하고 OP 스택 레이어 2 블록체인으로 확장합니다.
시장 뉴스 보도 Technology
Velodrome은 앞으로 몇 주 안에 Superchain 베타 버전을 출시하고 OP 스택 레이어 2 블록체인으로 확장합니다.
2024 년 5 월 3 일
CARV, 데이터 계층을 분산화하고 보상을 분배하기 위해 Aethir와의 파트너십 발표
근무지에서 발생 뉴스 보도 Technology
CARV, 데이터 계층을 분산화하고 보상을 분배하기 위해 Aethir와의 파트너십 발표
2024 년 5 월 3 일
CRYPTOMERIA LABS PTE. LTD.