뉴스 보도 Technology
2023년 6월 28일

SnapFusion: 1.9초 이내에 모바일 장치를 위한 빠른 텍스트-이미지 모델

요컨대

SnapFusion은 다음을 실행하여 콘텐츠 생성을 변경합니다. 텍스트 대 이미지 확산 모델 비용을 절감하고 개인 정보 보호 문제를 해결합니다.

스냅퓨전 텍스트를 이미지로 변환하는 AI 모델로 사용자는 모바일 장치에서 단 XNUMX초 만에 자연어 설명에서 놀라운 이미지를 생성할 수 있습니다. 이러한 복잡한 모델을 실행하기 위해 고급 GPU 또는 클라우드 기반 서비스에 의존하던 시대는 지났습니다. SnapFusion은 사용자의 손에 텍스트에서 이미지로의 확산 기능을 부여하여 콘텐츠 생성을 민주화합니다.

SnapFusion: 1.9초 이내에 모바일 장치를 위한 빠르고 효율적인 텍스트-이미지 모델
신용 : Midjourney / lili10292#2100

텍스트 설명에서 사실적인 이미지를 만드는 것은 항상 어려운 작업이었습니다. 이전 모델 필요한 대규모 네트워크 아키텍처 노이즈 제거를 여러 번 반복하여 계산적으로 비싸고 느림. 또한 이러한 모델을 실행하는 데 사용자 데이터를 타사 서비스로 보내는 작업이 포함되는 경우가 많았습니다. 개인 정보 보호 문제.

이러한 문제를 해결하기 위해 SnapFusion 제작자는 효율적인 네트워크 아키텍처를 개발하고 단계 증류 프로세스를 개선했습니다. 원래 모델에서 중복을 식별하여 효율적인 UNet을 도입하고 다음을 통해 이미지 디코더의 계산을 줄였습니다. 데이터 증류. 또한 훈련 전략을 탐색하고 정규화 기술을 도입하여 단계적 증류를 강화했습니다.

arxiv.org/pdf/2306.00980.pdf

대한 광범위한 실험 MS-COCO 데이터 세트 SnapFusion의 우수성을 입증했습니다. SnapFusion은 단 XNUMX단계의 노이즈 제거 단계로 이전 제품에 비해 더 나은 FID 및 CLIP 점수를 달성했습니다. 최첨단 모델, Stable Diffusion 1.5단계가 필요한 v50. 이러한 효율성과 성능의 놀라운 향상은 콘텐츠 제작의 새로운 가능성을 열어줍니다.

SnapFusion의 영향은 기술적인 성과를 넘어섭니다. 실행하여 텍스트 대 이미지 확산 모델 모바일 장치에서 직접 사용하므로 값비싼 GPU 및 클라우드 기반 서비스가 필요하지 않습니다. 이는 비용을 절감할 뿐만 아니라 사용자 데이터를 제XNUMX자에게 보내는 것과 관련된 개인 정보 보호 문제도 해결합니다. 이제 사용자는 이동 중에도 창의력을 발휘하고 고품질 이미지를 생성할 수 있습니다.

다양한 에지 장치와 호환되도록 모델의 매개변수 크기를 더 줄일 수 있습니다. 또한 다양한 모바일 장치에 대한 모델을 최적화하여 빠른 추론 달성 속도는 지속적인 연구 주제입니다.

악성 응용 프로그램을 방지하려면 SnapFusion 및 유사 기술을 책임감 있게 사용하는 것이 중요합니다. 규정을 위반하는 이미지 콘텐츠를 식별하고 표시하는 자동 감지 시스템과 같은 조치를 취할 수 있습니다. 혁신과 윤리적 고려 사이의 균형을 유지함으로써 SnapFusion은 안전하고 책임감 있는 사용자 경험을 보장하면서 콘텐츠 제작을 변화시킬 수 있습니다.

AI에 대해 자세히 알아보기:

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

더 많은 기사
다미르 얄랄로프
다미르 얄랄로프

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

Hot Stories

Inside Wall Street Memes(WSM): 헤드라인 공개

by 빅토리아 팔치크
2024 년 5 월 07 일
뉴스레터에 가입하세요.
최신 뉴스

변동성 속에서 비트코인 ​​ETF를 향한 기관의 선호도 증가

13F 서류를 통한 공개를 통해 주목할만한 기관 투자자들이 비트코인 ​​ETF에 손을 대고 있음이 드러났으며, 이는 비트코인 ​​ETF에 대한 수용이 증가하고 있음을 강조합니다.

현장 사진

선고일이 다가왔습니다: 미국 법원이 DOJ의 주장을 고려함에 따라 CZ의 운명이 균형을 이루고 있습니다.

자오창펑(Changpeng Zhao)은 오늘 시애틀의 미국 법원에서 선고를 받을 예정이다.

현장 사진
혁신적인 기술 커뮤니티에 참여하세요
상세 보기
자세히 보기
LD Capital, Antalpha Ventures 및 Highblock Limited가 힘을 합쳐 128억 XNUMX만 달러 규모의 홍콩 ETF 유동성 펀드 출시
근무지에서 발생 시장 뉴스 보도
LD Capital, Antalpha Ventures 및 Highblock Limited가 힘을 합쳐 128억 XNUMX만 달러 규모의 홍콩 ETF 유동성 펀드 출시
2024 년 5 월 8 일
Inside Wall Street Memes(WSM): 헤드라인 공개
근무지에서 발생 시장 이야기와 리뷰 Technology
Inside Wall Street Memes(WSM): 헤드라인 공개
2024 년 5 월 7 일
암호화폐 고래를 발견하세요: 시장에 있는 사람은 누구인가요?
근무지에서 발생 시장 이야기와 리뷰 Technology
암호화폐 고래를 발견하세요: 시장에 있는 사람은 누구인가요?
2024 년 5 월 7 일
Orbiter Finance는 비트코인 ​​레이어 2 Zulu 네트워크와 파트너십을 맺고 Is Lwazi 테스트넷에 배포합니다.
근무지에서 발생 뉴스 보도 Technology
Orbiter Finance는 비트코인 ​​레이어 2 Zulu 네트워크와 파트너십을 맺고 Is Lwazi 테스트넷에 배포합니다. 
2024 년 5 월 7 일
CRYPTOMERIA LABS PTE. LTD.