뉴스 보도 Technology
2023년 6월 28일

Microsoft는 대규모 교육용 시각적 텍스트 데이터 세트 MIMIC-IT를 기반으로 시각적 이해를 위한 다중 모드 언어 모델 Otter를 도입했습니다.

요컨대

Otter는 시각적 이해를 혁신하고 시각적 콘텐츠와 상호 작용하도록 설계된 OpenFlamingo 플랫폼에 구축된 시각적 언어 모델(VLM)입니다.

수달 는 최첨단 시각 언어 모델(VLM)을 기반으로 구축되었습니다. 오픈플라밍고 플랫폼이며 시각적 콘텐츠와 상호 작용하는 방식을 개선하도록 설정되었습니다. 야심 찬 Otter 프로젝트의 일환으로 Microsoft는 도입했다 라는 방대한 교육용 시각적 텍스트 데이터 세트 미믹-IT. 이 데이터 세트에는 이미지와 비디오에서 파생된 2.8만 개의 고유한 명령을 포함하여 답변이 있는 2.2만 쌍의 연결된 다중 모드 명령이 포함되어 있습니다. 데이터 세트는 이미지 및 비디오 설명, 이미지 비교, 질문 답변, 장면 이해 등과 같은 시나리오를 다루는 자연스러운 대화를 시뮬레이션하도록 세심하게 선별되었습니다. 이러한 고품질 명령-응답 쌍은 강력한 ChatGPT-0301 API, 약 $20의 투자를 나타냅니다.

Microsoft는 대규모 교육용 시각적 텍스트 데이터 세트 MIMIC-IT를 기반으로 시각적 이해를 위한 다중 모드 언어 모델 Otter를 도입했습니다.

MIMIC-IT 데이터 세트는 시각적 장면, 추론 및 논리적 결론을 이해하는 데 탁월하도록 설계된 Otter 모델을 교육하는 데 중요한 역할을 합니다. 데이터 세트의 각 지침-응답 쌍에는 다중 모드 컨텍스트 내 정보가 수반되어 모델이 인식, 추론 및 계획의 뉘앙스를 파악할 수 있도록 하는 대화 컨텍스트를 생성합니다. 주석 프로세스를 확장하기 위해 Microsoft는 Syphus라는 자동 주석 파이프라인을 사용했습니다. GPT 데이터 세트의 품질과 다양성을 보장합니다.

Microsoft는 대규모 교육용 시각적 텍스트 데이터 세트 MIMIC-IT를 기반으로 시각적 이해를 위한 다중 모드 언어 모델 Otter를 도입했습니다.

MIMIC-IT 데이터 세트를 사용하여 Microsoft는 OpenFlamingo 플랫폼을 기반으로 하는 대규모 VLM인 Otter 모델을 교육했습니다. 시각 언어 벤치마크에 대한 광범위한 평가를 통해 Otter는 다중 모드 인식, 추론 및 상황 내 학습에서 놀라운 능력을 입증했습니다. 사람의 평가를 통해 사용자의 의도와 효과적으로 일치하는 능력이 밝혀졌으며 자연어 지침을 기반으로 복잡한 작업을 해석하고 실행하는 데 매우 유용한 도구가 되었습니다.

Otter v0.2는 비디오 입력을 지원하는 기능을 확장하여 프로세스 프레임 상황에 맞는 예로서 여러 이미지.

명령-응답 수집 파이프라인, 벤치마크 및 Otter 모델과 함께 MIMIC-IT 데이터 세트의 출시는 다중 모달 언어 처리 분야에서 중요한 이정표를 나타냅니다. 연구원과 개발자가 이러한 리소스를 사용할 수 있도록 함으로써 Microsoft는 Otter와 OpenFlamingo를 인기 있는 포옹하는 얼굴 트랜스포머 프레임워크.

MIMIC-IT 데이터 세트는 광범위한 실제 시나리오를 포함하여 VLM(Vision-Language Models)이 일반적인 장면을 이해하고 상황에 대한 이유를 이해하고 관찰을 지능적으로 구별할 수 있도록 합니다. 이것은 "이봐, 내가 내 열쇠를 테이블 위에 두고 온 것 같아?"와 같은 질문에 답할 수 있는 자기 중심적인 시각적 비서 모델의 개발과 같은 가능성을 열어줍니다.

MIMIC-IT는 영어에만 국한되지 않습니다. 또한 중국어, 한국어, 일본어, 독일어, 프랑스어, 스페인어 및 아랍어를 포함한 여러 언어를 지원합니다. 이 다국어 지원을 통해 더 많은 전 세계 사용자가 AI가 제공하는 편리함과 발전의 이점을 누릴 수 있습니다.

고품질 명령-응답 쌍 생성을 보장하기 위해, Microsoft Syphus는 시스템 메시지, 시각적 주석 및 컨텍스트 내 예제를 프롬프트로 통합하는 자동화된 파이프라인인 Syphus를 도입했습니다. ChatGPT. 이렇게 하면 여러 언어에서 생성된 명령-응답 쌍의 신뢰성과 정확성이 보장됩니다.

AI에 대해 자세히 알아보기:

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

더 많은 기사
다미르 얄랄로프
다미르 얄랄로프

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

Hot Stories
뉴스레터에 가입하세요.
최신 뉴스

변동성 속에서 비트코인 ​​ETF를 향한 기관의 선호도 증가

13F 서류를 통한 공개를 통해 주목할만한 기관 투자자들이 비트코인 ​​ETF에 손을 대고 있음이 드러났으며, 이는 비트코인 ​​ETF에 대한 수용이 증가하고 있음을 강조합니다.

현장 사진

선고일이 다가왔습니다: 미국 법원이 DOJ의 주장을 고려함에 따라 CZ의 운명이 균형을 이루고 있습니다.

자오창펑(Changpeng Zhao)은 오늘 시애틀의 미국 법원에서 선고를 받을 예정이다.

현장 사진
혁신적인 기술 커뮤니티에 참여하세요
상세 보기
자세히 보기
Notcoin은 토큰 공급량의 5%를 500,000명의 커뮤니티 회원과 암호화폐 거래소 사용자에게 배포할 계획입니다.
시장 뉴스 보도 Technology
Notcoin은 토큰 공급량의 5%를 500,000명의 커뮤니티 회원과 암호화폐 거래소 사용자에게 배포할 계획입니다.
2024 년 5 월 13 일
도널드 트럼프의 암호화폐로의 전환: 반대자에서 옹호자로, 그리고 이것이 미국 암호화폐 시장에 미치는 영향
근무지에서 발생 시장 이야기와 리뷰 Technology
도널드 트럼프의 암호화폐로의 전환: 반대자에서 옹호자로, 그리고 이것이 미국 암호화폐 시장에 미치는 영향
2024 년 5 월 10 일
Layer3, 올 여름 L3 토큰 출시, 총 공급량의 51%를 커뮤니티에 할당
시장 뉴스 보도 Technology
Layer3, 올 여름 L3 토큰 출시, 총 공급량의 51%를 커뮤니티에 할당
2024 년 5 월 10 일
비트코인 개발자에 대한 Edward Snowden의 마지막 경고: “프라이버시를 프로토콜 수준 우선순위로 삼지 않으면 손실 위험이 있습니다.
시장 보안 Wiki 소프트웨어 이야기와 리뷰 Technology
비트코인 개발자에 대한 Edward Snowden의 마지막 경고: “프라이버시를 프로토콜 수준 우선순위로 삼지 않으면 손실 위험이 있습니다.
2024 년 5 월 10 일
CRYPTOMERIA LABS PTE. LTD.