Microsoft는 대규모 교육용 시각적 텍스트 데이터 세트 MIMIC-IT를 기반으로 시각적 이해를 위한 다중 모드 언어 모델 Otter를 도입했습니다.
요컨대
Otter는 시각적 이해를 혁신하고 시각적 콘텐츠와 상호 작용하도록 설계된 OpenFlamingo 플랫폼에 구축된 시각적 언어 모델(VLM)입니다.
수달 는 최첨단 시각 언어 모델(VLM)을 기반으로 구축되었습니다. 오픈플라밍고 플랫폼이며 시각적 콘텐츠와 상호 작용하는 방식을 개선하도록 설정되었습니다. 야심 찬 Otter 프로젝트의 일환으로 Microsoft는 도입했다 라는 방대한 교육용 시각적 텍스트 데이터 세트 미믹-IT. 이 데이터 세트에는 이미지와 비디오에서 파생된 2.8만 개의 고유한 명령을 포함하여 답변이 있는 2.2만 쌍의 연결된 다중 모드 명령이 포함되어 있습니다. 데이터 세트는 이미지 및 비디오 설명, 이미지 비교, 질문 답변, 장면 이해 등과 같은 시나리오를 다루는 자연스러운 대화를 시뮬레이션하도록 세심하게 선별되었습니다. 이러한 고품질 명령-응답 쌍은 강력한 ChatGPT-0301 API, 약 $20의 투자를 나타냅니다.
MIMIC-IT 데이터 세트는 시각적 장면, 추론 및 논리적 결론을 이해하는 데 탁월하도록 설계된 Otter 모델을 교육하는 데 중요한 역할을 합니다. 데이터 세트의 각 지침-응답 쌍에는 다중 모드 컨텍스트 내 정보가 수반되어 모델이 인식, 추론 및 계획의 뉘앙스를 파악할 수 있도록 하는 대화 컨텍스트를 생성합니다. 주석 프로세스를 확장하기 위해 Microsoft는 Syphus라는 자동 주석 파이프라인을 사용했습니다. GPT 데이터 세트의 품질과 다양성을 보장합니다.
MIMIC-IT 데이터 세트를 사용하여 Microsoft는 OpenFlamingo 플랫폼을 기반으로 하는 대규모 VLM인 Otter 모델을 교육했습니다. 시각 언어 벤치마크에 대한 광범위한 평가를 통해 Otter는 다중 모드 인식, 추론 및 상황 내 학습에서 놀라운 능력을 입증했습니다. 사람의 평가를 통해 사용자의 의도와 효과적으로 일치하는 능력이 밝혀졌으며 자연어 지침을 기반으로 복잡한 작업을 해석하고 실행하는 데 매우 유용한 도구가 되었습니다.
Otter v0.2는 비디오 입력을 지원하는 기능을 확장하여 프로세스 프레임 상황에 맞는 예로서 여러 이미지.
명령-응답 수집 파이프라인, 벤치마크 및 Otter 모델과 함께 MIMIC-IT 데이터 세트의 출시는 다중 모달 언어 처리 분야에서 중요한 이정표를 나타냅니다. 연구원과 개발자가 이러한 리소스를 사용할 수 있도록 함으로써 Microsoft는 Otter와 OpenFlamingo를 인기 있는 포옹하는 얼굴 트랜스포머 프레임워크.
MIMIC-IT 데이터 세트는 광범위한 실제 시나리오를 포함하여 VLM(Vision-Language Models)이 일반적인 장면을 이해하고 상황에 대한 이유를 이해하고 관찰을 지능적으로 구별할 수 있도록 합니다. 이것은 "이봐, 내가 내 열쇠를 테이블 위에 두고 온 것 같아?"와 같은 질문에 답할 수 있는 자기 중심적인 시각적 비서 모델의 개발과 같은 가능성을 열어줍니다.
MIMIC-IT는 영어에만 국한되지 않습니다. 또한 중국어, 한국어, 일본어, 독일어, 프랑스어, 스페인어 및 아랍어를 포함한 여러 언어를 지원합니다. 이 다국어 지원을 통해 더 많은 전 세계 사용자가 AI가 제공하는 편리함과 발전의 이점을 누릴 수 있습니다.
고품질 명령-응답 쌍 생성을 보장하기 위해, Microsoft Syphus는 시스템 메시지, 시각적 주석 및 컨텍스트 내 예제를 프롬프트로 통합하는 자동화된 파이프라인인 Syphus를 도입했습니다. ChatGPT. 이렇게 하면 여러 언어에서 생성된 명령-응답 쌍의 신뢰성과 정확성이 보장됩니다.
AI에 대해 자세히 알아보기:
책임 부인
줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.
저자에 관하여
Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다.
더 많은 기사Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다.