business애플의 AI가 드디어 탄생하다. 그 이름은 "MM1"

2024-03-19


애플의 새로운 AI "MM1"

애플의 MM1은 텍스트와 시각 정보를 모두 이해하고 생성할 수 있는 대규모 언어 모델(LLM)인 멀티모달 LLM입니다. 이 멀티모달 LLM은 "MM1: 멀티모달 LLM 사전 트레이닝의 방법, 분석 및 통찰력(MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)"이라는 제목의 애플 연구 논문에 자세히 설명되어 있으며, 텍스트와 시각적 데이터를 원활하게 통합하여 이미지 캡션 생성, 시각적 질문 답변, 자연어 추론과 같은 복잡한 작업을 높은 정확도로 수행할 수 있는 새로운 기준을 세웠습니다.

논문 원문 사이트 바로 가기 

(이 글의 끝에 논문 원문을 E-book으로 제공합니다.) 


애플의 MM1 모델은 이미지-캡션 쌍, 이미지-텍스트 문서, 텍스트 전용 데이터 등 다양한 데이터 세트를 활용합니다. 이를 통해 모델은 시각적, 언어적 단서를 이해하고 이를 바탕으로 언어를 생성할 수 있게 되어 세밀한 세계 이해가 필요한 작업을 수행할 수 있습니다. 

MM1 모델은 특히 최대 300억 개의 매개변수를 가진 구성으로 대규모 사전 학습을 통해 향상된 상황 내 학습 및 다중 이미지 추론 기능을 갖추고 있어 단 몇 초 만에 사고의 연쇄를 유도할 수 있습니다. 즉, 이 모델은 최소한의 예제를 기반으로 복잡하고 개방적인 문제 해결을 수행할 수 있습니다.


MM1의 개발은 AI 분야에서 치열해지는 경쟁 속에서 애플의 AI 역량을 강화하기 위한 더 큰 계획의 일환입니다. 애플이 수행한 멀티모달 LLM 연구는 상당히 발전된 내용을 포함하고 있으며, 곧 애플이 AI 생태계에서 주요 역할을 할 수 있음을 보여주고 있습니다.  MM1 모델은 최대 300억 개 매개변수를 지원하고 다양한 공인 멀티모달 벤치마크에서 사전 학습 후 경쟁력 있는 성능을 달성하였습니다. 

이미지와 텍스트를 모두 활용하여 모델을 훈련하는 이 혁신적인 방식은 더 큰 데이터 세트로 모델을 확장하여 보다 나은 성능과 신뢰성을 달성하는 데 영향을 미칠 수 있습니다.


MM1이 텍스트와 시각적 데이터를 통합하는 방법

 Apple이 개발한 MM1 AI 모델은 이미지-캡션 쌍(image-caption pairs), 인터리브 이미지-텍스트 문서(nterleaved image-text documents), 텍스트 전용 데이터( text-only data) 등 세 가지 주요 데이터 유형으로 구성된 다양한 데이터 세트를 활용하는 고유한 접근 방식을 통해 텍스트와 시각적 데이터를 통합합니다.

이 멀티모달 훈련 전략을 통해 MM1 모델은 시각적 및 언어적 단서 모두에서 정보를 얻은 언어를 이해하고 생성할 수 있으며, 이는 복잡한 이미지를 해석하거나 시각적 요소가 포함된 질문에 답하는 등 세상에 대한 미묘한 이해가 필요한 작업에 필수적입니다.


이미지-캡션 쌍(image-caption pairs)

이미지-캡션 쌍은 시각적 콘텐츠와 텍스트 설명 사이의 직접적인 관계를 이해하도록 모델을 학습시키는 데 사용됩니다. 이 쌍은 모델이 이미지에 대한 캡션을 정확하게 생성하거나 관련 텍스트를 기반으로 이미지의 콘텐츠를 해석하는 데 도움이 됩니다.


인터리브 이미지-텍스트 문서(nterleaved image-text documents)

인터리브 이미지-텍스트 문서를 사용하면 모델이 주변 텍스트의 컨텍스트 내에서 이미지를 분석할 수 있습니다. 이 방법은 이미지와 텍스트가 상호 작용하여 의미를 전달하는 방식에 대한 심층적인 이해를 촉진하여 모델이 시각적 질문 답변 및 자연어 추론과 같은 작업을 높은 정확도로 수행할 수 있게 해줍니다.


텍스트 전용 데이터( text-only data)

멀티모달 모델에 텍스트 전용 데이터를 포함하는 것이 직관적이지 않을 수 있지만, 이 구성 요소는 모델의 핵심 언어 처리 능력을 강화하는 데 매우 중요합니다. 텍스트 전용 문서에 대한 훈련을 통해 MM1은 멀티모달 작업의 전반적인 성능의 기반이 되는 언어 처리 및 생성 기능을 향상시킵니다.


시각 데이터와 텍스트 데이터를 결합한 이 포괄적인 훈련 접근 방식은 복잡한 이미지를 해석하고 미묘한 이해가 필요한 작업을 수행하는 AI의 능력에 새로운 기준을 제시합니다. 텍스트와 시각 정보를 원활하게 통합하는 MM1 모델은 보다 지능적이고 유연한 AI 시스템 개발에 있어 중요한 진전을 이루었습니다.


MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training




(광고) 미국 현지의 넷플릭스 방송을 보고 싶다면? NordVPN를 사용하세요!