네이티브 멀티모달 (Native Multimodal)
텍스트·이미지·비디오·오디오 등 여러 모달리티를 단일 모델이 처음부터 통합 학습하는 AI 아키텍처. 기존의 “여러 AI를 파이프라인으로 연결하는” 방식과 근본적으로 다르다.
핵심 차이
| 구분 | 연결형 멀티모달 | 네이티브 멀티모달 |
|---|---|---|
| 구조 | 모달별 독립 모델 + 연결 | 단일 통합 모델 |
| 맥락 유지 | 연결 지점에서 맥락 손실 위험 | 전체 맥락 일관성 유지 |
| 예시 | 이미지 인식 모델 + LLM 연결 | Gemini-Omni, GPT-4o ([[wiki/entities/openai |
특징
- 물리적 상호 작용(오디오-시각)을 통합 이해
- 한 번의 추론으로 여러 모달 출력 생성 가능
- 맥락(컨텍스트) 붕괴 없이 일관된 콘텐츠 생성
대표 모델
- Gemini-Omni (Google, 2026)
- GPT-4o (OpenAI)
관련 개념
- 월드-모델 — 네이티브 멀티모달의 이론적 기반 중 하나