네이티브 멀티모달 (Native Multimodal)

텍스트·이미지·비디오·오디오 등 여러 모달리티를 단일 모델이 처음부터 통합 학습하는 AI 아키텍처. 기존의 “여러 AI를 파이프라인으로 연결하는” 방식과 근본적으로 다르다.

핵심 차이

구분	연결형 멀티모달	네이티브 멀티모달
구조	모달별 독립 모델 + 연결	단일 통합 모델
맥락 유지	연결 지점에서 맥락 손실 위험	전체 맥락 일관성 유지
예시	이미지 인식 모델 + LLM 연결	Gemini-Omni, GPT-4o ([[wiki/entities/openai