Google Genie
Google (정확히는 GoogleDeepMind) 가 Google-IO-2026 에서 공개한 월드 모델(World Model) 기반 환경 생성 도구. 캐릭터와 환경 두 가지 입력을 받아 게임·VR·XR·AI 에이전트 학습용 상호작용 가능한 가상 환경을 자동 생성한다.
입력·출력 모델
[Character 토큰] + [Environment 토큰] → Genie → Interactive Virtual Environment
Google-IO-2026 현장 데모에서는 물리 테이블 UI 에 두 종류의 토큰을 끼우면 환경이 생성되는 형태로 시연되었다.
추정 위치 (모달리티 통합 스택)
화자(CONNECT-AI-LAB AI 멘토 제이)는 다음 파이프라인을 가설로 제시:
World Model → Image Generation → [[wiki/entities/Gemini-Omni|Omni]] → Genie
(정적 모달리티) (멀티모달 통합) (상호작용 환경)
주요 용도
| 영역 | 활용 |
|---|---|
| 게임 콘텐츠 | 절차적 레벨·맵 자동 생성 |
| VR / XR | 즉석 가상 공간 구축 |
| AI 에이전트 학습 | 합성 시뮬레이션 환경 무한 공급 (RL 인프라) |
가장 큰 임팩트는 에이전트 학습용 합성 환경 공급 이다. 모델 학습에 필요한 환경을 사람이 직접 만들 필요 없이, 모델이 모델 학습 환경을 만드는 자기복제형 RL 파이프라인의 단초가 된다.
의의
- 자율 에이전트 학습 비용/속도의 병목이 환경 합성 으로 이동.
- Gemini-Omni 가 입력 모달리티 통합이라면, Genie 는 출력 환경 합성 — 듀얼 방향성.
- Sora 류 비디오 생성과의 결정적 차이: 상호작용 가능(interactive) 환경.
Genie 3 — 이미지→물리 시뮬레이션 (2026-05-24 데모)
EP.4에서 시연된 Genie 3는 실내 사진 한 장을 입력하면 물리 법칙이 구현된 3D 인터랙티브 환경을 즉시 생성:
- 거실 사진 업로드 → 소파·장애물 인식
- 소파를 드래그하면 물리 충돌·이동 반응
- Boston Dynamics 로봇 캐릭터를 환경 안에 배치 → 장애물 회피 학습 환경 완성
“엄청난 비용이 들어가는 걸 지금 우리가 이미지로 그냥 환경을 생성해 버린 거예요”
의의: 기존 Unity 기반 시뮬레이션 구축 비용/시간을 이미지 한 장으로 대체. 각 가정의 서로 다른 레이아웃을 AI가 자동으로 시뮬레이션화 가능 → 개인화 로봇 학습 환경 민주화.
출처
- yt-8VM-RoG51RY-구글IO2026-1일차-현장체험 — 체험존 시연 (CONNECT AI LAB, 2026-05-21)
- yt-XGuC41Xbf_E-웨이모탑승-피지컬AI-구글IO4 — Genie 3 이미지→시뮬레이션 데모 (2026-05-24)
- Google-IO-2026 — 발표 컨퍼런스
관련 노트
- Gemini-Omni — 인접 모달리티 모델
- GoogleDeepMind — 개발 조직 추정
- Autonomous-Agent — 주요 수요처