Gemini Omni! 영상계의 나노 바나나, 제가 써봤습니다
요약
Gemini-Omni 실사용 리뷰. Gemini 챗 + Google-Flow (Ultra 플랜) 두 경로로 4개 시나리오를 테스트한 결과, 구글 프로모션과 달리 원본 요소(오피스 가구·옷·책장 등)가 통째로 재구성되는 한계를 확인. “이 아이템은 그대로 두라”는 명시적 제약도 무시되며, 신규 서비스 트래픽으로 이터레이션 비용이 큰 상태. 단, 부분 요소 제거(브이로그 객체 삭제)와 AI-UGC 광고 영역에서는 활용 가능성 시사.
IDEAS
- Gemini-Omni는 Google-IO-2026 발표 직후 Gemini 챗과 Google-Flow (Ultra 플랜 한정)에서 접근 가능
- 단순 텍스트 프롬프트만으로 영상 배경·요소 변경을 시도할 수 있지만 의도하지 않은 요소까지 함께 변형됨
- 영상 분석 → 인물·아이템·구도 파악 → 재구성 방식으로 작동하는 것으로 추정 (입력을 reconstruct)
- Nano-Banana처럼 프레임 단위로 재생성한 결과를 연속 재생하는 구조일 가능성
- “이 아이템들은 그대로 두라”는 익스플리시트한 제약을 명시해도 무시되는 경우가 많음
- 멀티 세그먼트(여러 배경을 2.5초씩 4개) 시 일부 테마만 반영, 원본 객체 보존 실패
- Google-Flow에서 레퍼런스 배경을 함께 넣어도 의도와 달리 전체가 바뀜
- 동일 프롬프트로 두 번째 generation이 첫 번째보다 자연스러운 경향
- 바닥(floor) 처리가 불안정 — 어떤 때는 유지, 어떤 때는 “시장 바닥”으로 교체
- 신규 서비스 출시 직후로 서버가 매우 느려 이터레이션 실험이 제한됨
- 단순 요소 제거(브이로그에서 특정 객체 삭제) 용도로는 영상 편집툴보다 효율적일 가능성
- AI-UGC 광고 영역에 활용 가능성 — 인플루언서 계약 대비 저비용
- 프로모션의 “딸각 한 번에 원하는 결과” 수준에는 미달
- 결과 안정성이 부족 — 이터레이션 + 프롬프트 기법 학습이 필요한 단계
INSIGHTS
- 보존 vs 변형의 제어 난점: 영상 생성 모델이 입력을 reconstruct하는 구조라면 “어떤 요소를 그대로 두고, 어떤 요소를 바꾸라”는 동시 제어가 본질적으로 어렵다. 마스킹·세그멘테이션 기반 편집 모델과의 갭이 여기서 발생한다.
- 마케팅 데모와 실제 사용자 경험의 갭: 신기능 출시 직후 데모는 cherry-pick 경향이 크다 — 실제 워크플로우 테스트로 한계를 확인하는 단계가 필요하다.
- 자기 해석으로 덮어쓰는 LLM 영상 모델: 명시적 제약(constraints)을 프롬프트에 명시해도 모델이 자기 판단으로 덮어쓰는 행동은 텍스트 LLM의 환각/지시 위반 패턴이 영상 도메인으로 확장된 모습.
- 초기 안정화 단계의 이터레이션 비용: 새 서비스의 첫 며칠은 서버 지연 + 결과 변동성 + 프롬프트 노하우 부족이 겹쳐 활용 가치를 잠식한다.
- 영상 AI의 실용적 진입점은 “부분 수정”: 처음부터 끝까지 생성보다, 기존 영상의 특정 요소 제거·교체가 우선 commercially viable한 영역.
- AI-UGC 광고가 첫 수익 자리: 인플루언서 계약 대안 — 저비용·다량 생성이 가능한 도메인부터 영상 AI가 정착할 가능성.
QUOTES
“원래 있었던 요소들을 그대로 가져가지는 못했다.”
“그냥 대강적으로 한 줄만 써도 배경이 잘 바뀌는 것처럼 했으니까.”
“이게 아직 제대로 그니까 오늘 나온이 기능들이 조금 안정적이지는 않아요.”
“이 정도는 사실 우리가 몇 번 이터레이션 하면은 그러면 우리가 충분히 변경할 수 있는 요소인 거 같아요.”
“프로모션에서 봤던 것처럼 진짜 딸각으로 그냥 우리가 원하는 대로 한 번에 나오는 느낌까지는 아니다.”
“인플루언서 뭐 계약하고서 하는 것보다 그냥 돈 내고서 내가 만들어 가지고 광고 태우고 싶다라고 하면은 조금 유용할 수도 있지 않을까.”
REFERENCES
- Gemini-Omni — 구글 신규 영상 생성 모델 (리뷰 대상)
- Google-Flow — Ultra 플랜에서 사용 가능한 영상 생성 도구
- Gemini — 챗 인터페이스에서도 옴니 사용 가능
- Nano-Banana — 비교 레퍼런스 (프레임 단위 재생성 구조 추정의 근거)
- Google-IO-2026 — 발표 행사
- 코드팩토리 — 리뷰어/채널
- 귀멸의 칼날 / 탄지로 — 멀티 세그먼트 테마 테스트에 사용된 IP
- AI-UGC — 영상 AI의 첫 수익 영역 후보
FACTS
- 영상 길이: 8분 26초 (506초)
- 업로드: 2026-05-20 (Google I/O 2026 직후)
- 멀티 세그먼트 영상에서 각 2.5초씩 4개 배경 설정 가능
- 발표 당시 서버 응답 시간이 평소보다 매우 느린 상태
- Gemini Ultra 플랜은 Google-Flow 도구 사용 권한 포함
- 4가지 시나리오 테스트: ①오피스 스냅→애니메이션, ②책 인증샷 + “앙기모링”, ③귀멸의 칼날 멀티 배경 운동 영상, ④타자 치는 척 → 키보드 합성
RECOMMENDATIONS
- 마케팅 영상보다 자기 워크플로우의 실제 영상으로 한계를 확인하라
- 안정성 부족 단계에서는 이터레이션 + 프롬프트 정교화 비용을 사전 견적하라
- AI-UGC 광고 자동 생성처럼 저비용·다량 생성 영역부터 적용을 시도하라
- 영상 전체 생성 대신 부분 수정(특정 요소 제거)을 우선 사용처로 검토하라
관련
- yt-3bdskYgCjGI-구글-Gemini-Omni-완벽가이드 — Google I/O 사전 시연 (긍정적 데모)
- yt-7T0ZQuWn2jw-구글IO-안티그래비티2.0-제미나이3.5플래시 — 같은 시기 구글 발표
- AI-UGC — 영상 AI 광고 활용 개념
- Nano-Banana — 이미지 도메인 동일 패러다임 모델
- 영상생성모델-보존변형-제어 — 본 리뷰에서 추상화된 개념