영상 생성 모델의 보존-변형 동시 제어
영상 생성 모델에 “X는 그대로 두고 Y만 바꿔라”는 요청을 했을 때, 모델이 입력을 reconstruct하는 구조라면 보존(preservation)과 변형(transformation)을 동시에 제어하기 본질적으로 어렵다는 관측. Gemini-Omni 출시 직후 실사용 리뷰에서 반복 확인된 패턴.
원인 추정
입력 영상을 한 번에 분석한 뒤 인물·아이템·구도를 잠재 표현으로 압축하고, 그 위에서 전체를 다시 생성한다면 “어떤 픽셀은 보존, 어떤 픽셀은 교체”가 같은 디코딩 단계에서 분리되지 않는다. Nano-Banana처럼 프레임 단위 재생성을 연속 재생하는 방식도 동일한 한계를 공유한다.
관측되는 증상
- 명시적 제약(“아이템은 그대로”)을 프롬프트에 넣어도 무시
- 의도하지 않은 요소(옷, 가구, 책장 배열)가 함께 교체됨
- 두 번째 generation이 첫 번째보다 자연스러운 비결정성
- 멀티 세그먼트(다중 테마) 시 테마는 반영하나 원본 객체 보존 실패
우회 전략 (관측된 범위)
- 부분 수정 도구로 사용: 처음부터 끝까지 생성 대신, 특정 요소 제거·교체에 집중
- 마스킹/세그멘테이션 기반 편집: 보존 영역을 명시적으로 분리하는 외부 파이프라인
- 이터레이션 누적: 여러 번 돌려 자연스러운 결과를 선택
- 레퍼런스 이미지 동시 입력: 효과는 불안정하지만 가이드는 됨
관련
- Gemini-Omni — 본 한계가 관측된 모델
- Google-Flow — 동일 한계 관측 인터페이스
- Nano-Banana — 이미지 도메인 동일 패러다임
- Hallucination — 텍스트 LLM의 지시 위반 패턴이 영상으로 확장