영상 생성 모델의 보존-변형 동시 제어

영상 생성 모델에 “X는 그대로 두고 Y만 바꿔라”는 요청을 했을 때, 모델이 입력을 reconstruct하는 구조라면 보존(preservation)과 변형(transformation)을 동시에 제어하기 본질적으로 어렵다는 관측. Gemini-Omni 출시 직후 실사용 리뷰에서 반복 확인된 패턴.

원인 추정

입력 영상을 한 번에 분석한 뒤 인물·아이템·구도를 잠재 표현으로 압축하고, 그 위에서 전체를 다시 생성한다면 “어떤 픽셀은 보존, 어떤 픽셀은 교체”가 같은 디코딩 단계에서 분리되지 않는다. Nano-Banana처럼 프레임 단위 재생성을 연속 재생하는 방식도 동일한 한계를 공유한다.

관측되는 증상

명시적 제약(“아이템은 그대로”)을 프롬프트에 넣어도 무시
의도하지 않은 요소(옷, 가구, 책장 배열)가 함께 교체됨
두 번째 generation이 첫 번째보다 자연스러운 비결정성
멀티 세그먼트(다중 테마) 시 테마는 반영하나 원본 객체 보존 실패

우회 전략 (관측된 범위)

부분 수정 도구로 사용: 처음부터 끝까지 생성 대신, 특정 요소 제거·교체에 집중
마스킹/세그멘테이션 기반 편집: 보존 영역을 명시적으로 분리하는 외부 파이프라인
이터레이션 누적: 여러 번 돌려 자연스러운 결과를 선택
레퍼런스 이미지 동시 입력: 효과는 불안정하지만 가이드는 됨

출처

yt-KhfHkm6IEfc-Gemini-Omni-실사용한계리뷰 — 코드팩토리 실측 사례

JYP Garden

탐색기

영상 생성 모델의 보존-변형 동시 제어

영상 생성 모델의 보존-변형 동시 제어

원인 추정

관측되는 증상

우회 전략 (관측된 범위)

관련

출처

그래프 뷰

목차