Long-Horizon Manipulation via Trace-Conditioned VLA Planning
Source: 2026-04-23-loho-manip-vla-long-horizon Type: article (arXiv) By: Isabella Liu, An-Chieh Cheng, Rui Yan, Geng Chen, Ri-Zhao Qiu, Xueyan Zou, Sha Yi, Hongxu Yin, Xiaolong Wang, Sifei Liu (NVIDIA·UCSD) Valid as of: 2026-04-23
핵심 Takeaway
- loho-manip은 Manager VLM + Executor VLA 분리 구조로 단기 VLA 실행을 장기 지시 수행으로 확장한다 (출처: Abstract)
- Receding-horizon 방식: 매 스텝마다 현재 관측에서 “remaining plan” 예측 → 완료+잔여 subtask 분할(언어 메모리) + visual trace(2D keypoint) 조합
- Visual Trace(2D keypoint trajectory)가 고수준 계획↔저수준 VLA 제어 사이 컴팩트 인터페이스 역할 수행
- 명시적 회복 로직 없이 암묵적 closed-loop 달성: 실패 스텝이 다음 예측에 자동 반영
- Franka 로봇 실험 + 시뮬레이션에서 장기 성공률·강건성·OOD 일반화 개선 확인 (2026-04-23 기준)
상세 요약
문제 배경
VLA 정책은 단기 과제에서는 강력하지만 장기(long-horizon) 조작 과제에서 한계를 보인다:
- 다중 스텝 진행 의존성
- 복합 실행 오류 취약성
- 명시적 상태 추적 없이는 재계획 불가
LoHo-Manip 아키텍처
loho-manip은 Manager-Executor 이중 구조를 채택한다:
Manager VLM (task management):
- 실행에서 완전히 분리된 독립 모듈
- Receding-horizon 방식으로 매 스텝 호출
- 출력: (i) subtask sequence (완료+잔여 split) + (ii) visual trace
Executor VLA (local control):
- Visual trace를 조건으로 단기 제어 반복 수행
- 장기 의사결정 = trace-following의 반복으로 분해
핵심 메커니즘: Remaining Plan Prediction
매 스텝에서 remaining plan을 새로 예측하는 것이 암묵적 closed-loop을 만든다:
- 실패한 subtask → 다음 예측 출력에 자동 잔존
- Visual trace → 실패에 따라 자동 갱신
- 결과: 수작업 회복 로직 없이도 자동 재계획
이 패턴은 소프트웨어 agentic AI에서도 적용 가능한 에러 복구 없는 에러 복구 패턴이다. harness-engineering의 “암묵적 피드백 루프” 사례에 해당한다.
receding-horizon-planning
Receding-horizon planning(이동 지평 계획): 고정된 전체 계획 대신, 매 스텝마다 현재 상태에서 잔여 계획을 새로 예측. 오차 누적을 막고 동적 환경 변화에 적응. LoHo-Manip이 VLA 도메인에서 이 패턴을 구현한 대표 사례.
실험 결과 (2026-04-23 기준)
- 장기 성공률: 시뮬레이션 + Franka 실로봇 모두 개선
- 강건성 향상: compounding 오류 누적 감소
- OOD(out-of-distribution) 일반화: 훈련 분포 외 시나리오에서도 유효
연결되는 위키 페이지
- loho-manip — 이 논문의 메인 프레임워크
- vision-language-action — VLA 정책 개념
- receding-horizon-planning — 핵심 계획 방법론
- harness-engineering — Manager-Executor 분리가 보여주는 계층적 harness 패턴