강화학습 (Reinforcement Learning, RL)
에이전트가 환경과 상호작용하며 보상 신호를 최대화하는 방향으로 스스로 학습하는 머신러닝 패러다임.
핵심 개념
| 개념 | 설명 |
|---|---|
| Agent | 의사결정을 내리는 주체 (로봇, 자율주행차, 게임 캐릭터) |
| Environment | 에이전트가 상호작용하는 세계 (가상 시뮬레이션 또는 현실) |
| Reward | 행동의 좋고 나쁨을 수치화한 피드백 |
| Expectation Value | 현재 상태에서 미래까지 기대되는 누적 보상 (미래 가치) |
자율주행에서의 RL
Waymo 같은 자율주행 시스템은 트롤리-딜레마 상황에서 Expectation Value를 사용:
“얘가 남은 삶 동안 얼마나 많은 밸류를 세상에 미칠 것인지 그거를 계산해서 적용하는 방법”
— 미래 기여 가치를 수치화해 의사결정. 회사마다 가치 기준이 다름.
로봇 학습에서의 RL
가상 환경(시뮬레이션) 안에서 로봇이 반복 실험 → 학습 → 실제 로봇에 전이 (Sim-to-Real-Transfer).
Google-Genie 3는 이 시뮬레이션 환경 생성 비용을 이미지 한 장으로 대폭 낮춤.
관련 노트
- Sim-to-Real-Transfer — 가상→실제 전이
- Physical-AI — 응용 영역
- Waymo — 자율주행 사례
- 트롤리-딜레마 — 윤리 의사결정 문제
- yt-XGuC41Xbf_E-웨이모탑승-피지컬AI-구글IO4