Temporal Taskification in Streaming Continual Learning: A Source of Evaluation Instability
Source: arXiv:2604.21930v1 Type: arxiv paper By: Nicolae Filat, Ahmed Hussain, Konstantinos Kalogiannis, Elena Burceanu (Bitdefender / KTH / Politehnica Univ.) Valid as of: 2026-04-23
핵심 Takeaway
- 같은 스트림·모델·훈련 예산을 유지하고 분할 창(9일/30일/44일)만 바꿔도 MSE, Forgetting, Backward Transfer가 실질적으로 달라진다 — temporal taskification은 전처리가 아닌 평가의 구조적 변수다
- Plasticity Profile(인접 태스크 분포 거리의 경험적 분포) + Stability Profile(비인접 장거리 분포 거리)은 태스크 수 무관한 구조 표현으로 학습 전 두 태스크화를 비교 가능하게 한다
- BPS(Boundary-Profile Sensitivity): 경계 ±1일 소perturbation이 유발하는 CL 레짐 변화 평균; 학습 전 벤치마크 취약성 진단 지표
- 짧은 창이 더 취약하다 — 9일 분할은 44일 분할 대비 BPS가 2배 높고 CL 결론 가변성도 큼
- Benchmark lottery에 streaming CL 특화 새 차원 추가 — temporal taskification을 1급 평가 변수로 격상할 것을 제안
상세 요약
문제 제기
continual-learning에서 스트리밍 CL은 연속 스트림을 이산 태스크 시퀀스로 변환하는 temporal taskification 단계를 전제한다. 그러나 기존 연구는 이 분할 방식을 중립적 전처리로 취급해왔다. 이 논문은 다른 관점을 제시한다: 같은 스트림이라도 분할 경계를 어디에 놓느냐에 따라 서로 다른 CL 레짐이 유도되고, 벤치마크 결론 자체가 달라진다.
프레임워크
temporal-taskification 개념을 형식화하고 세 가지 도구를 제시:
- Plasticity Profile: 인접 태스크 간 분포 거리(Wasserstein)의 경험적 분포 Π_pl^τ — 분할이 얼마나 자주 급격한 전이를 유도하는지 포착
- Stability Profile: 비인접 태스크 간 분포 거리의 경험적 분포 Π_st^τ — 장거리 재발(recurrence) 패턴 포착
- Profile Distance D_prof(τ, σ): 두 태스크화의 plasticity+stability 프로파일 거리 가중합 — 모델 학습 없이 구조적 차이 정량화
- BPS: 경계 소perturbation 하의 Profile Distance 평균 — 낮을수록 robust, 높을수록 fragile
실험 결과 (CESNET-Timeseries24, 2026-04-23 기준)
4가지 CL 방법(Finetuning·ER·EWC·LwF) 모두에서 9일/30일/44일 분할 간 MSE 표준편차가 8.7–10.98 수준으로 크게 나타남. 30일 분할이 가장 낮은 MSE, 44일 분할이 가장 높은 MSE를 일관되게 기록.
BPS 결과: 9일(0.12) > 30일(0.08) > 44일(0.06). 짧은 창은 구조적으로 취약한 분할 — 경계 위치가 조금만 달라져도 CL 레짐이 크게 달라진다.
Benchmark Robustness 맥락
이 논문은 ImageNet 배포 변화, 랜덤 시드 분산, benchmark lottery 등 ML 벤치마크 취약성 연구의 흐름에 위치하며, streaming CL 도메인에서 새로운 취약성 차원으로 temporal taskification을 추가한다.
연결되는 위키 페이지
- continual-learning — 이 소스가 다루는 핵심 CL 개념 프레임
- temporal-taskification — 이 소스의 주요 기여 개념