Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model
Source: raw/articles/2026-04-22-simon-willison-qwen36-27b.md Type: article By: Simon Willison (simonwillison.net) Valid as of: 2026-04-22
핵심 Takeaway
- Qwen3.6-27B dense(55.6GB, Q4_K_M 양자화 시 16.8GB)가 Qwen3.5-397B-A17B MoE(807GB) 전 모델을 전 코딩 벤치마크에서 능가 — 약 15× 크기 압축 + 성능 향상 (2026-04-22 기준)
- 16.8GB 모델이 소비자 MacBook에서 ~25-27 tokens/s로 동작 — 실용적 로컬 추론 임계치 도달
brew install llama.cpp+-hf unsloth/Qwen3.6-27B-GGUF:Q4_K_M플래그로 HuggingFace 자동 다운로드·실행 — 미니멀 로컬 추론 레시피- “pelican benchmark”(SVG 자전거 타는 펠리컨 생성) 2번째 데이터 포인트 — 16.8GB 로컬 모델로 “outstanding” 결과 (4/16 Qwen3.6-35B-A3B 이후)
- Dense 27B > MoE 397B/17A: 총 파라미터가 아닌 활성 파라미터 밀도와 아키텍처가 성능 결정 요인
상세 요약
Qwen 공식 클레임
qwen 팀이 공개한 Qwen3.6-27B는 단일 dense 모델로 이전 오픈소스 플래그십 Qwen3.5-397B-A17B(총 397B / 활성 17B MoE)의 전 주요 코딩 벤치마크를 능가한다고 발표했다. HuggingFace 기준 Qwen3.5-397B-A17B는 807GB, Qwen3.6-27B는 55.6GB다.
Simon Willison의 로컬 테스트
simon-willison은 Unsloth의 Qwen3.6-27B-GGUF:Q4_K_M (16.8GB) 양자화 버전을 llama-server로 실행했다. 설치는 brew install llama.cpp로 시작, HuggingFace에서 첫 실행 시 자동 다운로드된다.
llama-server 실행 인자 (HN 유저 benob 레시피 기반):
- 컨텍스트: 65536 토큰
- 추론 모드:
--reasoning on+--chat-template-kwargs '{"preserve_thinking": true}' - 온도: 0.6, top-p: 0.95, top-k: 20
SVG 펠리컨 생성 결과: “Generate an SVG of a pelican riding a bicycle” — 16.8GB 모델로 “outstanding” 결과. 자전거 스포크·체인·프레임 정확, 펠리컨 날개·다리·부리 표현 양호. 배경 디테일(반투명 구름·새·풀·태양)까지 포함.
성능 수치 (2026-04-22 기준):
- 읽기: 20 토큰, 0.4초, 54.32 tokens/s
- 생성: 4,444 토큰, 2분 53초, 25.57 tokens/s
오포섬 SVG 생성(6,575 토큰, 4분 25초, 24.74 t/s)도 유사한 수준.
Dense vs MoE 시사점
Qwen3.6-27B의 성과는 MoE 아키텍처(총 파라미터는 크되 활성 파라미터는 일부)와 달리, 소형 dense 모델이 대형 MoE를 능가할 수 있음을 보여주는 사례다. 스토리지와 메모리 요구사항이 극적으로 줄어들면서 소비자 하드웨어 접근성이 크게 높아졌다.
연결되는 위키 페이지
- qwen — 이 아티클의 주요 모델 패밀리
- simon-willison — 저자
- simon-willison-qwen-beats-opus — 동일 저자의 4/16 Qwen3.6-35B-A3B 비교 실험