Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model

Source: raw/articles/2026-04-22-simon-willison-qwen36-27b.md Type: article By: Simon Willison (simonwillison.net) Valid as of: 2026-04-22

핵심 Takeaway

  • Qwen3.6-27B dense(55.6GB, Q4_K_M 양자화 시 16.8GB)가 Qwen3.5-397B-A17B MoE(807GB) 전 모델을 전 코딩 벤치마크에서 능가 — 약 15× 크기 압축 + 성능 향상 (2026-04-22 기준)
  • 16.8GB 모델이 소비자 MacBook에서 ~25-27 tokens/s로 동작 — 실용적 로컬 추론 임계치 도달
  • brew install llama.cpp + -hf unsloth/Qwen3.6-27B-GGUF:Q4_K_M 플래그로 HuggingFace 자동 다운로드·실행 — 미니멀 로컬 추론 레시피
  • “pelican benchmark”(SVG 자전거 타는 펠리컨 생성) 2번째 데이터 포인트 — 16.8GB 로컬 모델로 “outstanding” 결과 (4/16 Qwen3.6-35B-A3B 이후)
  • Dense 27B > MoE 397B/17A: 총 파라미터가 아닌 활성 파라미터 밀도와 아키텍처가 성능 결정 요인

상세 요약

Qwen 공식 클레임

qwen 팀이 공개한 Qwen3.6-27B는 단일 dense 모델로 이전 오픈소스 플래그십 Qwen3.5-397B-A17B(총 397B / 활성 17B MoE)의 전 주요 코딩 벤치마크를 능가한다고 발표했다. HuggingFace 기준 Qwen3.5-397B-A17B는 807GB, Qwen3.6-27B는 55.6GB다.

Simon Willison의 로컬 테스트

simon-willison은 Unsloth의 Qwen3.6-27B-GGUF:Q4_K_M (16.8GB) 양자화 버전을 llama-server로 실행했다. 설치는 brew install llama.cpp로 시작, HuggingFace에서 첫 실행 시 자동 다운로드된다.

llama-server 실행 인자 (HN 유저 benob 레시피 기반):

  • 컨텍스트: 65536 토큰
  • 추론 모드: --reasoning on + --chat-template-kwargs '{"preserve_thinking": true}'
  • 온도: 0.6, top-p: 0.95, top-k: 20

SVG 펠리컨 생성 결과: “Generate an SVG of a pelican riding a bicycle” — 16.8GB 모델로 “outstanding” 결과. 자전거 스포크·체인·프레임 정확, 펠리컨 날개·다리·부리 표현 양호. 배경 디테일(반투명 구름·새·풀·태양)까지 포함.

성능 수치 (2026-04-22 기준):

  • 읽기: 20 토큰, 0.4초, 54.32 tokens/s
  • 생성: 4,444 토큰, 2분 53초, 25.57 tokens/s

오포섬 SVG 생성(6,575 토큰, 4분 25초, 24.74 t/s)도 유사한 수준.

Dense vs MoE 시사점

Qwen3.6-27B의 성과는 MoE 아키텍처(총 파라미터는 크되 활성 파라미터는 일부)와 달리, 소형 dense 모델이 대형 MoE를 능가할 수 있음을 보여주는 사례다. 스토리지와 메모리 요구사항이 극적으로 줄어들면서 소비자 하드웨어 접근성이 크게 높아졌다.

연결되는 위키 페이지