Deep-dive vào kiến trúc MLA và DeepSeekMoE của DeepSeek V3. Phân tích tại sao R1 thay đổi cuộc chơi reasoning. Hướng dẫn deploy R1-Distill local với VRAM table, quantization guide và prompt engineering patterns.
Tháng 1/2025, DeepSeek R1 xuất hiện và làm chao đảo thị trường: một model open-source từ startup Trung Quốc vừa đánh bại o1 của OpenAI trên AIME 2024 (79.8% vs 79.2%) và MATH-500 (97.3% vs 96.4%). Chi phí training toàn bộ V3: ~$5.5 triệu USD — bằng khoảng một buổi tiệc nhỏ của một Big Tech.
Câu hỏi đặt ra ngay lập tức: Họ đã làm điều này như thế nào?
Câu trả lời nằm ở hai đổi mới kiến trúc cốt lõi: MLA và DeepSeekMoE — và một quy trình training R1 hoàn toàn không giống bất kỳ reasoning model nào trước đó.
📚 Series: Self-hosted LLM 2026 — Từ Zero đến Production
Trong transformer truyền thống, Multi-head Attention (MHA) là nút cổ chai lớn nhất khi scale context window. Mỗi token cần lưu trữ K (Key) và V (Value) matrix cho mỗi attention head — khi context dài ra, KV cache phình to rất nhanh.
Ví dụ thực tế: Llama 3.3 70B với 128K context cần ~35GB chỉ riêng KV cache.
DeepSeek giải quyết vấn đề này bằng MLA (Multi-head Latent Attention):
MHA truyền thống:
Token → Q, K, V (mỗi head riêng biệt) → Attention → Output
KV cache = num_heads × head_dim × 2 (K+V) per token
MLA của DeepSeek:
Token → Q, [K,V] joint compression → latent vector c_KV → decompress khi cần
KV cache = latent_dim per token (nhỏ hơn ~5.75×)
Kết quả: DeepSeek V3 có KV cache nhỏ hơn ~5.75 lần so với MHA tương đương, cho phép xử lý context dài hơn với cùng lượng VRAM. Đây là lý do tại sao V3 có thể chạy 128K context một cách thực tế.
DeepSeekMoE: Khi Expertise Thực Sự Chuyên Biệt
MoE (Mixture of Experts) không phải là khái niệm mới — nhưng DeepSeek đã làm nó khác đi theo hai cách:
Bằng cách chia nhỏ expert ra, mỗi expert học một lĩnh vực cực kỳ hẹp và sâu. Router có thể kết hợp 8 micro-experts phù hợp nhất cho từng token thay vì chọn 2 expert to chung chung.
2. Shared Experts — Ngăn Knowledge Collapse:
DeepSeek tách biệt hai loại expert:
Shared experts (~2 experts): luôn được kích hoạt, học kiến thức nền tảng chung
Routed experts (Top-6 trong 254): kích hoạt theo nhu cầu, cực kỳ chuyên biệt
Điều này ngăn hiện tượng "Knowledge Collapse" — khi các routed experts học trùng lặp nhau thay vì chuyên hóa.
Kết quả tổng hợp của MLA + DeepSeekMoE:
685B tham số total nhưng chỉ ~37B active per forward pass
Inference cost tương đương model 37B dense
Quality của model 685B
FP8 Training — Tại sao $5.5M là có thể
DeepSeek V3 là model lớn đầu tiên được train hoàn toàn với FP8 mixed precision:
FP16 (16-bit): standard hiện tại, 2 bytes per weight
FP8 (8-bit): 1 byte per weight → giảm 50% memory và bandwidth
DeepSeek custom framework xử lý gradient communication trong FP8
Kết hợp MLA + MoE + FP8 trên H800 cluster → training cost đột ngột trở nên khả thi ở quy mô công ty vừa.
Phần 2: DeepSeek R1 — Cuộc Cách Mạng Reasoning
Tại sao R1 khác hoàn toàn
Trước R1, tất cả các reasoning model (kể cả o1 của OpenAI) đều có một điểm chung: cần supervised fine-tuning (SFT) với dữ liệu chain-of-thought do con người viết trước. Đây là bottleneck lớn — human annotation rất tốn kém và không scale.
DeepSeek R1 dùng thuần túy Reinforcement Learning:
R1 Training Pipeline:
1. Cold Start: train nhẹ từ V3 với Long-CoT demonstrations
2. RL Stage 1: GRPO với reward = correctness + format
3. Rejection Sampling: lọc lấy high-quality reasoning traces
4. RL Stage 2: SFT + RL kết hợp cho alignment
GRPO (Group Relative Policy Optimization):
Thay vì dùng critic model riêng biệt, GRPO đánh giá chất lượng response bằng cách so sánh trong một nhóm (group) response cùng prompt. Response đúng được reward dương, sai được reward âm. Model học tự nhiên cách "suy nghĩ".
Emergent Reasoning Behaviors
Qua RL training, R1 phát triển các hành vi hoàn toàn không được lập trình trước:
Self-reflection: "Khoan, tôi đã tính sai bước này..."
Backtracking: quay lại và thử hướng khác khi bị kẹt
Verification: tự kiểm tra lại kết quả cuối
Exploration: thử nhiều approach trước khi chọn tốt nhất
Đây là lý do reasoning chain của R1 đôi khi dài hàng nghìn tokens nhưng cuối cùng cho kết quả chính xác.
R1 vs o1 — Benchmark thực tế
Benchmark
DeepSeek R1
OpenAI o1
AIME 2024
79.8%
79.2%
MATH-500
97.3%
96.4%
Codeforces Rating
2029
1891
GPQA Diamond
71.5%
75.7%
SWE-bench Verified
49.2%
48.9%
R1 thắng ở toán học và coding competitive, o1 nhỉnh hơn ở scientific reasoning. Quan trọng hơn: R1 là open-weight và free — o1 là $15/1M output tokens.
Phần 3: Hướng Dẫn Tự Host R1 — Thực Chiến
Chọn variant phù hợp với hardware của bạn
Model
VRAM FP16
VRAM Q8
VRAM Q4_K_M
Hardware tối thiểu
R1-Distill-Qwen-7B
14GB
7GB
4GB
1× RTX 3080
R1-Distill-Qwen-14B
28GB
14GB
8GB
1× RTX 4090
R1-Distill-Qwen-32B
64GB
32GB
18GB
1× RTX 4090 (Q4)
R1-Distill-Llama-70B
140GB
70GB
40GB
2× A100 80GB
Full DeepSeek R1
~1.3TB
~650GB
~350GB
8× A100 (cluster)
Sweet spot cho hầu hết builder:R1-Distill-Qwen-14B trên 1× RTX 4090, hoặc R1-Distill-Qwen-32B ở Q4 nếu muốn accuracy cao hơn.
Deploy với Ollama (Dành cho Development)
# Cài Ollama (nếu chưa có)
curl -fsSL https://ollama.com/install.sh | sh
# Chạy R1 14B — tự động download và quantize
ollama run deepseek-r1:14b
# Hoặc 32B cho accuracy tốt hơn
ollama run deepseek-r1:32b
# Expose OpenAI-compatible API
OLLAMA_HOST=0.0.0.0 ollama serve
# API có sẵn tại: http://localhost:11434/v1
Custom Modelfile để tối ưu cho reasoning:
FROM deepseek-r1:14b
# Tăng context window
PARAMETER num_ctx 32768
# Temperature thấp hơn cho reasoning tasks
PARAMETER temperature 0.6
# Giữ full reasoning chain
SYSTEM "You are an expert AI assistant. Think through problems step by step before answering."
R1 sử dụng <think> tags để bao bọc reasoning chain. Để khai thác tối đa:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="none")
# Prompt pattern cho reasoning tasks
response = client.chat.completions.create(
model="deepseek-r1",
messages=[
{
"role": "system",
"content": "You are an expert problem solver. Always think through problems carefully before answering."
},
{
"role": "user",
"content": """
A startup has 100 users. Every month:
- 15% of users churn
- They acquire new_users = current_users × 0.25
After 6 months, how many users will they have?
Show your work step by step.
"""
}
],
temperature=0.6,
max_tokens=8192# R1 cần nhiều tokens để reason
)
# Extract final answer (after </think>)
content = response.choices[0].message.content
DeepSeek không chỉ là "GPT-4 rẻ hơn" — đây là bằng chứng rằng đổi mới kiến trúc có thể đánh bại scale thuần túy. MLA giải quyết bottleneck KV cache. DeepSeekMoE tối ưu hóa expert utilization. FP8 training cắt giảm chi phí compute. Kết hợp lại, họ đã tạo ra model ngang tầm frontier với fraction của chi phí.
R1 thì còn đáng chú ý hơn: đây là lần đầu tiên RL thuần túy (không cần human-labeled CoT) tạo ra được reasoning model đẳng cấp world-class. Đây không phải kỹ thuật fluke — đây là blueprint cho thế hệ reasoning model tiếp theo.
Bước tiếp theo cho bạn:
Thử R1-Distill-14B trên Ollama ngay hôm nay — chạy được trên 1x RTX 4090
Benchmark nó với một problem thực trong dự án của bạn
So sánh reasoning quality với GPT-4o trên cùng task
Bài tiếp theo: Meta Llama 3.3 70B — tại sao đây là "chiến mã" thực sự cho enterprise, và cách setup production-ready trong 30 phút.