DeepSeek V3 & R1: Kiến Trúc MLA, MoE và Hướng Dẫn Self-Host

Tháng 1/2025, DeepSeek R1 xuất hiện và làm chao đảo thị trường: một model open-source từ startup Trung Quốc vừa đánh bại o1 của OpenAI trên AIME 2024 (79.8% vs 79.2%) và MATH-500 (97.3% vs 96.4%). Chi phí training toàn bộ V3: ~$5.5 triệu USD — bằng khoảng một buổi tiệc nhỏ của một Big Tech.

Câu hỏi đặt ra ngay lập tức: Họ đã làm điều này như thế nào?

Câu trả lời nằm ở hai đổi mới kiến trúc cốt lõi: MLA và DeepSeekMoE — và một quy trình training R1 hoàn toàn không giống bất kỳ reasoning model nào trước đó.

📚 Series: Self-hosted LLM 2026 — Từ Zero đến Production

Tổng quan: Chọn Model phù hợp (DeepSeek, Llama, Qwen, Kimi)

DeepSeek V3 & R1: Kỷ nguyên Reasoning mới

Meta Llama 3.3 70B: Chiến mã cho Doanh nghiệp

Alibaba Qwen 2.5: Bậc thầy Coding & AI Agent

Phần 1: Kiến Trúc Bên Trong DeepSeek V3

MLA — Multi-head Latent Attention: Phá vỡ giới hạn KV Cache

Trong transformer truyền thống, Multi-head Attention (MHA) là nút cổ chai lớn nhất khi scale context window. Mỗi token cần lưu trữ K (Key) và V (Value) matrix cho mỗi attention head — khi context dài ra, KV cache phình to rất nhanh.

Ví dụ thực tế: Llama 3.3 70B với 128K context cần ~35GB chỉ riêng KV cache.

DeepSeek giải quyết vấn đề này bằng MLA (Multi-head Latent Attention):

MHA truyền thống:
Token → Q, K, V (mỗi head riêng biệt) → Attention → Output
KV cache = num_heads × head_dim × 2 (K+V) per token

MLA của DeepSeek:
Token → Q, [K,V] joint compression → latent vector c_KV → decompress khi cần
KV cache = latent_dim per token (nhỏ hơn ~5.75×)

Kết quả: DeepSeek V3 có KV cache nhỏ hơn ~5.75 lần so với MHA tương đương, cho phép xử lý context dài hơn với cùng lượng VRAM. Đây là lý do tại sao V3 có thể chạy 128K context một cách thực tế.

DeepSeekMoE: Khi Expertise Thực Sự Chuyên Biệt

MoE (Mixture of Experts) không phải là khái niệm mới — nhưng DeepSeek đã làm nó khác đi theo hai cách:

1. Fine-grained Expert Segmentation:

	Standard MoE	DeepSeekMoE
Số experts	Vài chục, mỗi expert to	256 experts nhỏ per layer
Routing	Top-2 trong ~16 experts	Top-8 trong 256 experts

Câu hỏi đặt ra ngay lập tức: Họ đã làm điều này như thế nào?

📚 Series: Self-hosted LLM 2026 — Từ Zero đến Production

Tổng quan: Chọn Model phù hợp (DeepSeek, Llama, Qwen, Kimi)

DeepSeek V3 & R1: Kỷ nguyên Reasoning mới

Meta Llama 3.3 70B: Chiến mã cho Doanh nghiệp

Alibaba Qwen 2.5: Bậc thầy Coding & AI Agent

Phần 1: Kiến Trúc Bên Trong DeepSeek V3

MLA — Multi-head Latent Attention: Phá vỡ giới hạn KV Cache

Ví dụ thực tế: Llama 3.3 70B với 128K context cần ~35GB chỉ riêng KV cache.

DeepSeek giải quyết vấn đề này bằng MLA (Multi-head Latent Attention):

MHA truyền thống:
Token → Q, K, V (mỗi head riêng biệt) → Attention → Output
KV cache = num_heads × head_dim × 2 (K+V) per token

MLA của DeepSeek:
Token → Q, [K,V] joint compression → latent vector c_KV → decompress khi cần
KV cache = latent_dim per token (nhỏ hơn ~5.75×)

DeepSeekMoE: Khi Expertise Thực Sự Chuyên Biệt

MoE (Mixture of Experts) không phải là khái niệm mới — nhưng DeepSeek đã làm nó khác đi theo hai cách:

1. Fine-grained Expert Segmentation:

	Standard MoE	DeepSeekMoE
Số experts	Vài chục, mỗi expert to	256 experts nhỏ per layer
Routing	Top-2 trong ~16 experts	Top-8 trong 256 experts

Benchmark	DeepSeek R1	OpenAI o1
AIME 2024	79.8%	79.2%
MATH-500	97.3%	96.4%
Codeforces Rating	2029	1891
GPQA Diamond	71.5%	75.7%
SWE-bench Verified	49.2%	48.9%

Model	VRAM FP16	VRAM Q8	VRAM Q4_K_M	Hardware tối thiểu
R1-Distill-Qwen-7B	14GB	7GB	4GB	1× RTX 3080
R1-Distill-Qwen-14B	28GB	14GB	8GB	1× RTX 4090
R1-Distill-Qwen-32B	64GB	32GB	18GB	1× RTX 4090 (Q4)
R1-Distill-Llama-70B	140GB	70GB	40GB	2× A100 80GB
Full DeepSeek R1	~1.3TB	~650GB	~350GB	8× A100 (cluster)

Use case	Dùng	Lý do
Viết code phức tạp	V3	Code nhanh hơn, ít verbose
Bug analysis nhiều bước	R1	Reasoning chain giúp tìm root cause
Math / proof	R1	Tỉ lệ chính xác cao hơn đáng kể
Chat / Q&A thông thường	V3	Nhanh hơn, không cần CoT
Code review	R1	Phân tích sâu security, logic flaws
Text generation	V3	Không cần reasoning overhead

DeepSeek V3 & R1: Kiến Trúc MLA, DeepSeekMoE và Cuộc Cách Mạng Reasoning

Tóm tắt nhanh

Phần 1: Kiến Trúc Bên Trong DeepSeek V3

MLA — Multi-head Latent Attention: Phá vỡ giới hạn KV Cache

DeepSeekMoE: Khi Expertise Thực Sự Chuyên Biệt

Tài nguyên liên quan

Bình luận (0)

Cập nhật mới nhất

Bài viết liên quan

Vibe Coding Thực Chiến: 4 Lỗi Thường Gặp Và Cách Thoát Ra

Build App Không Cần Code: Workflow Agentic AI Với Antigravity và Claude Code

AI Agent Là Gì? Hướng Dẫn Toàn Diện Cho Người Kinh Doanh và Không Biết Code

DeepSeek V3 & R1: Kiến Trúc MLA, DeepSeekMoE và Cuộc Cách Mạng Reasoning

Tóm tắt nhanh

Phần 1: Kiến Trúc Bên Trong DeepSeek V3

MLA — Multi-head Latent Attention: Phá vỡ giới hạn KV Cache

DeepSeekMoE: Khi Expertise Thực Sự Chuyên Biệt

Tài nguyên liên quan

Bình luận (0)

Cập nhật mới nhất

Bài viết liên quan

Vibe Coding Thực Chiến: 4 Lỗi Thường Gặp Và Cách Thoát Ra

Build App Không Cần Code: Workflow Agentic AI Với Antigravity và Claude Code

AI Agent Là Gì? Hướng Dẫn Toàn Diện Cho Người Kinh Doanh và Không Biết Code

FP8 Training — Tại sao $5.5M là có thể

Phần 2: DeepSeek R1 — Cuộc Cách Mạng Reasoning

Tại sao R1 khác hoàn toàn

Emergent Reasoning Behaviors

R1 vs o1 — Benchmark thực tế

Phần 3: Hướng Dẫn Tự Host R1 — Thực Chiến

Chọn variant phù hợp với hardware của bạn

Deploy với Ollama (Dành cho Development)

Deploy với vLLM (Production)

Phần 4: Prompt Engineering cho R1

Kích hoạt Long-CoT reasoning

Phân biệt khi nào dùng R1 vs V3

Tips production cho R1

Kết Luận