Qwen 2.5: Chinh Phục Code, Đa Ngôn Ngữ và Xây Dựng AI Agent Workflow

Alibaba's Qwen 2.5 là model open-source dẫn đầu về coding và đa ngôn ngữ, đồng thời là nền tảng lý tưởng để xây dựng AI Agent workflow phức tạp. Với dải model từ 0.5B đến 72B và các variant chuyên biệt (Coder, Math), Qwen 2.5 phủ sóng từ edge device đến server enterprise. Bài viết này đi sâu vào benchmark coding, khả năng tiếng Việt, và các pattern xây dựng AI Agent production-grade.

1. Dải Model Qwen 2.5: Kiến Trúc Tổng Quan

Qwen 2.5 ra mắt với nhiều variant chuyên biệt phục vụ từng use case:

Model	Tham số	Đặc điểm	VRAM (Q4)
Qwen2.5-0.5B	0.5B	Edge, mobile	~0.5GB
Qwen2.5-1.5B	1.5B	Edge, speculative draft	~1.5GB
Qwen2.5-3B	3B	Light tasks	~2GB
Qwen2.5-7B	7B	General purpose	~5GB
Qwen2.5-14B	14B	Strong reasoning	~9GB
Qwen2.5-32B	32B	Near-SOTA, balance	~20GB
Qwen2.5-72B	72B	Top-tier open source	~45GB
Qwen2.5-Coder-32B	32B	Code specialist	~20GB
Qwen2.5-Math-72B	72B	Math specialist	~45GB

Điểm Kiến Trúc Nổi Bật

GQA (Grouped Query Attention): Tối ưu KV cache, cho phép batch lớn và context dài
Context window: 128K tokens (cần config trong Ollama để dùng đầy đủ)
Vocab: 151,936 tokens — lớn nhất trong các model mainstream, tối ưu cho tiếng Trung, tiếng Việt
YaRN RoPE scaling: Long context extrapolation hiệu quả
SwiGLU activation: Standard trong LLM hiện đại

2. Coding Benchmark: Qwen2.5-Coder Dẫn Đầu Thế Giới

So Sánh HumanEval, MBPP và LiveCodeBench

Model	HumanEval	MBPP	LiveCodeBench	MultiPL-E
Qwen2.5-Coder-32B	92.7%	90.9%	65.9%	82.4%

Qwen 2.5: Chinh Phục Code, Đa Ngôn Ngữ và Xây Dựng AI Agent Workflow

1. Dải Model Qwen 2.5: Kiến Trúc Tổng Quan

Qwen 2.5 ra mắt với nhiều variant chuyên biệt phục vụ từng use case:

Model	Tham số	Đặc điểm	VRAM (Q4)
Qwen2.5-0.5B	0.5B	Edge, mobile	~0.5GB
Qwen2.5-1.5B	1.5B	Edge, speculative draft	~1.5GB
Qwen2.5-3B	3B	Light tasks	~2GB
Qwen2.5-7B	7B	General purpose	~5GB
Qwen2.5-14B	14B	Strong reasoning	~9GB
Qwen2.5-32B	32B	Near-SOTA, balance	~20GB
Qwen2.5-72B	72B	Top-tier open source	~45GB
Qwen2.5-Coder-32B	32B	Code specialist	~20GB
Qwen2.5-Math-72B	72B	Math specialist	~45GB

Điểm Kiến Trúc Nổi Bật

GQA (Grouped Query Attention): Tối ưu KV cache, cho phép batch lớn và context dài
Context window: 128K tokens (cần config trong Ollama để dùng đầy đủ)
Vocab: 151,936 tokens — lớn nhất trong các model mainstream, tối ưu cho tiếng Trung, tiếng Việt
YaRN RoPE scaling: Long context extrapolation hiệu quả
SwiGLU activation: Standard trong LLM hiện đại

2. Coding Benchmark: Qwen2.5-Coder Dẫn Đầu Thế Giới

So Sánh HumanEval, MBPP và LiveCodeBench

Model	HumanEval	MBPP	LiveCodeBench	MultiPL-E
Qwen2.5-Coder-32B	92.7%	90.9%	65.9%	82.4%

Benchmark	Qwen2.5-72B	Llama 3.3 70B	Mistral Large
C-Eval (Tiếng Trung)	91.1%	75.2%	78.4%
CMMLU	90.7%	73.1%	74.9%
Vietnamese VLSP	78.3%	68.1%	65.2%
M-MMLU (avg 14 langs)	82.5%	74.3%	73.8%

import json from openai import OpenAI client = OpenAI(base_url="http://localhost:8000/v1", api_key="qwen") tools = [ { "type": "function", "function": { "name": "search_web", "description": "Tìm kiếm thông tin trên web", "parameters": { "type": "object", "properties": { "query": {"type": "string"} }, "required": ["query"] } } }, { "type": "function", "function": { "name": "execute_python", "description": "Thực thi code Python và trả về kết quả", "parameters": { "type": "object", "properties": { "code": {"type": "string"} }, "required": ["code"] } } }, { "type": "function", "function": { "name": "read_file", "description": "Đọc nội dung file", "parameters": { "type": "object", "properties": { "path": {"type": "string"} }, "required": ["path"] } } } ] def run_agent(user_task: str, max_steps: int = 10) -> str: messages = [ { "role": "system", "content": "Bạn là AI agent có khả năng sử dụng tools. Hoàn thành nhiệm vụ bằng cách gọi tools phù hợp theo từng bước." }, {"role": "user", "content": user_task} ] for step in range(max_steps): response = client.chat.completions.create( model="qwen2.5-72b-instruct", messages=messages, tools=tools, tool_choice="auto", temperature=0.1 # Thấp để agent ổn định ) msg = response.choices[0].message messages.append(msg) # Agent hoàn thành khi không gọi tool if not msg.tool_calls: return msg.content # Thực thi tool calls for tool_call in msg.tool_calls: result = execute_tool( tool_call.function.name, json.loads(tool_call.function.arguments) ) messages.append({ "role": "tool", "tool_call_id": tool_call.id, "content": str(result) }) return "Max steps reached" def execute_tool(name: str, args: dict) -> str: if name == "search_web": # Tích hợp với Tavily, SerpAPI, v.v. return f"[Search results for: {args['query']}]" elif name == "execute_python": import subprocess result = subprocess.run( ["python3", "-c", args["code"]], capture_output=True, text=True, timeout=30 ) return result.stdout or result.stderr elif name == "read_file": with open(args["path"]) as f: return f.read() return "Tool not found" # Ví dụ sử dụng result = run_agent( "Phân tích file sales_data.csv và tạo báo cáo với các chỉ số doanh thu theo tháng." ) print(result)

Tiêu chí	Qwen 2.5-72B	Llama 3.3 70B	DeepSeek V3	GPT-4o
Coding (HumanEval)	88.2%	88.4%	91.6%	90.2%
Coding chuyên biệt (Coder-32B)	92.7%	N/A	N/A	N/A
Tiếng Việt	Tốt nhất OS	Tốt	Tốt	Tốt (API)
Tiếng Trung	Tốt nhất	Kém	Tốt	Tốt
Agentic tasks	✅ Xuất sắc	✅ Tốt	✅ Tốt	✅ Tốt nhất
Context window	128K	128K	64K	128K
Self-host cost	Trung bình	Trung bình	Cao (671B)	N/A

Use Case	Model Khuyên Dùng	Lý Do
Code generation & review	Qwen2.5-Coder-32B	SOTA coding, vượt GPT-4o
Tiếng Việt/Trung đa dạng	Qwen2.5-72B	Vocab 151K, training data tốt
AI Agent phức tạp	Qwen2.5-72B	Tool calling mạnh, context dài
Edge/mobile	Qwen2.5-1.5B hoặc 3B	Nhỏ gọn, chạy offline
Math reasoning	Qwen2.5-Math-72B	Chuyên biệt toán học
General API server	Qwen2.5-32B	Balance tốt performance/cost
Speculative draft	Qwen2.5-1.5B	Tốc độ cao khi kết hợp 72B

Tóm tắt nhanh

Qwen 2.5: Chinh Phục Code, Đa Ngôn Ngữ và Xây Dựng AI Agent Workflow

1. Dải Model Qwen 2.5: Kiến Trúc Tổng Quan

Điểm Kiến Trúc Nổi Bật

2. Coding Benchmark: Qwen2.5-Coder Dẫn Đầu Thế Giới

So Sánh HumanEval, MBPP và LiveCodeBench

Tài nguyên liên quan

Bình luận (0)

Cập nhật mới nhất

Bài viết liên quan

Vibe Coding Thực Chiến: 4 Lỗi Thường Gặp Và Cách Thoát Ra

Build App Không Cần Code: Workflow Agentic AI Với Antigravity và Claude Code

AI Agent Là Gì? Hướng Dẫn Toàn Diện Cho Người Kinh Doanh và Không Biết Code

Tóm tắt nhanh

Qwen 2.5: Chinh Phục Code, Đa Ngôn Ngữ và Xây Dựng AI Agent Workflow

1. Dải Model Qwen 2.5: Kiến Trúc Tổng Quan

Điểm Kiến Trúc Nổi Bật

2. Coding Benchmark: Qwen2.5-Coder Dẫn Đầu Thế Giới

So Sánh HumanEval, MBPP và LiveCodeBench

Tài nguyên liên quan

Bình luận (0)

Cập nhật mới nhất

Bài viết liên quan

Vibe Coding Thực Chiến: 4 Lỗi Thường Gặp Và Cách Thoát Ra

Build App Không Cần Code: Workflow Agentic AI Với Antigravity và Claude Code

AI Agent Là Gì? Hướng Dẫn Toàn Diện Cho Người Kinh Doanh và Không Biết Code

Ngôn ngữ lập trình được hỗ trợ

3. Khả Năng Đa Ngôn Ngữ: Tiếng Việt và Tiếng Trung

Benchmark Multilingual

Tại Sao Qwen Tốt Nhất Cho Tiếng Việt?

Demo: Tiếng Việt với Qwen

4. Deploy Qwen 2.5 với Ollama

5. Deploy với vLLM cho Production

6. Xây Dựng AI Agent Workflow: ReAct Pattern

ReAct Agent

7. Multi-Agent Pipeline

8. Structured Output với Pydantic

9. Code Assistant Production-Grade

10. So Sánh Qwen 2.5 vs Các Model Khác

11. Lựa Chọn Model Theo Use Case

Tổng Kết