- Ollama vừa host DeepSeek V4-Flash (284B/13B active, 1M context) trên cloud US.
- Một dòng lệnh để dùng với Claude Code, OpenCode hay Codex — không API key, không config.
TL;DR
Ngày 24/04/2026, Ollama đưa DeepSeek V4-Flash lên Ollama Cloud (hosted tại US). Đây là model MoE 284B total / 13B active params, context 1M tokens, MIT license — cùng ngày DeepSeek phát hành V4-Pro (1.6T) và V4-Flash trên HuggingFace. Bạn dùng trực tiếp qua CLI ollama run deepseek-v4-flash:cloud, hoặc tích hợp vào coding agent (Claude Code, OpenCode, Codex, Droid) bằng lệnh ollama launch — không cần API key của bên thứ ba, không cần set env var. V4-Pro cloud đang được Ollama chuẩn bị.
What's new
Trước đây muốn chạy model open-source cỡ lớn như DeepSeek, bạn phải self-host (GPU xịn, 150–200GB storage cho bản Q4), hoặc gọi qua DeepSeek API trực tiếp. Ollama Cloud thêm một con đường thứ ba: dùng Ollama làm gateway, hosted ở US, và tích hợp sẵn với các coding agent phổ biến.
Command pattern chuẩn cho Claude Code:
ollama launch claude --model deepseek-v4-flash:cloudTương tự cho OpenCode:
ollama launch opencode --model deepseek-v4-flash:cloudHay chat nhanh trong terminal:
ollama run deepseek-v4-flash:cloudCác tool chính thức được ollama launch support theo docs Ollama là: Claude Code, OpenCode, Codex, Droid, Copilot CLI. (Một số bản post lan truyền trên mạng ghi thêm tên tool khác — cẩn thận, không phải tool nào cũng có trong docs chính thức.)
Why it matters
Ollama thêm Anthropic API compatibility từ v0.14 đầu 2026, mở cửa cho Claude Code dùng model open-source. Nhưng trước đó user phải manual: export biến môi trường, chọn base URL, pick model phù hợp cho coding. Giờ ollama launch gói tất cả vào một lệnh — và với :cloud, bạn né luôn khâu download file hàng trăm GB.
Với DeepSeek V4-Flash cụ thể, điểm đáng chú ý là combo: 1M context + MIT license + reasoning gần ngang V4-Pro. Nó phù hợp phân tích codebase lớn, tài liệu dài, log debugging — những task trước đây chỉ Claude/Gemini làm tốt.
Technical facts
| Property | V4-Flash | V4-Pro |
|---|---|---|
| Total params | 284B | 1.6T |
| Active per token | 13B | 49B |
| Context length | 1M tokens | 1M tokens |
| Training tokens | 32T | 33T |
| License | MIT | MIT |
| Precision | FP8 + FP4/FP8 | FP8 + FP4/FP8 |
Architecture mới: hybrid attention, multi-head compression (mHC), Muon optimizer, 2-stage post-training kèm flexible reasoning mode.
Comparison
Benchmark V4-Flash vs V4-Pro — gap chỉ 1–3 điểm trên hầu hết test:
| Benchmark | V4-Flash | V4-Pro |
|---|---|---|
| MMLU-Pro | 86.2 | 87.5 |
| LiveCodeBench | 91.6 | 93.5 |
| Codeforces rating | 3052 | 3206 |
| SWE-Verified | 79.0 | 80.6 |
Đối thủ closed-source (theo benchmark do cộng đồng tổng hợp): V4-Pro ở MMLU-Pro 87.5 ngang GPT-5.4, thua Claude Opus 4.6 (89.1) và Gemini-3.1-Pro (91.0). Nhưng ở LiveCodeBench, V4-Pro dẫn đầu với 93.5 (Gemini 91.7, Claude 88.8). Flash bám sát Pro khoảng 2 điểm — đủ dùng cho phần lớn coding workflow với chi phí thấp hơn.
Use cases
- Coding agent local/cloud không config: một dòng
ollama launch claude --model deepseek-v4-flash:cloudlà dùng được Claude Code với model open-source, không trả Anthropic API. - Long-context workflow: 1M tokens đủ để nạp cả monorepo nhỏ, hoặc toàn bộ tài liệu sản phẩm, vào prompt.
- Production load nhạy chi phí: Flash nhanh + rẻ hơn Pro, chấp nhận được cho task đơn giản, chatbot, batch processing.
- Researcher / team cần MIT license: deploy thương mại không vướng license như một số model đối thủ.
Limitations & pricing
- Self-host rất nặng: Q4_K_M GGUF của Flash khoảng 150–200GB, cần GPU mạnh. Ollama Cloud né được điều này nhưng phải chịu network latency và pricing theo plan Ollama.
- Không có trên HuggingFace Inference Providers tại thời điểm release — muốn dùng qua API hosted phải chọn Ollama Cloud hoặc DeepSeek API.
- Tool integration: chính thức qua
ollama launchchỉ có Claude Code, OpenCode, Codex, Droid, Copilot CLI. Các "launcher" khác đang lan truyền trên social có thể là third-party hoặc typo.
What's next
Ollama xác nhận V4-Pro cloud hosting sắp ra mắt. Với Pro (1.6T params), cloud gần như là cách khả thi duy nhất cho phần lớn dev — self-host 1.6T MoE cần cluster H100 nghiêm túc.
Combo đáng theo dõi tuần tới: Ollama Cloud + V4-Pro + tool like Claude Code — một setup "frontier model coding agent" hoàn toàn open-source, một dòng lệnh.
Xa hơn, xu hướng này đẩy áp lực giá xuống Anthropic và OpenAI ở phân khúc coding agent. Khi một model MIT license chạy qua Ollama có thể ngang ngửa Claude Opus ở LiveCodeBench, câu hỏi không còn là "open-source có đủ tốt chưa", mà là "bạn có thực sự cần trả cho model đóng". Với team indie, startup sớm, hay workload batch lớn, con đường open-source + cloud gateway giờ rẻ, nhanh, và không kém về chất lượng.
Nếu bạn đang dùng Claude Code với Anthropic API, thử chạy thử V4-Flash cloud một buổi — benchmark trên codebase thật của bạn, đo latency và chất lượng output, rồi quyết định có nên chuyển một phần workload sang Ollama hay không. Không ai rẽ hướng tốt hơn chính developer đang dùng tool đó mỗi ngày.
Nguồn: Ollama Launch blog, Ollama Claude Code docs, Macaron benchmarks, officechai pricing, HuggingFace DeepSeek-V4-Pro.

