DeepSeek V4-Flash đã lên Ollama Cloud: 1M context, MIT license, chạy một dòng lệnh

← quay lại timelineArticle thread

DeepSeek V4-Flash đã lên Ollama Cloud: 1M context, MIT license, chạy một dòng lệnh

D. Chu

@donniechublog·24 Apr

24 Apr 2026·6 phút đọc

Highlights

Ollama vừa host DeepSeek V4-Flash (284B/13B active, 1M context) trên cloud US.
Một dòng lệnh để dùng với Claude Code, OpenCode hay Codex — không API key, không config.

TL;DR

Ngày 24/04/2026, Ollama đưa DeepSeek V4-Flash lên Ollama Cloud (hosted tại US). Đây là model MoE 284B total / 13B active params, context 1M tokens, MIT license — cùng ngày DeepSeek phát hành V4-Pro (1.6T) và V4-Flash trên HuggingFace. Bạn dùng trực tiếp qua CLI ollama run deepseek-v4-flash:cloud, hoặc tích hợp vào coding agent (Claude Code, OpenCode, Codex, Droid) bằng lệnh ollama launch — không cần API key của bên thứ ba, không cần set env var. V4-Pro cloud đang được Ollama chuẩn bị.

What's new

Trước đây muốn chạy model open-source cỡ lớn như DeepSeek, bạn phải self-host (GPU xịn, 150–200GB storage cho bản Q4), hoặc gọi qua DeepSeek API trực tiếp. Ollama Cloud thêm một con đường thứ ba: dùng Ollama làm gateway, hosted ở US, và tích hợp sẵn với các coding agent phổ biến.

Command pattern chuẩn cho Claude Code:

ollama launch claude --model deepseek-v4-flash:cloud

Tương tự cho OpenCode:

ollama launch opencode --model deepseek-v4-flash:cloud

Hay chat nhanh trong terminal:

ollama run deepseek-v4-flash:cloud

Các tool chính thức được ollama launch support theo docs Ollama là: Claude Code, OpenCode, Codex, Droid, Copilot CLI. (Một số bản post lan truyền trên mạng ghi thêm tên tool khác — cẩn thận, không phải tool nào cũng có trong docs chính thức.)

Why it matters

Ollama thêm Anthropic API compatibility từ v0.14 đầu 2026, mở cửa cho Claude Code dùng model open-source. Nhưng trước đó user phải manual: export biến môi trường, chọn base URL, pick model phù hợp cho coding. Giờ ollama launch gói tất cả vào một lệnh — và với :cloud, bạn né luôn khâu download file hàng trăm GB.

Với DeepSeek V4-Flash cụ thể, điểm đáng chú ý là combo: 1M context + MIT license + reasoning gần ngang V4-Pro. Nó phù hợp phân tích codebase lớn, tài liệu dài, log debugging — những task trước đây chỉ Claude/Gemini làm tốt.

Technical facts

Property	V4-Flash	V4-Pro
Total params	284B	1.6T
Active per token	13B	49B
Context length	1M tokens	1M tokens
Training tokens	32T	33T
License	MIT	MIT
Precision	FP8 + FP4/FP8	FP8 + FP4/FP8

Architecture mới: hybrid attention, multi-head compression (mHC), Muon optimizer, 2-stage post-training kèm flexible reasoning mode.

Comparison

Benchmark V4-Flash vs V4-Pro — gap chỉ 1–3 điểm trên hầu hết test:

Benchmark	V4-Flash	V4-Pro
MMLU-Pro	86.2	87.5
LiveCodeBench	91.6	93.5
Codeforces rating	3052	3206
SWE-Verified	79.0	80.6

Đối thủ closed-source (theo benchmark do cộng đồng tổng hợp): V4-Pro ở MMLU-Pro 87.5 ngang GPT-5.4, thua Claude Opus 4.6 (89.1) và Gemini-3.1-Pro (91.0). Nhưng ở LiveCodeBench, V4-Pro dẫn đầu với 93.5 (Gemini 91.7, Claude 88.8). Flash bám sát Pro khoảng 2 điểm — đủ dùng cho phần lớn coding workflow với chi phí thấp hơn.

Use cases

Coding agent local/cloud không config: một dòng ollama launch claude --model deepseek-v4-flash:cloud là dùng được Claude Code với model open-source, không trả Anthropic API.
Long-context workflow: 1M tokens đủ để nạp cả monorepo nhỏ, hoặc toàn bộ tài liệu sản phẩm, vào prompt.
Production load nhạy chi phí: Flash nhanh + rẻ hơn Pro, chấp nhận được cho task đơn giản, chatbot, batch processing.
Researcher / team cần MIT license: deploy thương mại không vướng license như một số model đối thủ.

Limitations & pricing

Self-host rất nặng: Q4_K_M GGUF của Flash khoảng 150–200GB, cần GPU mạnh. Ollama Cloud né được điều này nhưng phải chịu network latency và pricing theo plan Ollama.
Không có trên HuggingFace Inference Providers tại thời điểm release — muốn dùng qua API hosted phải chọn Ollama Cloud hoặc DeepSeek API.
Tool integration: chính thức qua ollama launch chỉ có Claude Code, OpenCode, Codex, Droid, Copilot CLI. Các "launcher" khác đang lan truyền trên social có thể là third-party hoặc typo.

What's next

Ollama xác nhận V4-Pro cloud hosting sắp ra mắt. Với Pro (1.6T params), cloud gần như là cách khả thi duy nhất cho phần lớn dev — self-host 1.6T MoE cần cluster H100 nghiêm túc.

Combo đáng theo dõi tuần tới: Ollama Cloud + V4-Pro + tool like Claude Code — một setup "frontier model coding agent" hoàn toàn open-source, một dòng lệnh.

Xa hơn, xu hướng này đẩy áp lực giá xuống Anthropic và OpenAI ở phân khúc coding agent. Khi một model MIT license chạy qua Ollama có thể ngang ngửa Claude Opus ở LiveCodeBench, câu hỏi không còn là "open-source có đủ tốt chưa", mà là "bạn có thực sự cần trả cho model đóng". Với team indie, startup sớm, hay workload batch lớn, con đường open-source + cloud gateway giờ rẻ, nhanh, và không kém về chất lượng.

Nếu bạn đang dùng Claude Code với Anthropic API, thử chạy thử V4-Flash cloud một buổi — benchmark trên codebase thật của bạn, đo latency và chất lượng output, rồi quyết định có nên chuyển một phần workload sang Ollama hay không. Không ai rẽ hướng tốt hơn chính developer đang dùng tool đó mỗi ngày.

Nguồn: Ollama Launch blog, Ollama Claude Code docs, Macaron benchmarks, officechai pricing, HuggingFace DeepSeek-V4-Pro.

DeepSeek V4-Flash đã lên Ollama Cloud: 1M context, MIT license, chạy một dòng lệnh

TL;DR

What's new

Why it matters

Technical facts

Comparison

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding