- Baidu vừa open-source ERNIE-Image — Diffusion Transformer 8B, Apache 2.0, chạy 24GB VRAM, đánh bại FLUX.2-klein và Qwen-Image trên GenEval.
- Rendering chữ Trung + Nhật cực đậm, tùy biến được cho brand riêng.
TL;DR
Baidu open-source ERNIE-Image (và phiên bản Turbo) ngày 15/04/2026 — một Diffusion Transformer 8B tham số, weights công khai trên HuggingFace dưới giấy phép Apache 2.0, dùng thương mại + fine-tune tự do. Chạy được trên GPU tiêu dùng 24GB (RTX 3090/4090). Trên GenEval (instruction following) nó vượt Qwen-Image và FLUX.2-klein-9B; trên LongTextBench chỉ thua Seedream 4.5 (closed). Điểm mạnh: render chữ dày đặc (kể cả thư pháp Trung/Nhật), poster, comic nhiều ô, layout phức tạp.

Có gì mới
Trong khi GPT-Image-1, Seedream 4.5, Midjourney vẫn đóng, Baidu chọn con đường ngược lại. ERNIE-Image là single-stream Diffusion Transformer đi kèm Prompt Enhancer — một model phụ tự tay mở rộng prompt ngắn thành mô tả chi tiết có cấu trúc trước khi đưa vào DiT.
Có hai biến thể:
- ERNIE-Image (SFT) — 50 bước inference, chất lượng tối đa
- ERNIE-Image-Turbo — 8 bước, chưng cất bằng DMD + RL, nhanh hơn ~6×
Day-0 đã có GGUF quantizations từ unsloth, nodes ComfyUI, và tích hợp Diffusers chính thức.
Vì sao quan trọng
Ba điểm làm ERNIE-Image khác đa số open-weight hiện có:
- Commercial-friendly thật sự: Apache 2.0, không có điều khoản phi-thương-mại như FLUX.1-dev.
- Fine-tune được: bạn có thể train LoRA/adapter theo brand, style, hay ngôn ngữ riêng — thứ GPT-Image-1 và Midjourney không bao giờ cho phép.
- Chạy local: 24GB VRAM là ngưỡng RTX 3090/4090 — không cần H100. Data không cần rời máy.
Thông số kỹ thuật
| Thuộc tính | ERNIE-Image | ERNIE-Image-Turbo |
|---|---|---|
| Tham số DiT | 8B | 8B |
| Số bước inference | 50 | 8 |
| VRAM tối thiểu | 24GB | 24GB |
| Guidance scale | 4.0 | 4.0 |
| Prompt Enhancer | Có | Có |
Độ phân giải hỗ trợ: 1024×1024, 848×1264, 1264×848, 768×1376, 896×1200, 1376×768, 1200×896.
So sánh benchmark
| Model | GenEval | OneIG-EN | LongTextBench | Open? |
|---|---|---|---|---|
| ERNIE-Image | 0.8728 | 0.5750 | 0.9733 | Có (Apache 2.0) |
| Qwen-Image | 0.8683 | — | — | Có |
| FLUX.2-klein-9B | 0.8481 | — | — | Có (non-commercial) |
| Seedream 4.5 | — | 0.5760 | 0.9882 | Không |
ERNIE-Image đứng đầu GenEval dù param count nhỏ hơn FLUX.2-klein-9B. Trên LongTextBench chỉ thua Seedream 4.5 closed ở mức 1.5 điểm phần trăm.

Use case thực tế
- Poster thương mại + banner e-commerce có chữ tiếng Việt / Trung dày đặc — thứ mà đa số model open đều hỏng typography.
- Comic nhiều ô, storyboard, sticker pack — cấu trúc multi-panel giữ style nhất quán.
- UI mockup + bảng infographic khoa học — render nhãn nhỏ, chữ dày vẫn rõ.
- Fine-tune theo brand: agency train LoRA cho style signature, không phụ thuộc API bên thứ ba.
- On-prem cho domain nhạy cảm: fintech, legal, medical — data không rời server.

Hạn chế & giá
- Giá: miễn phí, Apache 2.0, thương mại thoải mái.
- VRAM sàn 24GB — loại card 12GB/16GB không chạy native (phải qua GGUF quantization của unsloth).
- Vẫn thua Seedream 4.5 closed trên LongTextBench (0.9733 vs 0.9882).
- Standard SFT 50 bước khá chậm nếu ưu tiên latency — cân nhắc Turbo (8 bước).
- Chưa công bố safety card / red-team report chính thức.
Sắp tới
Ngày mở mã: 15/04/2026. Ngay tuần đầu đã có Diffusers PR merged, GGUF quants từ unsloth, ComfyUI nodes, và 18+ community Spaces trên HuggingFace. Bạn thử nhanh qua Baidu AI Studio hoặc clone repo GitHub và chạy local chỉ với vài dòng Diffusers.
Công thức tối giản:
from diffusers import ErnieImagePipeline
import torch
pipe = ErnieImagePipeline.from_pretrained(
"Baidu/ERNIE-Image",
torch_dtype=torch.bfloat16,
).to("cuda")
image = pipe(
prompt="Quảng cáo trà 1930 Thượng Hải, thư pháp 新茶上市, viền art deco, giấy ngả màu",
height=1264, width=848,
num_inference_steps=50,
guidance_scale=4.0,
use_pe=True,
).images[0]Trong bối cảnh GPT-Image-1 đóng, Midjourney đóng, Flux Pro đóng — một model 8B Apache 2.0 chạy được trên 4090 và fine-tune được là dấu hiệu rõ ràng rằng cuộc đua text-to-image open source chưa kết thúc, mà vừa bước vào vòng mới. Với các team CJK marketing, fintech on-prem, hay indie designer muốn brand-specific LoRA, đây là lựa chọn đáng thử ngay tuần này.

Nguồn: HuggingFace baidu/ERNIE-Image, GitHub repo, StableLearn analysis, Gigazine.


