Baidu mở mã nguồn ERNIE-Image 8B: mô hình text-to-image chạy trên GPU tiêu dùng, fine-tune thoải mái

TL;DR

Baidu open-source ERNIE-Image (và phiên bản Turbo) ngày 15/04/2026 — một Diffusion Transformer 8B tham số, weights công khai trên HuggingFace dưới giấy phép Apache 2.0, dùng thương mại + fine-tune tự do. Chạy được trên GPU tiêu dùng 24GB (RTX 3090/4090). Trên GenEval (instruction following) nó vượt Qwen-Image và FLUX.2-klein-9B; trên LongTextBench chỉ thua Seedream 4.5 (closed). Điểm mạnh: render chữ dày đặc (kể cả thư pháp Trung/Nhật), poster, comic nhiều ô, layout phức tạp.

ERNIE-Image infographic showcase — render chữ dày đặc về Poincaré Conjecture

Có gì mới

Trong khi GPT-Image-1, Seedream 4.5, Midjourney vẫn đóng, Baidu chọn con đường ngược lại. ERNIE-Image là single-stream Diffusion Transformer đi kèm Prompt Enhancer — một model phụ tự tay mở rộng prompt ngắn thành mô tả chi tiết có cấu trúc trước khi đưa vào DiT.

Có hai biến thể:

ERNIE-Image (SFT) — 50 bước inference, chất lượng tối đa
ERNIE-Image-Turbo — 8 bước, chưng cất bằng DMD + RL, nhanh hơn ~6×

Day-0 đã có GGUF quantizations từ unsloth, nodes ComfyUI, và tích hợp Diffusers chính thức.

Vì sao quan trọng

Ba điểm làm ERNIE-Image khác đa số open-weight hiện có:

Commercial-friendly thật sự: Apache 2.0, không có điều khoản phi-thương-mại như FLUX.1-dev.
Fine-tune được: bạn có thể train LoRA/adapter theo brand, style, hay ngôn ngữ riêng — thứ GPT-Image-1 và Midjourney không bao giờ cho phép.
Chạy local: 24GB VRAM là ngưỡng RTX 3090/4090 — không cần H100. Data không cần rời máy.

Thông số kỹ thuật

Thuộc tính	ERNIE-Image	ERNIE-Image-Turbo
Tham số DiT	8B	8B
Số bước inference	50	8
VRAM tối thiểu	24GB	24GB
Guidance scale	4.0	4.0
Prompt Enhancer	Có	Có

Độ phân giải hỗ trợ: 1024×1024, 848×1264, 1264×848, 768×1376, 896×1200, 1376×768, 1200×896.

So sánh benchmark

Model	GenEval	OneIG-EN	LongTextBench	Open?
ERNIE-Image	0.8728	0.5750	0.9733	Có (Apache 2.0)
Qwen-Image	0.8683	—	—	Có
FLUX.2-klein-9B	0.8481	—	—	Có (non-commercial)
Seedream 4.5	—	0.5760	0.9882	Không

ERNIE-Image đứng đầu GenEval dù param count nhỏ hơn FLUX.2-klein-9B. Trên LongTextBench chỉ thua Seedream 4.5 closed ở mức 1.5 điểm phần trăm.

Alphabet of Careers — ERNIE-Image render multi-panel grid với chữ nhất quán

Use case thực tế

Poster thương mại + banner e-commerce có chữ tiếng Việt / Trung dày đặc — thứ mà đa số model open đều hỏng typography.
Comic nhiều ô, storyboard, sticker pack — cấu trúc multi-panel giữ style nhất quán.
UI mockup + bảng infographic khoa học — render nhãn nhỏ, chữ dày vẫn rõ.
Fine-tune theo brand: agency train LoRA cho style signature, không phụ thuộc API bên thứ ba.
On-prem cho domain nhạy cảm: fintech, legal, medical — data không rời server.

Sticker pack LINE render bằng ERNIE-Image — giữ style nhất quán qua 20+ emoji

Hạn chế & giá

Giá: miễn phí, Apache 2.0, thương mại thoải mái.
VRAM sàn 24GB — loại card 12GB/16GB không chạy native (phải qua GGUF quantization của unsloth).
Vẫn thua Seedream 4.5 closed trên LongTextBench (0.9733 vs 0.9882).
Standard SFT 50 bước khá chậm nếu ưu tiên latency — cân nhắc Turbo (8 bước).
Chưa công bố safety card / red-team report chính thức.

Sắp tới

Ngày mở mã: 15/04/2026. Ngay tuần đầu đã có Diffusers PR merged, GGUF quants từ unsloth, ComfyUI nodes, và 18+ community Spaces trên HuggingFace. Bạn thử nhanh qua Baidu AI Studio hoặc clone repo GitHub và chạy local chỉ với vài dòng Diffusers.

Công thức tối giản:

from diffusers import ErnieImagePipeline
import torch

pipe = ErnieImagePipeline.from_pretrained(
    "Baidu/ERNIE-Image",
    torch_dtype=torch.bfloat16,
).to("cuda")

image = pipe(
    prompt="Quảng cáo trà 1930 Thượng Hải, thư pháp 新茶上市, viền art deco, giấy ngả màu",
    height=1264, width=848,
    num_inference_steps=50,
    guidance_scale=4.0,
    use_pe=True,
).images[0]

Trong bối cảnh GPT-Image-1 đóng, Midjourney đóng, Flux Pro đóng — một model 8B Apache 2.0 chạy được trên 4090 và fine-tune được là dấu hiệu rõ ràng rằng cuộc đua text-to-image open source chưa kết thúc, mà vừa bước vào vòng mới. Với các team CJK marketing, fintech on-prem, hay indie designer muốn brand-specific LoRA, đây là lựa chọn đáng thử ngay tuần này.

Ảnh photorealistic do ERNIE-Image sinh — phố đêm mưa phong cách Tokyo

Nguồn: HuggingFace baidu/ERNIE-Image, GitHub repo, StableLearn analysis, Gigazine.