TL;DR

ERNIE-Image là mô hình text-to-image 8B tham số do team ERNIE-Image của Baidu phát hành mã nguồn ngày 15/04/2026 dưới giấy phép Apache 2.0. Cùng lúc, mô hình lên thẳng ERNIE Bot cho người dùng cuối. Điểm mạnh nhất: render chữ chính xác (English + Chinese, multi-line, layout-sensitive) — vốn là tử huyệt của hầu hết open-weights model. ERNIE-Image đứng #1 open-weights trên ba benchmark GenEval, OneIG, LongTextBench, chạy được trên một GPU 24GB consumer.

Demo render trang web với chữ sắc nét do ERNIE-Image tạo

What's new

  • Open-source thật sự: weights + code trên GitHubHugging Face, Apache 2.0 — dùng thương mại OK.
  • Hai biến thể: bản SFT (~50 inference steps, guidance scale 4.0) tối ưu chất lượng, và ERNIE-Image-Turbo chỉ 8 steps (DMD + RL polish), nhanh ~6× mà vẫn giữ benchmark cao.
  • Có sẵn trên ERNIE Bot: thử miễn phí ở ernie.baidu.com.
  • Tích hợp rộng: 50+ nền tảng sáng tạo và 30+ tổ chức đối tác đã xác thực sản xuất.

Why it matters

Render chữ trong ảnh là điểm chết của text-to-image suốt 3 năm nay. SDXL, Flux, SD3 đều phải dùng inpainting hoặc workflow phụ để vá lại chữ — chưa kể model thường viết sai chính tả, chữ bị méo, hoặc lệch khỏi vùng được chỉ định. ERNIE-Image thay đổi luật chơi: chữ nhiều dòng, song ngữ, đặt đúng layout — trong đúng một lần generate. Với ai làm poster, infographic, UI mockup, comic, tài liệu giáo dục, đây là lần đầu một open-weights model thực sự dùng được mà không cần Photoshop touch-up.

Đáng chú ý hơn: nó chạy trên một GPU 24GB (RTX 3090/4090). Không cần A100, không cần cluster, không cần đăng ký quota cloud. Apache 2.0 nghĩa là bạn có thể fine-tune, đóng gói vào sản phẩm thương mại, hoặc fork không lo ràng buộc license — khác hẳn chuỗi Stable Diffusion 3 phải mua commercial license trên ngưỡng doanh thu nhất định.

Trong bối cảnh thị trường text-to-image đang phân hóa nặng giữa closed-source mạnh (Imagen 4, GPT-Image, Seedream) và open-source kém ổn định, ERNIE-Image trám đúng chỗ trống mà Flux và Qwen-Image chưa giải quyết được: text rendering production-grade.

Technical facts

PropertyERNIE-Image (SFT)ERNIE-Image-Turbo
Params (DiT)8B8B
Inference steps~508
Guidance scale4.01.0
VRAM tối thiểu24 GB24 GB
DistillationDMD + RL polish

Kiến trúc: single-stream Diffusion Transformer, hidden dim 4096, 32 attention heads, 36 layers, FFN expansion 3.0, 128-channel VAE latent. Prompt Enhancer là một LM nhẹ (Ministral3, 3072 hidden, 26 layers, vocab 131K) tự viết lại prompt ngắn thành mô tả structured. Text encoder dùng Mistral3 với khả năng vision (Pixtral-derived). Hỗ trợ 7 preset độ phân giải từ 1024×1024 đến 1376×768. Có sẵn trong diffusers, SGLang, ModelScope/PaddlePaddle.

Comparison

Số liệu từ model card chính thức của Baidu:

ModelGenEval ↑OneIG-EN ↑LongTextBench ↑
ERNIE-Image (w/ PE)0.87280.57500.9733
ERNIE-Image-Turbo0.85100.56560.9655
Qwen-Image0.86830.9445
FLUX.2-klein-9B0.84810.53240.5413
Z-Image0.8400
Seedream 4.5 (closed)0.9882

Hai chi tiết đáng chú ý: (1) FLUX.2 sụp đổ ở scenario tiếng Trung, chỉ đạt 0.2183 LongTextBench Chinese — ERNIE-Image vẫn ổn định. (2) ERNIE-Image bám sát closed-source Seedream 4.5 (0.9733 vs 0.9882) — khoảng cách open vs closed thu hẹp đáng kể.

Use cases

Infographic Poincaré Conjecture với layout chữ dày đặc do ERNIE-Image tạo

  • Content & design: poster, illustration có chữ chính xác từ prompt.
  • E-commerce: ảnh sản phẩm, banner khuyến mãi với caption đúng chính tả.
  • UI/UX prototyping: mockup giao diện full chữ, gần như không cần Figma vá lại.
  • Education & publishing: hình minh họa sách giáo khoa, infographic khoa học song ngữ.
  • Game & video: concept art, cover, frame có text overlay.
  • Sticker & comic: bộ sticker đa biểu cảm, panel layout có thoại.

Bộ sticker anime đa biểu cảm do ERNIE-Image render trong một lần generate

Limitations & pricing

  • VRAM floor 24GB: đa số GPU consumer dưới mức này (RTX 4070, 3080, M-series base) cần quantization hoặc offload — chưa có hướng dẫn chính thức.
  • Closed-source Seedream 4.5 vẫn nhỉnh hơn về text rendering (0.9882 vs 0.9733).
  • Không có hosted API chính thức công bố giá; để dùng cloud, tự host qua Diffusers/SGLang hoặc qua spaces của HF.
  • ERNIE Bot consumer app miễn phí tại ernie.baidu.com nhưng có rate limit và không phù hợp production.

What's next

Apache 2.0 + 8B + chạy trên consumer GPU = công thức để cộng đồng fine-tune nhanh. Đã có 18+ Spaces trên Hugging Face chỉ vài ngày sau release. Bài học từ FLUX cho thấy LoRA và ControlNet variant sẽ xuất hiện trong vài tuần tới — và với điểm mạnh đặc biệt ở text rendering, đây có thể là backbone mới cho mảng document/poster generation open-source. Nếu bạn đang build sản phẩm phụ thuộc vào hosted API như Imagen 4 hay GPT-Image, ERNIE-Image đáng để chạy thử local trước khi chốt vendor.

Nguồn: ernie-image.github.io, GitHub baidu/ernie-image, Hugging Face model card, @Baidu_Inc.