// Posts#graphgen
GraphGen: Sinh Dữ Liệu Huấn Luyện LLM từ Knowledge Graph
#8092026-05-01

GraphGen: Sinh Dữ Liệu Huấn Luyện LLM từ Knowledge Graph

GraphGen là framework open-source tạo synthetic training data cho LLM từ knowledge graph, dùng ECE metric để nhắm vào knowledge gap cụ thể. Benchmark với Qwen2.5-7B: +15.5 điểm AIME25 (toán), +14.4 điểm SeedBench (nông nghiệp), +6.7 điểm GPQA-Diamond so với baseline tốt nhất. Sinh ~50,000 samples trong 2 giờ trên 8 A100, output đa dạng hơn 59% (MTLD 75.8 vs 47.6). Apache 2.0, cài bằng uv pip install graphg.

graphgensynthetic-datallm
6 phút đọc