Tất cả bài viết

// Posts#rag-evaluation

#6792026-05-18

Xây Eval Dataset Hiệu Quả cho LLM: Bắt Đầu Từ Đâu và Dùng Công Cụ Gì (Phần 2)

Dataset tốt là dataset mirror được production - nếu pass dataset bạn tự tin deploy, nó đang làm đúng việc. Bắt đầu với 10-20 ví dụ curate thủ công; với từng component riêng lẻ thì 5-10 là đủ. 3 nguồn dữ liệu theo thứ tự: production traces, hand-written cases, sau đó mới generate synthetic bằng AI. Sau dataset là experiments - đo impact từng thay đổi trước khi deploy.

llm-evaluationeval-datasetlangfuse

6 phút đọc