Stanford STORM: dùng Claude research như nghiên cứu sinh PhD với 4 prompt

TL;DR

Phần lớn mọi người dùng Claude như một ô tìm kiếm: hỏi một câu, nhận một câu trả lời, đóng tab. Cách đó luôn cho bạn góc nhìn đa số - bề mặt của vấn đề. Stanford đã xây một hệ thống research tên STORM để giải đúng bài toán này, và phần hay nhất là bạn có thể bê nguyên lối tư duy của nó vào Claude bằng 4 prompt.

STORM Method - research như PhD trong 5 phut — STORM mô phỏng nhiều góc nhìn chuyên gia rồi tổng hợp thành một bản briefing có nguồn.

STORM thực ra là gì

STORM là viết tắt của Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking. Đây là một hệ thống LLM của Stanford OVAL Lab, tự viết các bài kiểu Wikipedia từ con số 0 dựa trên tìm kiếm Internet. Paper mang tên Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models, công bố tại hội nghị NAACL 2024.

Điểm cốt lõi nằm ở giai đoạn pre-writing. Thay vì hỏi một lần rồi viết, STORM tự khám phá nhiều góc nhìn khác nhau về chủ đề, rồi mô phỏng các cuộc hội thoại giữa một người viết mang góc nhìn cụ thể và một chuyên gia chủ đề, tất cả được neo (grounding) vào nguồn Internet đáng tin. Sau đó nó tổng hợp thông tin thu được thành outline, rồi mới viết bài kèm trích dẫn.

Hệ thống là mã nguồn mở: repo stanford-oval/storm, cài bằng pip install knowledge-storm, hỗ trợ hầu hết LLM qua litellm. Bản demo trực tuyến tại storm.genie.stanford.edu hoàn toàn miễn phí và đã có hơn 70.000 người dùng thử.

Tại sao một prompt luôn cho kết quả nông

Khi bạn hỏi Claude "cho tôi biết về X", bạn nhận lại cách framing phổ biến nhất. Cái bạn không nhận được là góc nhìn của người thực chiến với X mỗi ngày, của người hoài nghi cho rằng cả ngành đang sai, của nhà kinh tế lần theo dòng tiền, của sử gia đã thấy mô hình này lặp lại, và của học giả thực sự đọc các nghiên cứu.

Năm tiếng nói đó nhìn ra những thứ khác nhau. Đó chính xác là việc một nghiên cứu sinh PhD làm: họ không hỏi một câu, họ hỏi năm câu. Và đây là phần đã được kiểm chứng bằng số liệu - chứ không phải lời quảng cáo.

Bốn prompt chạy STORM bên trong Claude

Bạn không cần cài STORM để hưởng lợi. Phương pháp Stanford bản chất là một lối tư duy, và bạn có thể tái hiện nó bằng 4 prompt copy-paste. Đây là cách đóng gói của Nav Toor (@heynavtoor) dựa trên nguyên lý STORM - không phải sản phẩm chính thức của Stanford, nhưng bám sát đúng tinh thần.

Quy trinh 4 prompt: Multi-Perspective Scan, Contradiction Map, Synthesis, Peer Review — Bốn bước: quét đa góc nhìn, lập bản đồ mâu thuẫn, tổng hợp, rồi tự phản biện.

Prompt 1 - Quét đa góc nhìn

Đây là trái tim của phương pháp. Mô phỏng 5 chuyên gia cùng nhìn một chủ đề.

Tôi cần research [CHỦ ĐỀ].
Hãy mô phỏng 5 góc nhìn chuyên gia khác nhau:
1. NGƯỜI THỰC CHIẾN: làm việc với chủ đề này mỗi ngày. Họ biết gì mà giới hàn lâm bỏ sót?
2. HỌC GIẢ: đã nghiên cứu nhiều năm. Bằng chứng peer-reviewed thực sự nói gì? Chỗ nào nó mâu thuẫn với niềm tin phổ biến?
3. NGƯỜI HOÀI NGHI: cho rằng quan điểm chủ lưu sai. Phản biện mạnh nhất là gì? Bên ủng hộ né tránh bằng chứng nào?
4. NHÀ KINH TẾ: lần theo dòng tiền. Ai hưởng lợi từ narrative hiện tại?
5. SỬ GIA: đã thấy mô hình tương tự. Có những điểm tương đồng lịch sử nào?
Với mỗi góc nhìn, cho tôi: quan điểm cốt lõi (2 câu), bằng chứng mạnh nhất, và một điều duy nhất họ nói mà không góc nhìn nào khác nói.

Prompt 2 - Bản đồ mâu thuẫn

Bắt Claude tìm chỗ 5 tiếng nói xung đột. Mâu thuẫn là nơi hiểu biết thật sự nằm ở đó.

Dựa trên 5 góc nhìn trên, hãy lập bản đồ mâu thuẫn:
1. Hai hay nhiều góc nhìn trực tiếp chống nhau ở đâu? Liệt kê từng xung đột với claim cụ thể.
2. Góc nhìn nào có bằng chứng mạnh nhất? Yếu nhất? Vì sao?
3. Một câu hỏi nào nếu được trả lời sẽ hóa giải mâu thuẫn lớn nhất?
4. Điều gì MỌI góc nhìn đều đồng ý? (Đây nhiều khả năng là sự thật.)
5. Chủ đề nào KHÔNG góc nhìn nào đụng tới? (Đây là điểm mù của cả ngành.)

Prompt 3 - Tổng hợp

Gộp tất cả thành một bản briefing mà không chuyên gia đơn lẻ nào viết nổi.

Tổng hợp toàn bộ 5 góc nhìn và bản đồ mâu thuẫn thành một research briefing:
1. TÓM TẮT MỘT ĐOẠN: giải thích như đang brief cho CEO có 60 giây, cần sắc thái chứ không chỉ tiêu đề.
2. 5 PHÁT HIỆN CHÍNH: xếp theo độ tin cậy. Mỗi cái ghi rõ góc nhìn nào ủng hộ, góc nhìn nào phản bác.
3. LIÊN KẾT ẨN: một mối liên hệ không hiển nhiên chỉ lộ ra khi nhìn cả 5 góc nhìn cùng lúc.
4. INSIGHT HÀNH ĐỘNG: người ở vai trò [VAI TRÒ CỦA BẠN] nên làm gì khác đi? Cụ thể.
5. CÂU HỎI BIÊN GIỚI: câu hỏi mà nếu trả lời được sẽ thay đổi mọi thứ.

Prompt 4 - Tự phản biện

STORM có một điểm yếu mà chính nhóm Stanford đã ghi trong phần limitations: hệ thống không tự phê bình, nên dễ dính source bias và gán sai fact cho nguồn. Prompt này bù đúng chỗ đó.

Bây giờ hãy peer-review chính bản briefing của bạn:
1. ĐIỂM TIN CẬY: chấm mỗi phát hiện từ 1 đến 10 về độ tin cậy, giải thích từng điểm.
2. MẮT XÍCH YẾU NHẤT: claim nào bạn ít tự tin nhất? Cần thông tin gì để kiểm chứng?
3. KIỂM TRA THIÊN LỆCH: góc nhìn nào có thể bị lấn át trong phần tổng hợp?
4. GÓC NHÌN THIẾU: có góc nhìn thứ 6 nào đáng lẽ phải có?
5. ĐIỂM TỔNG: nếu một giáo sư Stanford chấm bản này, sẽ cho điểm bao nhiêu và bảo sửa gì?

Bằng chứng từ Stanford

Vì sao tin được rằng đa góc nhìn ăn đứt một prompt? Trong đánh giá human với bộ dữ liệu FreshWiki, các bài do STORM tạo ra có thêm 25 điểm phần trăm số bài đạt mức tổ chức tốt (Organization rating từ 4 trở lên) và thêm 10 điểm phần trăm về độ phủ tốt (Coverage), so với phương pháp baseline tốt nhất kế tiếp.

Lưu ý sắc thái: đây là tỷ lệ bài vượt ngưỡng chất lượng tăng thêm, không phải "tốt hơn 25% tuyệt đối". Nhưng thông điệp vẫn rõ - đặt câu hỏi từ nhiều góc bắt được những điểm mù mà research một prompt không bao giờ thấy.

Khi nào nên dùng

Quy trình 4 prompt mất khoảng 5 phút và hợp với gần như mọi tình huống cần hiểu sâu nhanh:

Trước khi viết bất kỳ bài hay báo cáo nào - để phủ những góc người khác không nghĩ tới.
Trước một quyết định kinh doanh - người thực chiến nói cái gì chạy được, người hoài nghi nói cái gì có thể vỡ, nhà kinh tế chỉ ai hưởng lợi.
Trước phỏng vấn, đầu tư hay đàm phán - hiểu động cơ và điểm yếu của phía bên kia trước khi bước vào phòng.
Trước khi học kỹ năng mới - lọc ra cái nên học trước và cái đang bị thổi phồng.

Kết

Paper đã peer-reviewed từ 2024, code mã nguồn mở giấy phép MIT, demo miễn phí, phương pháp gói gọn trong 4 prompt - vậy mà gần như không ai dùng. Lợi thế research bằng AI đúng cách vẫn còn là một bí mật giấu giữa thanh thiên bạch nhật. Chọn chủ đề bạn cần hiểu nhất, mở Claude, dán Prompt 1. Năm phút sau bạn sẽ biết nhiều hơn người đọc Google kết quả đầu tiên.

Nguồn

via Stanford STORM, paper NAACL 2024, GitHub, Nav Toor