- Parallel vừa công bố công thức cho một CLI agent hoàn toàn miễn phí và hoàn toàn local: harness Pi của Mario Zechner, Gemma 4 trên Ollama, và Search MCP không cần key của Parallel.
- Kết quả: CLI `brief` một file in ra bản tóm tắt có nguồn về bất kỳ chủ đề nào - với $0 phí API và không có key nào trong shell history.
TL;DR
Parallel công bố một walkthrough cho stack agent local hoàn toàn miễn phí: Pi (harness coding terminal tối giản của Mario Zechner) điều khiển Gemma 4 trên local Ollama, và Parallel Search MCP mới ra mắt cung cấp cho agent quyền truy cập web mở - không cần API key. Sản phẩm là brief, một CLI một file nhận một chủ đề và in ra bản tóm tắt buổi sáng kèm nguồn. $0 phí API. Không có key nào trong shell history của bạn.

Điểm mới
Ba mảnh, không cái nào tồn tại trong sự kết hợp này vài tuần trước, cuối cùng đã click với nhau:
- Pi (
@mariozechner/pi-coding-agent) - một harness coding terminal có chủ đích nhỏ gọn với bốn tool tích hợp (read,write,edit,bash) và hỗ trợ MCP quapi-mcp-adapterbên thứ ba. - Gemma 4 trên Ollama - họ Apache-2.0 của Google DeepMind, với các biến thể edge vừa laptop và 26B Mixture-of-Experts chỉ kích hoạt 3.8B tham số mỗi token.
- Parallel Search MCP tại
https://search.parallel.ai/mcp- một endpoint ẩn danh miễn phí exposeweb_searchvàweb_fetchcho bất kỳ client MCP nào.
Tại sao điều này quan trọng
Trong hai năm, giả định làm việc là: các agent nghiêm túc cần một mô hình frontier và một search API trả phí. Cả hai nửa vừa được nới lỏng. Gemma 4 đủ tốt về lập kế hoạch và tóm tắt để hữu ích trên laptop, và Parallel Search MCP loại bỏ thẻ tín dụng cuối cùng khỏi vòng lặp. Điều này thay đổi unit economics cho mọi cron job, daily-brief, research script và learn-by-doing tutorial - chúng sụp từ vài cent mỗi lần chạy xuống hoàn toàn miễn phí.
Thông số kỹ thuật
| Thành phần | Là gì | Chi phí |
|---|---|---|
| Pi | Terminal harness, 4 tool tích hợp, MCP qua adapter | $0 (npm, Apache-2.0) |
| Ollama | Local model runtime | $0 (open source) |
gemma4:e4b | Biến thể edge cho runtime summarization, vừa ~8 GB RAM | $0 (weights Apache-2.0) |
gemma4:26b | 26B MoE / 3.8B active - dùng để tạo code CLI | $0 (weights Apache-2.0) |
| Parallel Search MCP | web_search + web_fetch, ẩn danh, không key | $0 tier miễn phí |
Một lựa chọn kiến trúc tinh tế trong demo: code CLI điều phối lệnh gọi MCP, sau đó truyền kết quả cho LLM dưới dạng plain text. Model không bao giờ gọi tool lúc runtime. Điều này tránh mọi quirk mà các mô hình nhỏ vẫn gặp với multi-step JSON tool loop - một trick thực dụng đáng học.
So sánh
| Khả năng | Stack hosted (Claude/GPT + Tavily/Exa) | Stack này (Pi + Gemma 4 + Parallel MCP) |
|---|---|---|
| Chi phí inference | $/M token | $0, trên local GPU/CPU |
| Chi phí search | $5-$30 trên 1k query thông thường | $0, không key ở tier miễn phí |
| Quyền riêng tư | Prompt rời box | Prompt + history ở lại laptop |
| Chế độ offline | Không có | Inference offline; chỉ search cần mạng |
| Cài đặt | API key + billing | brew install ollama && ollama pull gemma4:e4b |
Trường hợp sử dụng
- Brief tin tức hàng ngày -
brief "Gemma 4 launch"trả về một đoạn văn cộng danh sách nguồn. Đưa vào cron. - Soạn thảo nhạy cảm về quyền riêng tư - pháp lý, y tế, thông số kỹ thuật sản phẩm nội bộ. Nội dung không bao giờ rời laptop; chỉ search query đi ra ngoài.
- Tóm tắt cron job - release note, blog đối thủ, trang pricing. Chi phí vài cent mỗi lần chạy trở thành miễn phí.
- Giảng dạy - một reference implementation sạch cho sinh viên học cách một agent harness, một LLM và một MCP server thực sự kết nối với nhau.
Giới hạn & giá cả
- Rate limit tier miễn phí trên Parallel Search MCP không được công bố nhưng được mô tả là phù hợp cho "khám phá và sử dụng nhẹ". Chạm giới hạn và bạn có thể thêm
x-api-keycho allowance cao hơn; OAuth có qua/mcp-oauth. - Phần cứng:
gemma4:e4bthoải mái trên laptop 8 GB.gemma4:26bcần ít nhất 16 GB unified memory hoặc GPU tầm trung. - Độ trung thực tool-calling: các mô hình nhỏ vẫn vấp ngã trên multi-step tool loop. Bài viết tránh điều này bằng cách điều phối từ code CLI, không phải LLM. Các vòng lặp agentic đầy đủ với Gemma 4 điều khiển vẫn cần prompt cẩn thận.
- Độ sâu search: tier miễn phí dành cho one-shot lookup, không phải Deep Research multi-hop. Đó là tier trả phí của Parallel.
Tiếp theo là gì
Hệ sinh thái Pi adapter đang phát triển nhanh - kỳ vọng filesystem, git và GitHub MCP server sẽ vào cùng harness, cộng với các fine-tune Gemma 4 chặt chẽ hơn khiến LLM, không phải CLI, điều khiển vòng lặp. Câu chuyện lớn hơn: một baseline hoàn toàn miễn phí đáng tin cậy giờ tồn tại cho hobbyist agent. Câu hỏi thú vị không còn là "tôi trả tiền API nào" mà là "tôi sẽ xây gì nếu mỗi lần chạy tốn $0?"
Nguồn: parallel.ai, Thông báo Parallel Search MCP, Tài liệu Parallel, Ollama gemma4, @p0 trên X.
