TL;DR

Ngày 22/04/2026, OpenAI phát hành Privacy Filter — mô hình open-weight đầu tiên của họ trong năm 2026, được thiết kế chuyên để phát hiện và che (mask) thông tin cá nhân (PII) trong văn bản. Đây là một bidirectional token classifier được chuyển thể từ GPT-OSS, tổng cộng 1.5B params nhưng chỉ 50M params active per token (MoE sparse ~30×), đạt 96% F1 trên benchmark PII-Masking-300k, hỗ trợ context 128k token, và nhẹ tới mức chạy thẳng được trong browser qua WebGPU. Giấy phép Apache-2.0 — dùng thương mại thoải mái.

What's new

Trong 18 tháng qua OpenAI đã đi một quãng đường dài về open-weight: gpt-oss-120b/20b ra mắt cuối 2025, gpt-oss-safeguard hôm 31/10/2025, và bây giờ là Privacy Filter. Nhưng Privacy Filter khác hẳn hai dòng kia ở ba điểm:

  • Không phải generative model — nó là classifier, output là nhãn token (PII hay không, thuộc loại gì), không sinh văn bản.
  • Bidirectional — đọc toàn bộ context cả hai chiều như BERT, khác hoàn toàn autoregressive của GPT-OSS gốc.
  • Nhỏ tới mức phi lý so với GPT-OSS — 50M active params, ~400× nhẹ hơn gpt-oss-20b, vừa đủ chạy realtime trên browser bằng Transformers.js v4 + WebGPU.

Về bản chất, OpenAI đã lấy weight của GPT-OSS, cắt bớt decoder head, gắn một classifier head bidirectional, và fine-tune trên PII-Masking-300k của Ai4Privacy cùng taxonomy privacy nội bộ của OpenAI. Kết quả là một mô hình cực chuyên dụng, không phải một LLM thu nhỏ.

Why it matters

PII leakage là nỗi đau cụ thể, không phải giả định. Mỗi khi một sản phẩm SaaS gửi prompt người dùng tới OpenAI/Anthropic/Gemini API, nó có thể kèm theo email khách hàng, số điện thoại, địa chỉ, CMND — và các API này thường log input cho mục đích debug, abuse detection. Các công cụ redact PII trước đó (Microsoft Presidio, AWS Comprehend, ai4privacy DeBERTa, HydroX) đều có giới hạn: hoặc nặng (cần GPU server), hoặc context ngắn (512–1024 token), hoặc không free commercial.

Privacy Filter giải quyết đồng thời cả ba vấn đề: đủ nhẹ cho inference biên và browser, context 128k đủ cho tài liệu dài, Apache-2.0 không ràng buộc. Đây là lần đầu có một PII masker "state-of-the-art" được OpenAI chống lưng và phát hành hoàn toàn mở — một tín hiệu mạnh về định hướng on-device privacy của họ.

Technical facts

PropertyValue
Total params1.5B
Active params / token50M (MoE)
Base modelGPT-OSS (adapted)
ArchitectureBidirectional token classification
Context window128,000 tokens
Benchmark (F1)96% on PII-Masking-300k
PII categories8 (names, addresses, email, phone, …)
LicenseApache-2.0
Runtime hỗ trợServer (PyTorch/Transformers), Browser (WebGPU/Transformers.js v4), Edge
Release dateApril 22, 2026

Comparison

SolutionActive paramsContextBrowser-nativeLicense
OpenAI Privacy Filter50M128k✅ WebGPUApache-2.0
gpt-oss-safeguard-20b20B128kApache-2.0
ai4privacy DeBERTa-v3 large~304M512–1024Partial (ONNX)CC-BY
HydroX pii-masker~86M512MIT
Microsoft PresidioRule + NERVariableMIT

Điểm đáng chú ý: Privacy Filter nhỏ hơn DeBERTa-v3 large về active params (50M vs 304M) nhưng context dài hơn 125×. Đó là lợi thế của kiến trúc MoE trên nền GPT-OSS — router chỉ kích hoạt một phần expert cho mỗi token, giữ compute thấp mà vẫn có capacity tổng.

Use cases

  • Pre-LLM sanitization: chạy Privacy Filter ở client trước khi gửi prompt ra OpenAI/Anthropic API. Customer email, SĐT, địa chỉ bị mask bằng placeholder (<EMAIL_1>, <PHONE_1>) trước khi rời máy user.
  • Training data cleaning: scrub PII khỏi pretraining corpus — chính OpenAI đã dùng loại tool này nội bộ.
  • Browser extensions / chat widgets: 50M params nạp được vào browser, redact PII realtime khi user gõ vào ChatGPT/Claude web.
  • Compliance workflows: GDPR/HIPAA redaction cho customer support logs, hồ sơ bệnh án, tài liệu pháp lý.
  • RAG pipelines: mask PII trong document store trước khi embed — tránh leak qua semantic search.

Limitations & pricing

Pricing: miễn phí hoàn toàn — Apache-2.0, self-host hoặc chạy local, không API fee, không giới hạn request.

Limitations:

  • 8 categories hẹp hơn các giải pháp enterprise (Presidio, AWS Comprehend phủ 20+ loại như SSN, credit card, IP, passport…).
  • 96% F1 nghĩa là ~4% sai sót — không đủ cho HIPAA/PCI strict compliance, vẫn cần human-in-the-loop audit với dữ liệu nhạy cảm cao.
  • Hiệu năng trên non-English chưa được công bố; PII-Masking-300k nghiêng về tiếng Anh dù là multilingual.
  • Token classification không "hiểu" context sâu như reasoning model — không phân biệt được "địa chỉ công ty công khai" vs "địa chỉ nhà riêng" (thứ gpt-oss-safeguard có thể làm nhưng tốn 20B params).

What's next

Privacy Filter là dấu hiệu OpenAI đang xây một tầng on-device privacy primitive song song với các LLM cloud. Dự đoán next steps:

  • Bản multilingual / specialized domain (medical, legal, finance).
  • Tích hợp vào OpenAI Guardrails Python SDK như một check mặc định.
  • Wrappers từ LangChain / LlamaIndex cho pipeline middleware.
  • Cộng đồng fine-tune cho ngôn ngữ cụ thể (tiếng Việt, Nhật, Hàn) — đây là cơ hội cho indie devs.

Nguồn: OpenAI announcement, Phemex, @xenovacom.