OpenAI Privacy Filter: model 1.5B mở mã nguồn chuyên xoá PII trước khi đưa vào ChatGPT

TL;DR

OpenAI vừa công bố OpenAI Privacy Filter — một model mã nguồn mở chuyên dùng để phát hiện và che PII (tên, email, số điện thoại, địa chỉ, account number, URL riêng, ngày tháng, secret) trong văn bản. Đây không phải một LLM sinh văn bản: đó là một bidirectional token classifier 1.5B tham số (chỉ 50M active nhờ mixture-of-experts), chạy 1 forward pass duy nhất, đạt 96% F1 trên PII-Masking-300k và 97.43% trên bản corrected. Chạy được trên laptop, trên server, thậm chí ngay trong browser qua WebGPU. License Apache 2.0 — xài thương mại thoải mái.

What's new

Ngày 22/4/2026, OpenAI public repo openai/privacy-filter trên GitHub và weights trên Hugging Face. Đây là model OpenAI mở mã nguồn thứ hai sau gpt-oss, và là model đầu tiên trong họ của họ chuyên cho tác vụ phân loại token thay vì sinh văn bản.

Câu chuyện rất đơn giản: mỗi ngày có hàng triệu người paste tờ khai thuế, bệnh án, API key, email cá nhân vào ChatGPT mà không suy nghĩ. Privacy Filter được sinh ra để scrub những mẩu thông tin đó trước khi chúng rời khỏi máy người dùng. Thay vì giữ nguyên, model sẽ đánh dấu span nhạy cảm và thay bằng placeholder kiểu [PRIVATE_PERSON], [ACCOUNT_NUMBER], [SECRET].

Why it matters

Hầu hết tool PII redaction cũ đều dựa vào regex cộng với NER nhỏ (Microsoft Presidio, spaCy + rules). Chúng sai rất nhiều: miss các số điện thoại format lạ, false positive với các chuỗi random, không hiểu ngữ cảnh. Còn nếu bạn nhờ GPT-4 redact bằng prompt, nghĩa là bạn đã gửi raw data đi rồi — vô nghĩa.

Privacy Filter bịt đúng khoảng trống đó: chạy local, một lượt forward, có ngữ cảnh, và miễn phí. Với các ngành bị quản chặt (y tế, tài chính, luật, HR), khả năng chạy on-prem là yếu tố quyết định việc có được dùng AI hay không.

Technical facts

Kiến trúc thực tế khá thú vị — OpenAI dùng lại nhiều ý tưởng từ gpt-oss nhưng chuyển hoá thành classifier:

Thuộc tính	Giá trị
Tổng tham số	1.5B
Active params / token	50M (MoE 128 experts, top-4)
Transformer blocks	8 (pre-norm encoder)
Attention	Grouped-query (14 Q / 2 KV), banded (band=128)
d_model	640
Context window	128,000 tokens
Output classes	33 (1 background O + 8 PII × 4 BIOES tags)
Decoding	Constrained Viterbi
Precision	F32 / BF16
F1 trên PII-Masking-300k	96% (97.43% bản corrected)

Vì là bidirectional classifier + single forward pass, throughput cao hơn nhiều so với masking kiểu generative (LLM sinh từng token). 8 nhóm PII được nhận diện: account_number, private_address, private_email, private_person, private_phone, private_url, private_date, secret.

Cách dùng cũng cực ngắn, chỉ vài dòng:

from transformers import pipeline
classifier = pipeline("token-classification", model="openai/privacy-filter")
classifier("My name is Alice Smith")

Hoặc trong browser qua @huggingface/transformers với device: "webgpu" và dtype: "q4" — user data không rời khỏi máy.

Comparison

Giải pháp	Hiểu ngữ cảnh	Chạy local	Throughput	Giá
Regex + Presidio	Yếu	Có	Cao	Free
GPT-4 redact qua prompt	Mạnh	Không (raw data rời máy)	Thấp	Trả theo token
AWS Comprehend / Google DLP	Khá	Không	Cao	Trả theo request
OpenAI Privacy Filter	Mạnh	Có	Rất cao (1 pass)	Free, Apache 2.0

Use cases

Cá nhân: browser extension scrub text trước khi paste vào ChatGPT / Claude / Gemini.
Developer: strip API key, token, secret khỏi log và snippet code trước khi upload hoặc share.
SMB: tóm tắt email khách hàng, support ticket mà không lộ danh tính khách.
Y tế: draft phiếu chuyển viện, note bệnh án với field PHI-like được mask trước khi đưa vào pipeline LLM.
Pháp lý: xử lý deposition transcript, hồ sơ discovery cho luật sư freelance.
Data team / RAG: sanitize hàng loạt dataset trước khi tạo embedding hoặc fine-tune — context 128k + MoE sparsity đủ nhanh cho batch lớn.

Limitations & pricing

OpenAI nói thẳng trong model card: Privacy Filter "không phải anonymization tool, không phải compliance certification, không thay thế được quy trình review policy". Cụ thể:

Hiệu năng giảm trên text không phải tiếng Anh, script không Latin, và các pattern tên thuộc nhóm thiểu số.
Under-detection: tên ít gặp, định dạng vùng miền, viết tắt, credential format lạ, secret bị xuống dòng.
Over-redaction: public entity, tên tổ chức, danh từ chung ngữ cảnh mơ hồ, hash / placeholder trông có vẻ high-entropy.
8 nhãn PII cố định — muốn thêm nhãn phải fine-tune lại.
Với các domain rủi ro cao (y tế, pháp lý, tài chính, HR, giáo dục, chính phủ), OpenAI khuyến cáo bắt buộc có human review và đánh giá in-domain trước khi lên production.

Giá: hoàn toàn miễn phí (Apache 2.0). Bạn chỉ trả cho compute của chính mình.

What's next

Model đã có CLI opf với các lệnh opf eval, opf train — tức fine-tune được trên dataset riêng. Những hướng mở rộng dễ thấy:

Cộng đồng sẽ fine-tune các phiên bản theo vertical (HIPAA-oriented cho y tế, GDPR-oriented cho EU, v.v.).
Mở rộng tập nhãn ngoài 8 nhóm hiện tại (biometric IDs, tax IDs, medical codes…).
Tích hợp thẳng vào các enterprise data-protection stack (Presidio plugin, LangChain / LlamaIndex middleware).
Phiên bản multilingual tốt hơn — gap hiện tại trên non-English và non-Latin đã được OpenAI chủ động thừa nhận.

Với một release nhỏ gọn nhưng đánh đúng pain point, Privacy Filter có thể trở thành default first layer cho mọi pipeline LLM trong doanh nghiệp từ giờ đến cuối năm.

Nguồn: Hugging Face — openai/privacy-filter, GitHub, Model Card PDF, Decrypt.

OpenAI Privacy Filter: model 1.5B mở mã nguồn chuyên xoá PII trước khi đưa vào ChatGPT

TL;DR

What's new

Why it matters

Technical facts

Comparison

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

DeepSeek V4 Pro tự hack 3 challenge PortSwigger và 1 app Android — review bởi Claude Opus 4.7