TL;DR

OpenAI vừa công bố OpenAI Privacy Filter — một model mã nguồn mở chuyên dùng để phát hiện và che PII (tên, email, số điện thoại, địa chỉ, account number, URL riêng, ngày tháng, secret) trong văn bản. Đây không phải một LLM sinh văn bản: đó là một bidirectional token classifier 1.5B tham số (chỉ 50M active nhờ mixture-of-experts), chạy 1 forward pass duy nhất, đạt 96% F1 trên PII-Masking-300k97.43% trên bản corrected. Chạy được trên laptop, trên server, thậm chí ngay trong browser qua WebGPU. License Apache 2.0 — xài thương mại thoải mái.

What's new

Ngày 22/4/2026, OpenAI public repo openai/privacy-filter trên GitHub và weights trên Hugging Face. Đây là model OpenAI mở mã nguồn thứ hai sau gpt-oss, và là model đầu tiên trong họ của họ chuyên cho tác vụ phân loại token thay vì sinh văn bản.

Câu chuyện rất đơn giản: mỗi ngày có hàng triệu người paste tờ khai thuế, bệnh án, API key, email cá nhân vào ChatGPT mà không suy nghĩ. Privacy Filter được sinh ra để scrub những mẩu thông tin đó trước khi chúng rời khỏi máy người dùng. Thay vì giữ nguyên, model sẽ đánh dấu span nhạy cảm và thay bằng placeholder kiểu [PRIVATE_PERSON], [ACCOUNT_NUMBER], [SECRET].

Why it matters

Hầu hết tool PII redaction cũ đều dựa vào regex cộng với NER nhỏ (Microsoft Presidio, spaCy + rules). Chúng sai rất nhiều: miss các số điện thoại format lạ, false positive với các chuỗi random, không hiểu ngữ cảnh. Còn nếu bạn nhờ GPT-4 redact bằng prompt, nghĩa là bạn đã gửi raw data đi rồi — vô nghĩa.

Privacy Filter bịt đúng khoảng trống đó: chạy local, một lượt forward, có ngữ cảnh, và miễn phí. Với các ngành bị quản chặt (y tế, tài chính, luật, HR), khả năng chạy on-prem là yếu tố quyết định việc có được dùng AI hay không.

Technical facts

Kiến trúc thực tế khá thú vị — OpenAI dùng lại nhiều ý tưởng từ gpt-oss nhưng chuyển hoá thành classifier:

Thuộc tínhGiá trị
Tổng tham số1.5B
Active params / token50M (MoE 128 experts, top-4)
Transformer blocks8 (pre-norm encoder)
AttentionGrouped-query (14 Q / 2 KV), banded (band=128)
d_model640
Context window128,000 tokens
Output classes33 (1 background O + 8 PII × 4 BIOES tags)
DecodingConstrained Viterbi
PrecisionF32 / BF16
F1 trên PII-Masking-300k96% (97.43% bản corrected)

Vì là bidirectional classifier + single forward pass, throughput cao hơn nhiều so với masking kiểu generative (LLM sinh từng token). 8 nhóm PII được nhận diện: account_number, private_address, private_email, private_person, private_phone, private_url, private_date, secret.

Cách dùng cũng cực ngắn, chỉ vài dòng:

from transformers import pipeline
classifier = pipeline("token-classification", model="openai/privacy-filter")
classifier("My name is Alice Smith")

Hoặc trong browser qua @huggingface/transformers với device: "webgpu"dtype: "q4" — user data không rời khỏi máy.

Comparison

Giải phápHiểu ngữ cảnhChạy localThroughputGiá
Regex + PresidioYếuCaoFree
GPT-4 redact qua promptMạnhKhông (raw data rời máy)ThấpTrả theo token
AWS Comprehend / Google DLPKháKhôngCaoTrả theo request
OpenAI Privacy FilterMạnhRất cao (1 pass)Free, Apache 2.0

Use cases

  • Cá nhân: browser extension scrub text trước khi paste vào ChatGPT / Claude / Gemini.
  • Developer: strip API key, token, secret khỏi log và snippet code trước khi upload hoặc share.
  • SMB: tóm tắt email khách hàng, support ticket mà không lộ danh tính khách.
  • Y tế: draft phiếu chuyển viện, note bệnh án với field PHI-like được mask trước khi đưa vào pipeline LLM.
  • Pháp lý: xử lý deposition transcript, hồ sơ discovery cho luật sư freelance.
  • Data team / RAG: sanitize hàng loạt dataset trước khi tạo embedding hoặc fine-tune — context 128k + MoE sparsity đủ nhanh cho batch lớn.

Limitations & pricing

OpenAI nói thẳng trong model card: Privacy Filter "không phải anonymization tool, không phải compliance certification, không thay thế được quy trình review policy". Cụ thể:

  • Hiệu năng giảm trên text không phải tiếng Anh, script không Latin, và các pattern tên thuộc nhóm thiểu số.
  • Under-detection: tên ít gặp, định dạng vùng miền, viết tắt, credential format lạ, secret bị xuống dòng.
  • Over-redaction: public entity, tên tổ chức, danh từ chung ngữ cảnh mơ hồ, hash / placeholder trông có vẻ high-entropy.
  • 8 nhãn PII cố định — muốn thêm nhãn phải fine-tune lại.
  • Với các domain rủi ro cao (y tế, pháp lý, tài chính, HR, giáo dục, chính phủ), OpenAI khuyến cáo bắt buộc có human review và đánh giá in-domain trước khi lên production.

Giá: hoàn toàn miễn phí (Apache 2.0). Bạn chỉ trả cho compute của chính mình.

What's next

Model đã có CLI opf với các lệnh opf eval, opf train — tức fine-tune được trên dataset riêng. Những hướng mở rộng dễ thấy:

  • Cộng đồng sẽ fine-tune các phiên bản theo vertical (HIPAA-oriented cho y tế, GDPR-oriented cho EU, v.v.).
  • Mở rộng tập nhãn ngoài 8 nhóm hiện tại (biometric IDs, tax IDs, medical codes…).
  • Tích hợp thẳng vào các enterprise data-protection stack (Presidio plugin, LangChain / LlamaIndex middleware).
  • Phiên bản multilingual tốt hơn — gap hiện tại trên non-English và non-Latin đã được OpenAI chủ động thừa nhận.

Với một release nhỏ gọn nhưng đánh đúng pain point, Privacy Filter có thể trở thành default first layer cho mọi pipeline LLM trong doanh nghiệp từ giờ đến cuối năm.

Nguồn: Hugging Face — openai/privacy-filter, GitHub, Model Card PDF, Decrypt.