OpenAI mở mã Privacy Filter: mô hình 1.5B (50M active) chuyên phát hiện PII, chạy được trên laptop

← quay lại timelineArticle thread

OpenAI mở mã Privacy Filter: mô hình 1.5B (50M active) chuyên phát hiện PII, chạy được trên laptop

D. Chu

@donniechublog·23 Apr

23 Apr 2026·6 phút đọc

Highlights

OpenAI vừa bất ngờ ra mắt Privacy Filter trên HuggingFace dưới giấy phép Apache 2.0 — không phải LLM mới, mà là một token classifier 1.5B tham số (chỉ 50M active nhờ MoE) chuyên tìm và bôi đen dữ liệu cá nhân.
96% F1 trên PII-Masking-300k, 128k context, chạy được cả trong browser qua WebGPU.

TL;DR

Ngày 22/4/2026, OpenAI âm thầm đẩy lên HuggingFace một mô hình mới tên Privacy Filter — không phải LLM, mà là một bidirectional token classifier chuyên phát hiện thông tin cá nhân (PII) trong văn bản. 1.5B tham số tổng nhưng chỉ 50M active nhờ sparse Mixture-of-Experts, 128k context window, 96% F1 trên benchmark PII-Masking-300k, và quan trọng nhất: Apache 2.0 — xài thương mại thoải mái.

Có gì mới

Đây là lần đầu OpenAI phát hành một mô hình encoder dưới dạng open weights với giấy phép permissive. Các lần mở mã trước (gpt-oss series 2025, Whisper) đều thiên về generative hoặc ASR. Privacy Filter đánh dấu OpenAI bước chân vào mảng privacy infra tooling — công cụ hạ tầng thay vì mô hình sinh.

Repo chính thức: openai/privacy-filter trên HuggingFace, kèm GitHub repo với CLI tool opf.

Vì sao đáng chú ý

Ai làm sản phẩm AI đều đối mặt bài toán: user nhập prompt có chứa email, số điện thoại, địa chỉ, thậm chí API key — và prompt đó bay thẳng lên OpenAI/Anthropic/Google. Rủi ro rò rỉ dữ liệu là có thật, compliance team đau đầu.

Trước giờ các lựa chọn đều có điểm yếu:

Microsoft Presidio: regex + spaCy NER, nhanh nhưng giòn trong ngữ cảnh mơ hồ.
Google DLP / AWS Comprehend: chất lượng tốt nhưng đóng, tính tiền per-call, dữ liệu rời infra của bạn.
spaCy NER custom: tự build mất thời gian, khó bảo trì.

Privacy Filter chen vào khoảng trống đó: chất lượng transformer, chạy local, miễn phí, license thoải mái.

Chi tiết kỹ thuật

Kiến trúc khá gọn nhưng có vài điểm thú vị:

Thành phần	Chi tiết
Tham số tổng	1.5B
Active params / token	50M
Số layer transformer	8 blocks (pre-norm)
d_model	640
Attention	Grouped-query (14 Q heads, 2 KV heads)
Positional embeddings	Rotary (RoPE)
MoE	128 experts, top-4 routing
Context window	128,000 tokens
Output classes	33 (1 background O + 8 loại PII × 4 BIOES)
Benchmark	96% F1 trên PII-Masking-300k

Model phát hiện 8 loại PII: account_number, private_address, private_email, private_person, private_phone, private_url, private_date, secret (credentials). Dùng BIOES tagging (Begin/Inside/Outside/End/Single) để xác định ranh giới span chính xác.

Phần inference thú vị: thay vì generate từng token, model chạy constrained Viterbi decoding trong một forward pass duy nhất, kèm 6 tham số calibration để bạn tự điều chỉnh tradeoff precision/recall tuỳ domain.

Cách dùng

Python pipeline 3 dòng:

from transformers import pipeline
classifier = pipeline("token-classification", model="openai/privacy-filter")
classifier("My name is Alice Smith")

Đáng chú ý là bản transformers.js chạy in-browser với WebGPU (quantize q4):

import { pipeline } from "@huggingface/transformers";
const classifier = await pipeline(
  "token-classification", "openai/privacy-filter",
  { device: "webgpu", dtype: "q4" },
);
const output = await classifier("My email is harry.potter@hogwarts.edu", { aggregation_strategy: "simple" });

Với một SaaS healthcare/legal, bạn có thể redact PII trước khi dữ liệu rời browser — đây là thiết kế privacy-by-design rất mạnh.

Use cases thực tế

Pre-LLM sanitization: bôi đen email, số điện thoại, secret trước khi gọi GPT-5 / Claude Opus / Gemini.
Log redaction: scrub log production, crash report, support ticket trước khi lưu hoặc share.
Dataset anonymization: làm sạch dữ liệu fine-tune khỏi customer info.
Secret scanning: phát hiện API key / token rò rỉ trong commit, email, message.
Browser-side redaction: app healthcare / legal chạy redact ngay client-side.

Hạn chế & pricing

Pricing: miễn phí hoàn toàn — Apache 2.0 cho phép dùng thương mại, fine-tune, redistribute.

Nhưng OpenAI cũng thẳng thắn về giới hạn:

Không phải compliance guarantee. Model là công cụ hỗ trợ redaction, không phải chứng nhận anonymization.
Taxonomy cứng: 8 category được hard-code. Muốn thêm loại PII mới thì phải fine-tune.
Tiếng Anh là chính. Non-English, non-Latin script, domain lạ sẽ giảm chất lượng.
Failure modes: bỏ sót tên hiếm / ký tự regional, over-redact entity công khai, boundary sai ở text mixed-format, false positive với hash hoặc placeholder.
Trong domain nhạy cảm (y tế, luật, tài chính, HR, giáo dục, chính phủ) — vẫn cần human review ở cuối pipeline.

Tiếp theo là gì

OpenAI chưa công bố roadmap mở rộng category hay phiên bản đa ngôn ngữ. Khả năng cao community sẽ fine-tune lên tiếng Việt, tiếng Trung, tiếng Nhật — một mô hình chỉ 1.5B tham số (50M active) rất dễ adapt.

Pattern lớn hơn đáng để ý: OpenAI ngày càng mở vòng ngoài, đóng vòng trong — gpt-oss năm 2025, Privacy Filter 2026. Infra layer được open để kéo developer vào ecosystem, còn frontier model vẫn closed API. Một chiến lược khá giống Meta với Llama, nhưng ở quy mô hẹp hơn và có chủ đích hơn.

Nếu bạn đang build AI product có xử lý dữ liệu người dùng: nên thử nghiệm Privacy Filter ngay. Chi phí tích hợp thấp (1 pip install), runtime gần như miễn phí (50M active chạy mượt trên CPU laptop), và bù lại giúp giảm đáng kể rủi ro leak PII.

Nguồn: OpenAI, HuggingFace model card, GitHub repo.

OpenAI mở mã Privacy Filter: mô hình 1.5B (50M active) chuyên phát hiện PII, chạy được trên laptop

TL;DR

Có gì mới

Vì sao đáng chú ý

Chi tiết kỹ thuật

Cách dùng

Use cases thực tế

Hạn chế & pricing

Tiếp theo là gì

Tiếp tục lướt

Sherlock: công cụ OSINT mã nguồn mở quét username trên 400+ mạng xã hội trong vài giây

SideImpactor: ký và cài app iOS ngay trong trình duyệt qua WebUSB, không cần Sideloadly

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

qa-use: AI agents tự test E2E web app — viết test bằng tiếng Anh, chạy bằng Claude/GPT/Gemini

Faraday: nền tảng quản lý lỗ hổng mã nguồn mở dành cho red team