- CipherSonicAI giảm overhead của Fully Homomorphic Encryption từ 100,000x xuống dưới 2x, tương đương hơn 1,000x speedup so với trước.
- FHE hoạt động trên lattice-based cryptography, khiến dữ liệu "phình" thành ciphertext khổng lồ và bị memory-bound nặng nề - cùng căn bệnh với LLM inference.
- CipherSonic Labs spin-off từ Boston University, đang target thị trường B2B trong healthcare, tài chính và enterprise AI.
TL;DR
Fully Homomorphic Encryption (FHE) - công nghệ cho phép tính toán trực tiếp trên dữ liệu đã mã hóa mà không cần giải mã - đã tồn tại từ năm 1978 nhưng mãi không được ứng dụng rộng rãi. Lý do: nó chậm hơn plaintext tới 100,000 lần.
Team của Ajay Joshi tại CipherSonicAI vừa giải quyết nút thắt đó. Họ kéo overhead xuống còn dưới 2x - tức hơn 1,000x nhanh hơn so với trước. Và cách họ làm được điều đó liên quan trực tiếp đến lý do wafer-scale chip như Cerebras tồn tại.

40 năm bị bỏ quên
Bài toán FHE được đặt ra chính thức năm 1978 - chỉ 1 năm sau khi RSA ra đời. Ý tưởng rất hấp dẫn: nếu bạn có thể tính toán trên dữ liệu mà không cần mở khóa nó, thì server xử lý dữ liệu của bạn không bao giờ "nhìn thấy" dữ liệu thực.
Nhưng suốt 30 năm tiếp theo, không ai xây dựng được scheme hỗ trợ đồng thời cả phép cộng lẫn phép nhân trên ciphertext. Các nhà nghiên cứu chỉ đạt được Partially Homomorphic Encryption (PHE) - hoặc cộng, hoặc nhân, không thể cả hai.
Bước đột phá đến năm 2009 khi Craig Gentry (Stanford/IBM) công bố FHE khả thi đầu tiên dùng lattice-based cryptography - và giới thiệu khái niệm "bootstrapping" để làm mới ciphertext sau mỗi vòng tính toán. Từ đó, nghiên cứu bùng nổ qua nhiều thế hệ scheme: BGV (2011), BFV (2012), TFHE (2016), CKKS (2016). TFHE lần đầu tiên bootstrapping dưới 100ms; CKKS tối ưu cho ML với số thực.
Nhưng vẫn còn một cái gai lớn: chậm khủng khiếp ở môi trường production.
Cạn kiệt vì memory
Vấn đề cốt lõi của FHE là nó memory-bound cực kỳ nặng. FHE dùng lattice-based cryptography - toán học trên vector trong lưới - khiến kích thước dữ liệu "phình" lên thành ciphertext và key khổng lồ, đòi hỏi rất nhiều bộ nhớ.
Phân tích kỹ bước bootstrapping (bước giảm nhiễu bắt buộc để duy trì độ chính xác) cho thấy:
- Arithmetic intensity: dưới 1 Op/byte - cực thấp
- Cache yêu cầu: trên 100 MB
- Bottleneck chính: main memory bandwidth, không phải compute
Điều đó có nghĩa là: thêm nhiều core hay đơn vị tính toán chuyên dụng cho FHE hầu như không giúp ích gì. Băng thông RAM mới là nút cổ chai thật sự - và đây chính là lý do FHE bị tụt hậu suốt nhiều thập kỷ dù có mã nguồn mở như OpenFHE và nhiều nỗ lực tối ưu.
100,000x xuống 2x - con số thật sự
Team của Ajay Joshi (đồng sáng lập CipherSonic Labs, GS tại Boston University) và Rashmi Agrawal (CTO, PhD '23 từ BU) tiếp cận bài toán từ góc độ khác: thay vì thiết kế thêm phần cứng compute, họ tập trung vào loại bỏ nút thắt memory.
Trong paper arXiv 2112.06396, nhóm đề xuất các tối ưu hóa thuật toán thân thiện với cache:
- Tăng arithmetic intensity lên 3.2x
- Giảm memory bandwidth xuống 4.6x
Kết hợp với hardware-software co-design dùng GPU và FPGA (kết nối trực tiếp với high-bandwidth memory), họ đạt được hơn 1,000x speedup tổng cộng - kéo overhead từ 100,000x xuống còn dưới 2x so với plaintext. Về mặt thực tế, đây là ngưỡng mà FHE lần đầu tiên trở nên khả thi cho production AI inference.
CipherSonic Labs được thành lập tháng 1/2024, đã nhận BU Ignition Award và vào finalist MassChallenge RESOLVE '25. Công ty hoạt động theo mô hình B2B enterprise software.
Nếu nghe quen - bởi vì LLM cũng memory-bound
Cerebras khi post clip phỏng vấn Ajay Joshi đã thêm một ghi chú rất đáng chú ý:
"if this pattern sounds familiar... LLM inference is memory-bound too. It's why wafer-scale exists."
Đây không phải tình cờ. LLM inference chậm không phải vì thiếu compute - mà vì model weights (10-1,000 GB) phải được kéo liên tục từ external memory trong mỗi token generation. GPU thông thường chỉ có ~100 MB on-chip memory. Giải pháp của Cerebras: wafer-scale chip với on-chip SRAM khổng lồ, loại bỏ bottleneck bandwidth.
FHE và LLM inference đang giải quyết cùng một câu hỏi ở hai bối cảnh khác nhau: làm sao chạy nhanh khi dữ liệu lớn hơn cache rất nhiều lần. Khi hai hướng đi này hội tụ - FHE đủ nhanh cho LLM inference - sẽ có thể chat với AI mà server không bao giờ đọc được nội dung cuộc trò chuyện của bạn.
Ai được lợi ngay bây giờ
Theo Rashmi Agrawal, các use case gần production nhất là workload inference có giá trị cao trên dữ liệu được quy định chặt chẽ:
- Healthcare: Bệnh viện và phòng nghiên cứu chia sẻ dữ liệu bệnh nhân mã hóa để nghiên cứu thuốc mà vẫn tuân thủ HIPAA
- Tài chính: Phát hiện gian lận và chấm điểm rủi ro mà không tiết lộ thông tin tài khoản
- Enterprise cloud: Outsource tính toán AI mà không để lộ dữ liệu độc quyền hay model IP
- AI chatbot: Mã hóa đầu vào người dùng để server không lưu hoặc leak lịch sử chat
FHE có lợi thế so với Confidential Computing (TEE): TEE không hỗ trợ GPU, nên chạy LLM qua TEE cực kỳ chậm. FHE không có hạn chế này và đảm bảo server không nhìn thấy dữ liệu ở bất kỳ điểm nào trong quá trình tính toán.
Phía trước
CipherSonic vẫn đang ở giai đoạn đầu - đội ngũ khoảng 3-6 người, đang tuyển dụng và tìm kiếm thêm enterprise customer. Một số thách thức thực tế vẫn còn:
- Memory bandwidth vẫn là bottleneck dù đã tối ưu nhiều
- Key management phức tạp - client phải xử lý key cục bộ
- Ciphertext và key có kích thước lớn, khó di chuyển trong pipeline
- Model architecture phải tương thích với FHE scheme
Nhưng con số <2x overhead là một ngưỡng quan trọng: lần đầu tiên trong lịch sử 40 năm của FHE, chi phí bảo mật ở mức chấp nhận được để doanh nghiệp thực sự cân nhắc triển khai.
Nguồn: BU CISE - CipherSonic Labs, IEEE Spectrum - Homomorphic Encryption LLM, arXiv 2112.06396 - Does FHE Need Compute Acceleration?, Cerebras Twitter.
