TL;DR

Sudarshan Kamath (co-founder Smallest.ai) vừa xác nhận trên X: Lightning TTSPulse STT giờ là service native trong Pipecat — open-source framework voice agent được NVIDIA wrap làm Voice Agent Blueprint NIM. Thay vì viết custom adapter, dev chỉ cần import SmallestTTSService / SmallestSTTService là có stack voice real-time với TTFT 70ms và TTFB 100ms.

What's new

SmallestTTSService được merge vào Pipecat 0.0.108 ngày 2026-03-27 qua PR #4092 — WebSocket integration với Waves API, hỗ trợ cả Lightning v2 và v3.1, cấu hình được voice, language, speed, consistency, similarity và enhancement. Pulse STT support tiếp nối sau Pipecat 1.0.0 GA (2026-04-14), hoàn tất cặp TTS+STT native.

Trước đó muốn chạy Smallest trên Pipecat, team phải tự viết service class, tự lo WebSocket reconnect, tự sync word timestamps, tự map voice ID sang internal format. Giờ zero config — import, truyền API key, pipeline chạy. Adapter còn expose đầy đủ các knob ít framework khác mở: consistency (độ ổn định giọng qua các câu dài), similarity (mức độ bám voice clone reference), enhancement (post-processing để làm sạch breath/artifacts).

Pipecat context cũng đáng chú ý: bản 1.0.0 GA ngày 2026-04-14 là release lớn nhất từ đầu dự án — cleanup hàng loạt deprecated code, thêm parallel tool execution, async function calls, AWS Bedrock prompt caching, và nâng đa số service lên API stable. Smallest đổ bộ đúng thời điểm platform chạm mốc production-grade là tín hiệu rất rõ về vị thế.

Why it matters

Voice agent sống chết vì latency. Budget end-to-end 2026 cho UX tự nhiên là dưới 800ms: VAD 50ms + STT 150ms + LLM TTFT 400ms + TTS first chunk 150ms + network 50ms. Mỗi ms cắt được ở STT hoặc TTS là ms thừa cho LLM suy nghĩ.

Lightning + Pulse cắt phần STT+TTS xuống ~170ms tổng — so với ~300-450ms của stack Deepgram + ElevenLabs, tức tiết kiệm 150-250ms round-trip. Đủ để một agent trước đây cảm giác lag chuyển sang cảm giác tức thì.

Quan trọng hơn số liệu, đây là tín hiệu Pipecat đang trở thành chuẩn de-facto cho voice stack: NVIDIA đã dùng Pipecat làm backbone cho Voice Agent Blueprint NIM, nghĩa là mọi integration native trong Pipecat là integration native trên con đường production của hàng ngàn team đang scale voice AI. Nhà cung cấp vào sớm sẽ được ưu tiên slot default; team lỡ chuyến sẽ phải cạnh tranh ngược sau.

Technical facts

Lightning TTS

  • Time-to-first-audio ~100ms (Lightning v3.1), xuống tới 75ms ở một số cấu hình.
  • Real-time factor 0.01 — sinh 10 giây audio trong 100ms.
  • Kiến trúc non-auto-regressive: sinh nguyên clip trong 1 pass thay vì stream token-by-token, nên không bị nghẽn khi text dài.
  • Input phoneme-based (không dùng BPE) + Style Diffusor cho expressive speech.
  • Chạy được với <1GB VRAM — edge/on-device khả thi.
  • Hỗ trợ 30+ ngôn ngữ với thousands of accent; voice cloning chỉ cần 15 giây audio.
  • Output: PCM, MP3, WAV, mulaw.

Pulse STT

  • Sub-70ms TTFT (time-to-first-transcript) streaming.
  • 36-38 ngôn ngữ trải Americas, Europe, India, Asia.
  • Code-switching: xử lý audio mix Hindi-English hoặc Spanish-English trong cùng stream, không cần switch model.
  • Tính năng production: speaker diarization, emotion recognition (happy/sad/angry/fear/disgust), profanity filter, word boosting.
  • Claim WER thấp hơn DeepgramAssemblyAI trên benchmark công khai.

Comparison

MetricLightning + PulseDeepgram + ElevenLabsOpenAI Realtime
STT TTFT~70ms~150-200msn/a (S2S)
TTS TTFB~100ms~150-250ms~500ms
Tổng STT+TTS overhead~170ms~300-450ms~500ms+
Ngôn ngữ STT36-3830+~57
VRAM TTS<1GBcloud-onlycloud-only
Voice clone15s audio30s-3 phútn/a

Use cases

  • IVR / contact center: agent trả call inbound với tổng response <800ms, user không cảm giác delay.
  • Multilingual enterprise agent: bank ở Ấn Độ, fintech LATAM — code-switching giúp 1 agent phục vụ cả thị trường mix language.
  • Gaming NPC dialogue: <1GB VRAM → chạy on-device, không cần cloud round-trip cho game offline/low-bandwidth.
  • Healthcare triage bot: SOC 2 / HIPAA compliant ở enterprise tier.
  • Blueprint-ready: NVIDIA đã phát hành Voice Agent Framework Blueprint dựa trên Pipecat — dev kế thừa path production-grade.

Limitations & pricing

Waves API chỉ chạy qua WebSocket cloud — không có self-hosted OSS version như Whisper. Uptime phụ thuộc Smallest (SLA 99.99% ở enterprise tier).

Giá Lightning: $10 free credit cho user mới; Basic $5/tháng (3 giờ audio, 1 voice clone); Premium $29/tháng (24 giờ, 2 clones); Enterprise custom. Pulse pricing chỉ public sau khi login dashboard.

Nếu đang trên Pipecat 0.0.x, lên 1.0.0 có breaking changes: LangChain 1.x, function call timeout default đổi từ 10s sang None, một số service class đổi path. Check migration guide trước khi bump version.

What's next

Smallest đang teasing Hydra (full-duplex speech-to-speech multimodal) và Electron (SLM <3B params, 45ms TTFT). Với pace adapter hiện tại, nhiều khả năng cả hai sẽ có Pipecat integration trong các release 1.0.x sắp tới — nghĩa là một ngày nào đó bạn build được voice agent end-to-end dưới 10B tham số, chạy gần như real-time, trên một laptop.

Nguồn: Announcement @kamath_sutra, Pipecat CHANGELOG, Smallest Lightning, Smallest Pulse.