GitHub – resemble-ai/chatterbox: SoTA open-source TTS
If you’ve been poking around open-source TTS lately, you’ll want to meet Chatterbox, a family of three state-of-the-art speech models from Resemble AI. I spent an afternoon testing the repo, and honestly, it felt like discovering a toolbox you actually want to use. You can find it here: https://github.com/resemble-ai/chatterbox.
Here’s the good stuff. The newest kid, Chatterbox-Turbo, is a lean, 350M-parameter model built for speed and quality. They reworked the speech-token-to-mel decoder (that old bottleneck), cutting generation from 10 steps to just one, which is a huge win if you need low latency. Paralinguistic tags are supported natively, so you can sprinkle in [cough], [laugh], or [chuckle] and get believable human quirks without wrestling with post-processing. It’s great for voice agents, narration, or creative projects where timing matters.
If you want to run it locally, the repo includes examples like example_tts.py and example_vc.py, and they tested everything on Python 3.11 with Debian 11 (dependencies pinned in pyproject.toml). So if you like to tinker, the source install path is straightforward. Also, every generated audio carries Resemble AI’s Perth watermark (an imperceptible neural watermark), and they provide a script to check for it, which is reassuring for provenance and moderation.
They support many languages, from Arabic to Chinese, and there’s a community angle too — they read feedback and invite contributors. Join the discussion, try the examples, and if you need production-grade scale or tuning, they mention a competitively priced service with ultra-low latency (sub 200ms).
I’m optimistic about where this is going, because high-quality, efficient speech models that you can actually modify are rare. Want to dive in? Start here: Chatterbox on GitHub (also, the link again: https://github.com/resemble-ai/chatterbox). See you in the issues tab, probably with a weird bug report and too many ideas.
Deutsch
Wenn du dich für Open-Source-TTS interessierst, ist Chatterbox von Resemble AI einen Blick wert. Ich habe das Repository ausprobiert, ein bisschen herumgespielt, und es fühlt sich an wie ein Werkzeugkasten, den man wirklich benutzen will. Du findest das Projekt hier: https://github.com/resemble-ai/chatterbox.
Das Highlight ist Chatterbox-Turbo, ein effizientes Modell mit 350 Millionen Parametern. Die Entwickler haben den Decoder (speech-token-to-mel) stark vereinfacht, Generationen laufen jetzt in nur einem Schritt statt zehn, das spart Zeit und Rechenleistung. Praktisch: Paralinguistische Tags wie [cough] oder [laugh] sind nativ, so erzeugst du natürliche, expressive Sprache ohne großen Aufwand. Ideal für Sprachagenten, Erzählungen oder kreative Anwendungen.
Im Repo gibt es Beispiele (zum Beispiel example_tts.py und example_vc.py). Getestet wurde auf Python 3.11 unter Debian 11, und die Abhängigkeiten sind in pyproject.toml festgelegt, das macht die Installation reproduzierbar. Jedes erzeugte Audio enthält das Perth-Wasserzeichen von Resemble AI (nicht hörbar, aber detektierbar), sie liefern auch ein Skript zur Erkennung, was für Produktionen oder Compliance beruhigend ist.
Chatterbox unterstützt viele Sprachen, von Arabisch bis Chinesisch, und die Entwickler lesen Feedback, sie laden zur Mitarbeit ein. Wenn du Produktionsanforderungen hast, bieten sie auch einen Service mit sehr niedriger Latenz (unter 200 ms).
Kurz gesagt, es fühlt sich an, als wäre hier echtes Potenzial, das man anfassen und verbessern kann. Schau rein: Chatterbox auf GitHub (Link: https://github.com/resemble-ai/chatterbox). Ich bin gespannt, was die Community daraus macht.



Kommentar abschicken