Shipping at Inference-Speed | Peter Steinberger

Why I stopped reading code and started watching it stream by.

Shipping at inference speed, that phrase stuck with me the moment I read it, and honestly it changed how I think about building software. You don’t have to read every line anymore, sometimes you just watch the code stream by and nudge the model when it stumbles. That’s the heart of Peter Steinberger’s note, and it’s real: agents plus fast inference let you move like a small factory, iterating in minutes, not days.

Here are the practical takeaways I’ve been using, and maybe they’ll help you too. Start with a CLI, because text is the simplest interface and agents can verify output directly. Pick languages that play well with agents, for me that’s TypeScript for web, Go for CLIs, and Swift for macOS/iOS. Keep prompts short and visual when useful (yeah, I drag screenshots into prompts, guilty as charged), and let the model create docs automatically, write to docs/*.md and move on.

Two features changed everything: better long-context models (GPT 5.2 / codex in Pete’s case), and building small tools like an “oracle” to handle slow research tasks, so you don’t waste time repeating queries. Queue ideas, commit to main, iterate, and trust the model to handle many of the mechanical edits. Be careful with dependencies and architecture choices though, those still need your headspace.

One last honest aside, I used to obsess about pristine workflows, branches and issue trackers, now I ship, play with the results, and evolve. It feels messier, but it’s faster and often more creative. If you want the original deep dive, read Peter’s full post here: https://steipete.me/posts/2025/shipping-at-inference-speed.

Looking ahead, competition between models will keep pushing this forward, and if you lean into agentic workflows, you’ll find lots of small wins. Build small, iterate fast, and enjoy the ride.


Versuch auf Deutsch

Seit ich diesen Text von Peter Steinberger gelesen habe, sehe ich das Programmieren anders. Statt jeden Code komplett zu lesen, lasse ich ihn häufig einfach vorbeistreifen und schaue zu, wie Agenten die Arbeit erledigen. Das geht schnell, manchmal fast unglaublich schnell. Das Geheimnis ist eine Kombination aus leistungsfähigen Modellen (GPT 5.2 / codex) und einem pragmatischen Workflow.

Meine Regeln sind simpel und praktisch: zuerst eine CLI bauen, weil Text das einfachste Interface ist, dann iterieren. Sprachenwahl zählt, ich favorisiere TypeScript für Web, Go für Werkzeuge und Swift für macOS/iOS. Schreibe kurze Prompts, füge Bilder hinzu wenn nötig, und lass das Modell automatisch Dokumentation in docs/*.md erzeugen. Kleine Tools wie ein internes „Oracle“ helfen bei langen Rechercheläufen, damit du nicht dauernd dieselben Queries wiederholen musst.

Wichtig bleibt die architektonische Entscheidung, also welche Abhängigkeiten, wie Daten fließen, was auf Server oder Client gehört. Das erfordert noch immer echtes Nachdenken, das kann kein Modell komplett abnehmen. Trotzdem, für viele Aufgaben reicht agentische Unterstützung völlig aus, und du kannst viel mehr Projekte gleichzeitig betreiben.

Wenn du tiefer einsteigen willst, hier ist der Originalbeitrag: https://steipete.me/posts/2025/shipping-at-inference-speed. Fazit: weniger Perfektionismus, mehr Iteration, und eine sehr brauchbare Zukunft für schnelles Prototyping.

Kommentar abschicken