Infrastruktur

Infrastruktur auf ThecoreGrid behandelt Design, Betrieb und Weiterentwicklung der grundlegenden Systeme, die moderne Software in großem Maßstab ermöglichen.

Wir analysieren Compute-, Netzwerk- und Storage-Layer sowie Virtualisierung, Containerisierung und Cloud-Plattformen in Highload-Umgebungen. Im Fokus stehen produktionsreife Aspekte: Zuverlässigkeit, Fehlertoleranz, Kapazitätsplanung, Kosteneffizienz und sichere Systemarchitektur. Themen umfassen Infrastructure as Code, Automatisierung, Provisioning, Multi-Region-Setups, Traffic-Routing und Recovery-Strategien. Wir beleuchten reale Trade-offs und operative Herausforderungen, gestützt durch BigTech-Praktiken, Incident-Post-Mortems und Erfahrungen aus großskaligen Infrastruktur-Ausfällen. Ergänzt wird dies durch Deep Dives in Observability, Performance-Tuning und Plattformstabilität unter dynamischen Lasten. Statt einfacher Setup-Guides liefert der Tag fundierte technische Einblicke für Platform-Engineers, DevOps-Teams, SREs und Architekten, die robuste, skalierbare und effiziente Infrastruktursysteme aufbauen und betreiben.

Live Origin bei Netflix: Segmentqualitätskontrolle und Isolierung von Schreibvorgängen unter Last

29.03.202625.03.2026 von ThecoreGrid

Im Live-Streaming ist ein Fehler kein schleichender Qualitätsverlust, sondern ein sofortiger, für den Nutzer sichtbarer Vorfall. Netflix begegnet diesem Problem, indem es Qualitätskontrolle und Priorisierung direkt in die Origin-Schicht verlagert. Die Hauptgrenze zeigt sich dort, wo VOD-Ansätze nicht mehr funktionieren. Im Live-Betrieb gibt es keinen Zeitpuffer: Ein Segment muss innerhalb von Sekunden kodiert, ausgeliefert und … Weiterlesen

LLM-Last ohne blinde Flecken: Wie man Observability in die Routing-Schicht mit OpenRouter und Grafa…

29.03.202624.03.2026 von ThecoreGrid

Wenn LLMs Teil der Produktionsinfrastruktur werden, reicht klassisches Monitoring nicht mehr aus. Das Nadelöhr ist nicht mehr der Anwendungscode, sondern die Routing- und Modellauswahl-Schicht – und genau dort wird Observability benötigt. In LLM-Systemen beginnt die Degradierung nicht mit dem Ausfall von HTTP-Endpunkten, sondern mit der Ansammlung nicht offensichtlicher Effekte: steigende Latenz bei einzelnen Modellen, Kostensprünge … Weiterlesen

Stateless Kafka-kompatibler Broker: Verlagerung der Dauerhaftigkeit (Durability) in die Speicherschicht

29.03.202623.03.2026 von ThecoreGrid

Tansu schlägt vor, das Kafka-Modell neu zu strukturieren: den Zustand (State) aus den Brokern zu entfernen und die Zuverlässigkeit an einen externen Speicher zu delegieren. Dies verändert das Systemverhalten unter Last und vereinfacht das Betriebsmodell. Das Problem zeigt sich auf der Betriebsebene. Ein klassischer Kafka-Broker ist eine Stateful-Komponente: Replikation, Leader Elections, persistenter Zustand, lange Laufzeiten. … Weiterlesen

Datadog Terraform Provider v4: Vorhersehbare Zugriffsrechte und Vereinheitlichung der AWS-Integration

29.03.202622.03.2026 von ThecoreGrid

Das Update des Providers verlagert den Fokus von Komfort auf Vorhersehbarkeit des Verhaltens. Dies ist kritisch, wenn Terraform zur Source of Truth für die Observability-Konfiguration wird. Das Problem zeigt sich auf der Ebene des State Managements. In großen Installationen muss Terraform den Zugriff und die Integrationen deterministisch steuern. In früheren Versionen konnte das Verhalten der … Weiterlesen

Observability von AI-Agenten: Tracing nicht-deterministischer Workflows über OpenLIT und Grafana Cloud

29.03.202621.03.2026 von ThecoreGrid

AI-Agenten erschweren die Observability: Ein und dieselbe Anfrage kann zu unterschiedlichen Aktionsketten führen. Ohne Tracing wird das System undurchsichtig. Das Problem zeigt sich, wenn generative Systeme von einfachen LLM-Aufrufen zu Agenten übergehen. Ein Agent plant Schritte, ruft Tools auf und trifft dynamisch Entscheidungen. Das Verhalten wird nicht-deterministisch: Der gleiche Prompt kann zu unterschiedlichen Aufrufsequenzen und … Weiterlesen

🚀 Deploy the Blocks