Skip to main content

All Pages

KI Architektur & Tech25 Min. Lesezeit

Private KI-Agenten-Systeme mit orchestrierten, spezialisierten Modellen

Wie private Multi-Agent-Systeme kleine spezialisierte Modelle, MCP, A2A und Cost-Aware-Routing zu einer sicheren Enterprise-KI-Architektur verbinden.

Private KI-Agenten-Architektur mit zentralem Conductor und spezialisierten Submodellen

Private KI-Agenten-Systeme mit orchestrierten, spezialisierten Modellen

Eine Deep-Research-Analyse zur Architektur, Forschung und Praxis. Stand: Mai 2026.

Die letzten 24 Monate haben die Architekturphilosophie generativer KI grundlegend verschoben. 2023 dominierte noch die Idee, dass ein immer größeres monolithisches Modell die Königsdisziplin sei. 2024 bis 2026 hat sich eine andere Logik durchgesetzt: heterogene Agenten-Kollektive, orchestrierende Meta-Agenten und lokal hostbare Small Language Models (SLMs), die Routinearbeit kosteneffizient und datenschutzfreundlich übernehmen.

Der Kern dieser Entwicklung ist einfach: Nicht jede Aufgabe braucht ein 70B- oder Frontier-Modell. In agentischen Systemen entstehen viele repetitive, schmale und schemagebundene Aufrufe: Tool-Calls, Extraktion, Klassifikation, Validierung, Code-Snippets, OCR-Nachbearbeitung, Retrieval und kleine Planungsentscheidungen. Genau hier sind spezialisierte SLMs oft ausreichend, schneller, günstiger und besser kontrollierbar. Das NVIDIA-Positionspapier "Small Language Models are the Future of Agentic AI" fasst es prägnant: SLMs sind für viele Invocations in agentischen Systemen stark genug, geeigneter und ökonomisch notwendig.

Private KI-Agenten-Architektur mit zentralem Conductor und spezialisierten Submodellen

Für private, on-premise-fähige KI-Systeme entsteht daraus ein neues Zielbild: ein zentraler Conductor zerlegt Aufgaben, routet sie an spezialisierte Modelle, bindet lokale Daten über MCP an, kontrolliert Kosten und Latenz und führt Ergebnisse unter Guardrails wieder zusammen.

Vom monolithischen Modell zum Agentenkollektiv

Der Unterschied zwischen einem einzelnen Universalmodell und einem orchestrierten Agentensystem ist nicht nur technisch. Er verändert Betrieb, Compliance und Wirtschaftlichkeit.

DimensionMonolithisches LLMOrchestriertes Multi-Agent-System
InferenzkostenJeder Token aktiviert sehr viele ParameterSLMs übernehmen Routine, große Modelle nur Edge-Cases
HardwareMeist Cloud-API oder A100/H100-KlasseRTX-4090, Apple Silicon oder lokale GPU-Workstations für viele Aufgaben
SpezialisierungGeneralist mit PromptingPro Domäne fine-tunbar mit LoRA/QLoRA
PrivacyDaten verlassen häufig die OrganisationVollständig on-premise oder hybrid möglich
SkalierungVertikal teuerAgenten und Modelle horizontal skalierbar
WartbarkeitVerhalten steckt im GesamtmodellEinzelne Submodelle, Tools und Policies separat austauschbar

Das Muster erinnert an Mixture-of-Experts (MoE). MoE aktiviert innerhalb eines Modells nur ausgewählte Experten pro Token. Multi-Agent-Systeme tun dasselbe makroskopisch: Sie aktivieren nur die Fähigkeiten, die eine Aufgabe wirklich braucht. Konzepte wie Top-k-Routing, Capacity Factor, Load Balancing und Sparse Activation wandern damit aus der Modellarchitektur in die Systemarchitektur.

Wissenschaftliche Grundlagen

Mixture-of-Experts als Vorbild

Die MoE-Idee geht auf Jacobs et al. zurück und wurde mit Switch Transformer, Mixtral und DeepSeek-V3 popularisiert. Ein Gating-Netzwerk entscheidet, welche Experten für einen Token aktiviert werden. Moderne Surveys zu MoE-Inferenzoptimierung zeigen, dass effizientes Routing Rechenaufwand um 30 bis 50 Prozent senken kann, während Hardware-Optimierungen weitere 2- bis 4-fache Beschleunigung bringen.

Für Agenten bedeutet das: Routing ist kein Nebenthema, sondern die zentrale Effizienzschicht. Ein privates Agentensystem muss entscheiden, wann ein 7B-Tool-Caller reicht, wann ein 14B-Planer gebraucht wird und wann ein 70B-Modell die Mehrkosten rechtfertigt.

Multi-Agent Reinforcement Learning trifft LLMs

LLM-basierte Multi-Agent-Reinforcement-Learning-Forschung untersucht, wie Modelle als Koordinatoren, Kritiker oder Sprecher in kooperativen Settings eingesetzt werden. Verfahren wie Criticize-Reflect oder MAGRPO zeigen, dass kollaborative Code- und Schreibaufgaben durch trainierte Multi-Agenten besser gelöst werden können als durch Single-Agent-Setups.

Besonders wichtig für Unternehmen ist die Router-Forschung. xRouter, HierRouter und RL-Conductor modellieren Delegation als Entscheidung unter Kosten, Qualität und Latenz. Die Erkenntnis: End-to-end trainierte Router treffen bessere kontextsensitive Entscheidungen als starre Heuristiken. Das Risiko ist Routing Collapse: Der Router nutzt zu oft das stärkste Modell. Cost-Aware-Reward-Shaping und Skill-Orchestrierung sollen genau das verhindern.

Tool-augmented Agents

Toolformer hat gezeigt, dass LLMs externe APIs durch selbstüberwachtes Training nutzen können. Darauf folgten ReAct, ToolLLM, ToolAlpaca, ToolMaker und Tool-MVR. Der Trend ist klar: Agenten werden weniger wertvoll, wenn sie nur Text generieren, und deutlich wertvoller, wenn sie Datenbanken, Code, Dateien, Suchindizes und interne APIs sicher bedienen können.

Für private Systeme heißt das: Tool-Calling muss standardisiert, beobachtbar und eingeschränkt sein. Ein lokaler Postgres-MCP-Server, ein Filesystem-MCP-Server und ein Git-MCP-Server sind keine Komfortfunktionen, sondern die Arbeitsarme des Agentensystems.

NVIDIA Nemotron 3 Nano Omni als neuer Baustein

NVIDIA Nemotron 3 Nano Omni ist ein gutes Beispiel dafür, wie schnell sich die Rolle spezialisierter Modelle in privaten Agentensystemen verändert. Das Modell ist nicht nur ein Vision-Language-Modell, sondern ein omni-modaler Baustein für Dokumente, Bilder, Audio, Video und GUI-Agenten. Laut NVIDIA/Hugging Face ist es für fünf Workload-Klassen ausgelegt: reale Dokumentenanalyse, automatische Spracherkennung, langes Audio-Video-Verstehen, agentische Computer-Nutzung und allgemeines multimodales Reasoning.

Modellarchitektur von NVIDIA Nemotron 3 Nano Omni 30B-A3B

Bildquelle: NVIDIA / Hugging Face, "Introducing NVIDIA Nemotron 3 Nano Omni: Long-Context Multimodal Intelligence for Documents, Audio and Video Agents", Figure 2.

Architektonisch ist Nemotron 3 Nano Omni besonders interessant, weil es mehrere Strömungen bündelt, die auch für private Multi-Agent-Systeme relevant sind. Der Sprach-Backbone Nemotron 3 Nano 30B-A3B kombiniert Mamba-State-Space-Layer, Mixture-of-Experts und Grouped-Query-Attention. Konkret beschreibt NVIDIA 23 Mamba-Layer, 23 MoE-Layer mit 128 Experten und Top-6-Routing sowie 6 GQA-Layer. Für die Modalitäten nutzt das System C-RADIOv4-H als Vision-Encoder und Parakeet-TDT-0.6B-v2 als Audio-Encoder, die über leichte MLP-Projektoren in einen gemeinsamen Tokenraum eingebunden werden.

Für Enterprise-Agenten sind drei Details wichtiger als die reine Modellgröße:

Nemotron-BausteinBedeutung für private Agentensysteme
Dynamische AuflösungDokumente, Tabellen, Charts und Screenshots können mit feinen Details und Layout-Kontext verarbeitet werden.
Native Audio- und VideoverarbeitungMeetings, Screenrecordings, Support-Videos und gesprochene Kommentare werden nicht nur transkribiert, sondern gemeinsam mit visuellen Signalen interpretiert.
Multimodales RL und VerifierTraining über Bilder, Video, Audio und Text mit Abstention bei unzureichender Evidenz passt gut zu regulierten Workflows.

Damit verschiebt sich der Modellbestand in privaten Agentensystemen. Neben Coding-, Tool-Calling- und Guardrail-Modellen braucht ein modernes Setup zunehmend einen multimodalen Spezialisten, der lange PDFs, Screenshots, Audio und Video als gemeinsame Evidenzschicht versteht. Nemotron 3 Nano Omni zeigt, wie so ein Baustein aussehen kann: nicht als Ersatz für den Conductor, sondern als leistungsfähiger Agent im Modellpool.

Effizienzvergleich von NVIDIA Nemotron 3 Nano Omni bei Multi-Dokument- und Video-Workloads

Bildquelle: NVIDIA / Hugging Face, "Introducing NVIDIA Nemotron 3 Nano Omni: Long-Context Multimodal Intelligence for Documents, Audio and Video Agents", Figure 1.

Auch die Trainings- und Datengeschichte ist relevant. NVIDIA beschreibt synthetische Datenpipelines mit NeMo Data Designer, darunter etwa 11,4 Millionen synthetische QA-Paare aus realen PDFs für Long-Context-Dokumentenreasoning. Das führte laut Artikel zu einer 2,19-fachen Verbesserung auf MMLongBench-Doc. Für Unternehmen ist diese Richtung entscheidend: Private Agentensysteme werden nicht nur aus Modellauswahl bestehen, sondern aus Datenpipelines, synthetischen Evaluationssets und kontinuierlicher Qualitätsmessung.

Schlüsselpapers und was sie praktisch bedeuten

ForschungsstrangBeispielePraktische Konsequenz
SOP-basierte OrchestrierungMetaGPT, ORCHInterpretierbare Workflows, geeignet für regulierte Prozesse
Optimierbare AgentengraphenGPTSwarmWorkflows können selbst verbessert und als Graphen versioniert werden
Multimodale AgentenOmniNova, training-free multimodal orchestrationVision, TTS, Text und Tools werden über einen Controller kombinierbar
Cost-Aware-RoutingFrugalGPT, xRouter, HierRouterKleine Modelle zuerst, Eskalation nur bei niedriger Konfidenz
Skill-basierte OrchestrierungSkillOrchestraRouting nach Fähigkeiten reduziert Trainingskosten und Routing Collapse
Self-evolving AgentsFang et al., AgentNetLangfristig entstehen dynamische Topologien statt fixer Teams
EvaluationAgentBench, MASLabReproduzierbarkeit und Benchmarks werden Pflicht für produktive Systeme

FrugalGPT bleibt die methodische Grundlage vieler Router: Anfragen werden zunächst an günstige Modelle gesendet und nur bei unzureichender Konfidenz eskaliert. In Unternehmensarchitekturen ist das die beste Default-Strategie, weil sie Kosten- und Privacy-Ziele gleichzeitig bedient.

Routing-Ökonomie: kleine Modelle zuerst, große Modelle nur bei niedriger Konfidenz

Open-Source-Frameworks für die Praxis

FrameworkParadigmaStärkenTypischer Use Case
LangGraphGraph-basiert, statefulFeingranulare Kontrolle, Parallelisierung, stabile ZustandsmodelleKomplexe Workflows mit vielen Schritten
AutoGenKonversational, Role-PlayingSchnelles Prototyping, AgentendebattenForschung und kollaboratives Reasoning
CrewAIRollenbasiert, YAML-nahNiedrige Lernkurve, gute LesbarkeitKleine bis mittlere Agententeams
LlamaIndex AgentWorkflowsRAG-zentriertTiefe Knowledge-Base-IntegrationFrage-Antwort-Systeme, Dokumentenworkflows
Semantic KernelPlugin-ArchitekturEnterprise-Integration, .NET-NäheMicrosoft-zentrierte Stacks
Strands Agents SDKLoop-basiert, Agents as ToolsMultimodal und Cloud/Hybrid-freundlichAWS-nahe agentische Workloads
GPTSwarmOptimierbarer GraphSelf-improving Workflows via Graph-OptimierungForschung und automatische Workflow-Generierung

Die pragmatische Empfehlung für 2026: LangGraph als Backbone, spezialisierte AutoGen-Debatten als Subgraphen, CrewAI für einfache interne Tools und MCP als Brücke zu Datenquellen und Systemen. So bleibt die Architektur kontrollierbar, ohne Forschungspotenzial abzuschneiden.

MCP und A2A: Protokolle der Agenten-Aera

MCP ist die vertikale Verbindung: Ein Agent greift standardisiert auf Tools und Daten unterhalb seiner Ausführungsebene zu. A2A ist die horizontale Verbindung: Agenten entdecken und beauftragen andere Agenten über definierte Capabilities, Task-Lebenszyklen und Message-Formate.

ProtokollRichtungKernfunktionBedeutung für Private AI
MCPVertikalTools, Datenquellen und lokale Systeme anbindenLokale Daten bleiben lokal, Tools werden auditierbar
A2AHorizontalAgenten kommunizieren über Organisationsgrenzen hinwegGrundlage für Föderation mit Partnern oder Tochtergesellschaften

Die Kombination ist für private Agentensysteme entscheidend. MCP kapselt Postgres, Git, Filesystem, Vector-Stores und interne REST-APIs. A2A schafft einen Pfad für künftige Föderation. Gleichzeitig müssen Sicherheitsrisiken ernst genommen werden: Prompt Injection, Tool-Spoofing, Datenexfiltration durch Tool-Kombinationen und Cross-Agent-Contamination gehören in jedes Threat Model.

Referenzarchitektur für ein privates Agentensystem

Ein realistisches On-Premise-Setup für ein mittelgroßes Unternehmen besteht aus 1 bis 2 GPU-Workstations mit je 48 GB VRAM oder einem kleinen Cluster aus RTX 6000 Ada, L40S oder vergleichbaren Karten. Entscheidend ist nicht maximale Modellgröße, sondern sauberes Routing.

Schichtenmodell einer privaten Multi-Agent-Architektur

Modellbestand

RolleBeispielmodellGrößeQuantisierungAufgabe
Orchestrator / RouterQwen2.5-7B-Instruct oder Phi-47-14BINT8Aufgaben zerlegen, Delegation planen
Coding-SpezialistDeepSeek-Coder-V2-Lite oder Qwen2.5-Coder-7B7BINT4Skripte, SQL, Tests, Refactorings
Vision / MultimodalQwen2.5-VL-7B-Instruct7BINT4OCR, Tabellen, Screenshots, Diagramme
Tool-CallerHammer-2.0-7B oder Llama-3.1-8B Function-Call-Finetune7-8BINT4Strukturierte Tool-Aufrufe
Planungs-AgentGLM-4-9B oder Llama-3.3-70B on demand9-70BINT4/Q5Schwieriges Reasoning und Eskalation
Embeddingsbge-m3 oder Nomic Embedca. 0.5BFP16Retrieval und Memory
GuardrailLlama-Guard-3-8B8BINT8Policy, Safety, Vor- und Nachprüfung

Datenfluss in der Praxis

Eine Anfrage wie "Analysiere die Vertragsänderungen in drei PDFs und erstelle ein Python-Skript, das die Klauseln in Postgres schreibt" läuft idealerweise so ab:

  1. Der Conductor erkennt Vision-Extraction, Reasoning, Coding und Datenbankprüfung als benötigte Skills.
  2. Ein Vision-Agent extrahiert Tabellen und Klauseln per OCR und schreibt strukturiertes JSON in Episodic Memory.
  3. Ein Reasoning-Agent vergleicht Versionen und identifiziert relevante Diff-Klauseln.
  4. Ein Coding-Agent generiert das SQL-Insert-Skript.
  5. Ein Tool-Caller prüft über MCP das Postgres-Schema und schlägt bei Bedarf Migrationen vor.
  6. Eine Guardrail prüft SQL-Injection-Muster, Datenabfluss und Policy-Verstöße.
  7. Der Conductor synthetisiert die Antwort und bietet Apply, Review oder Reject an.

Das größte Modell wird nur eskaliert, wenn Konfidenz, Neuartigkeit oder Risiko dies rechtfertigen. In vielen Workloads spart diese Architektur 60 bis 80 Prozent Inferenzkosten gegenüber einem reinen 70B-Setup.

Risiken und Gegenmaßnahmen

RisikoSymptomGegenmaßnahme
Latenz-OverheadJeder Agent-Hop addiert 200-800 msHop-Budget, Parallelisierung, frühe Abbrüche
Reasoning-DriftMehr als 10 Agentenwechsel verschlechtern ErgebnisqualitätDAG begrenzen, Zwischenresultate validieren
Cascading HallucinationsFehler werden von Agent zu Agent übernommenSOPs, Kritiker-Agenten, Tool-MVR, Konsenslayer
Routing CollapseRouter nutzt immer das teuerste ModellCost-Aware-Rewards, SkillOrchestra-Ansatz, Budgetlimits
State-ManagementMemory und Permissions werden inkonsistentEvent-Log, explizite Context-Contracts, Least Privilege
MCP-ToolinjectionBösartige Tools oder Prompts missbrauchen RechteSignierte Tools, Allowlisting, Sandbox, Audit-Log

Der wichtigste operative Punkt ist Observability. Ohne Tracing wird ein Multi-Agent-System schnell zur Blackbox. Jede Delegation braucht Request-ID, Modell, Prompt-Hash, Tool-Aufruf, Kosten, Latenz, Policy-Entscheidung und Ergebnisstatus.

Die erste Agentenwelle war Prompt Engineering. Die zweite Welle trainiert Orchestratoren per Reinforcement Learning auf gefrorenen Experten. Genau das ist attraktiv: Man muss kein Foundation Model neu trainieren, sondern optimiert die Delegation zwischen vorhandenen Modellen.

Parallel verschiebt sich die Debatte von Tool zu Society. Arbeiten wie Generative Agents, Generative Agent Simulations of 1,000 People und AgentNet zeigen, dass Agenten nicht nur Produktivitätswerkzeuge sind, sondern Simulations- und Organisationsobjekte. Unternehmen werden Agententeams designen, beobachten und governancen müssen wie heute Microservice-Landschaften.

Für Europa ist der Privacy-Aspekt besonders stark. Voll on-premise bleibt relevant für Behörden, Banken, Pharma und Verteidigung. Hybridarchitekturen werden für die meisten Unternehmen realistischer sein: sensible Daten lokal, schweres Reasoning über souverane Cloud-Endpunkte oder Confidential Computing.

Fazit

Orchestrierte, spezialisierte Modelle sind 2026 keine Spekulation mehr, sondern eine produktionsnahe Architekturklasse. Die Lehre aus MoE, FrugalGPT, xRouter, SkillOrchestra, LangGraph, MCP und A2A ist konsistent: Ein einzelnes großes Modell ist selten die ökonomisch oder regulatorisch beste Antwort.

Private Agentensysteme sollten SLM-zentrisch starten, große Modelle selektiv eskalieren, MCP als Tool- und Datenstandard nutzen, A2A als Föderationspfad beobachten, Agent-Hops begrenzen und Observability von Anfang an einbauen.

Die Zukunft gehört nicht nur dem größten Modell. Sie gehört Architekturen, die wissen, welches Modell wann genug ist.

Quellen und weiterführende Literatur

Veröffentlicht von

Fabian Franz
Fabian Franz

Full-Stack Entwicklung

Von der Idee zur Produktion in Wochen

Next.js, React, TypeScript — co-gegründete Produkte mit staatlicher Förderung.

Unsere Arbeit ansehen

Verwandte Artikel

ZURÜCK ZUM BLOG

Private Agent Systems in Aktion erleben

Buchen Sie eine 30-minütige Live-Demo mit unserem Engineering-Team