Welche Hardware brauchen Sie, um ein lokales LLM für KI-Agenten zu betreiben?

Genug Speicher, um das Modell zu halten, und einen schnellen Weg, ihn zu lesen. Für einen selbst betriebenen KI-Agenten ist der bindende Engpass der Speicher: Ein Modell muss in RAM oder VRAM passen, und das Tempo, mit dem die Hardware diesen Speicher liest, bestimmt, wie schnell der Agent antwortet. Eine Maschine mit 128 GB schnellem Unified Memory, etwa eine Mini-Workstation mit Ryzen AI Max+ 395, kann ein leistungsfähiges mittelgroßes Modell vollständig auf dem Gerät bedienen. Die reinen NPU-TOPS zählen für diese Last weit weniger als die Speicherbandbreite.

Was ist für lokale LLM-Inferenz wichtiger, Speicherbandbreite oder TOPS?

Die Speicherbandbreite, mit großem Abstand, für Agenten-Lasten. Für jedes Token muss die Hardware die aktiven Gewichte des Modells aus dem Speicher lesen. Die Bandbreite geteilt durch die pro Token gelesenen Bytes deckelt also das Token-Tempo. Der plakative TOPS-Wert beschreibt Spitzen-Rechenleistung, die lokale LLM-Inferenz selten ausreizt. Zwei Maschinen mit gleicher Speicherbandbreite betreiben dasselbe Modell mit ungefähr gleichem Tempo, auch wenn ihre TOPS-Werte abweichen.

Können Sie Mini-PCs clustern, um größere lokale LLMs zu betreiben?

Sie können ihren Speicher bündeln, um ein größeres Modell unterzubringen, bekommen aber keine proportionale Beschleunigung. Zwei Mini-Workstations über USB4 oder 10-Gigabit-Ethernet zu koppeln, lässt ein Modell über ihren gemeinsamen Speicher reichen. Dieser Interconnect ist jedoch hundertmal langsamer als die Verbindungen in einem echten GPU-Cluster, und Consumer-Netzwerkkarten unterstützen kein RDMA. Ein Cluster aus dieser Box-Klasse ist ein Trick zum Speicher-Bündeln für größere Modelle, kein Weg, die Inferenz schneller zu machen.

Welche Modellgrößen laufen gut auf 128 GB Unified Memory?

Bei Vier-Bit-Quantisierung passen dichte Modelle bis rund 70B in den Speicher, und große Mixture-of-Experts-Modelle im Bereich über 100B passen, weil nur ein paar Milliarden Parameter pro Token aktiv werden. Mixture-of-Experts-Modelle sind der Idealfall für diese Hardware: Veröffentlichte Tests zeigen ein 120B-MoE mit gut 50 Tokens pro Sekunde und ein 30B-MoE um die 80 auf einem Ryzen AI Max+ 395, während ein dichtes 70B bei langem Kontext wegen des langsameren Prefill spürbar träger reagiert.

Ändert Air-Gapped-Hardware die Governance-Anforderungen an einen KI-Agenten?

Nein. Offline-Hardware schließt den Weg, auf dem Daten das Netzwerk verlassen. Doch ein getrennter Agent kann immer noch zu viel lesen, Datensätze ändern oder einer schädlichen Anweisung folgen, die bereits in der Enklave steckt. Ein Berechtigungsmodell mit Standard-Verbot und ein manipulationssichtbarer Audit-Trail gelten offline genauso wie online. Die Hardware entscheidet, wie schnell der Agent denkt; die Governance entscheidet, was er darf.

Air-Gapped-LLM-Hardware: die richtige Box für selbst betriebene KI-Agenten

Wenn Sie einen selbst betriebenen oder vollständig Air-Gapped-KI-Agenten wollen, kommt zuerst die Frage, worauf er läuft. Eine neue Klasse von Mini-Workstations betreibt ein leistungsfähiges lokales Modell auf einer einzigen Box, und das Marketing dazu ist laut. Dieser Guide liefert das ehrliche Gespräch über die Dimensionierung dahinter.

Wir bauen Pinchy, eine selbst betriebene KI-Agenten-Plattform für lokale Modelle. Wir sind hier also nicht neutral, und das legen wir vorab offen: Wir haben diese Maschinen noch nicht selbst getestet. Die Leistungswerte unten stammen aus veröffentlichten Tests Dritter, jeweils direkt zitiert. Die Geschwindigkeits-Obergrenzen folgen aus einer Rechnung, die Sie nachprüfen können. Gerade bauen wir auf einer dieser Maschinen einen Air-Gapped-Prototyp. Sobald er läuft, ersetzen wir die Schätzungen durch gemessene Zahlen.

Ein Agent ist kein Chatbot

Die meisten Tests nach dem Muster „läuft hier ein LLM“ messen einen Chatbot: ein kurzer Prompt, dann fließen die Tokens heraus. Ein KI-Agent belastet die Hardware anders. In jeder Runde übergibt der Agent dem Modell einen großen System-Prompt, abgerufenen Kontext, Tool-Definitionen und das laufende Transkript. Diese Eingabe drängt sich ganz an den Anfang, und der teure Teil ist das Prefill: das Einlesen all dessen, bevor das erste Token kommt. Wie schnell das Prefill läuft, hängt am Tempo, mit dem die Maschine Daten durch den Speicher bewegt, nicht am TOPS-Spitzenwert auf der Box.

Die wichtigste Spezifikation für einen Agenten ist also die Speicherbandbreite, dazu genug Speicherkapazität, um das Modell überhaupt zu halten. Der oft genannte NPU-Wert beschreibt Rechenleistung, die diese Last selten ausreizt. Die Bandbreite dagegen merken Sie bei jeder Nachricht.

Die Klasse, die Sie kennen sollten: Ryzen AI Max+ 395 (Strix Halo)

Eine Plattform bestimmt dieses Gespräch gerade: AMDs Ryzen AI Max+ 395, Codename Strix Halo. Sie verbindet eine leistungsfähige integrierte GPU mit bis zu 128 GB Unified Memory bei rund 256 GB/s. Unter Linux weisen Sie der GPU den Großteil dieses Speichers als VRAM zu, etwa 96 GB. So hält die Maschine Modelle, die eine einzelne Consumer-GPU nicht fasst. Und sie zieht dabei etwa so viel Strom wie eine helle Glühbirne.

Zu dieser Klasse zählen die MINISFORUM MS-S1 Max, das Framework Desktop, das GMKtec EVO-X2, das Beelink GTR9 und das HP Z2 Mini G1a. Weil sie dieselbe APU teilen, teilen sie auch die Eigenschaft, die das Inferenztempo bestimmt: dieselbe Speicherbandbreite. Dasselbe Modell liefert auf allen ungefähr gleich viele Tokens pro Sekunde. Der Unterschied steckt genau dort, wo ein Datenblatt-LLM-Test gern wegschaut, und genau das sollte ein Enterprise-Käufer abwägen: das Netzwerk, die Kühlung unter Dauerlast, ob der Speicher fehlerkorrigierend ist, ob ein Out-of-Band-Management existiert und der Garantieweg, wenn verlöteter Speicher ausfällt. Die MS-S1 Max etwa liefert zweimal 10-Gigabit-Ethernet und USB4. Das ist großzügig für einen Mini-PC und trotzdem zu wenig für das Netzwerk eines echten Inferenz-Clusters.

Wählen Sie ehrlich: Vergleichen Sie die ganze Klasse mit den Alternativen, auf den Achsen, die zählen, statt auf TOPS.

	Mini-Workstation mit Unified Memory (Strix-Halo-Klasse)	Workstation mit dedizierter GPU (NVIDIA-RTX-6000-Klasse)	Multi-GPU-Server
Speicher für das Modell	bis zu 128 GB unified	48 bis 96 GB pro Karte	Hunderte GB über mehrere Karten
Speicherbandbreite	~256 GB/s	~1 TB/s und mehr	sehr hoch (HBM + schneller Interconnect)
Prefill bei langem Kontext	mäßig	schnell	am schnellsten
Fehlerkorrigierender Speicher	meist keiner	ja	ja
Out-of-Band-Management	meist keines	manchmal	ja (BMC / IPMI)
Stromaufnahme im Dauerbetrieb	~130 W	300 W und mehr	Rack-Klasse
Relative Kosten	niedrig	hoch	sehr hoch
Beste Eignung	ein mittelgroßes Modell, kleines Team, Air-Gapped-Appliance	große dichte Modelle, schnelles Prefill	viele gleichzeitige Nutzer, Frontier-Skala

Die Mini-Workstation gewinnt beim Speicher pro Euro und beim Stromverbrauch. Sie verliert bei der Bandbreite, also bei langsamerem Prefill, und bei den Server-Funktionen, die ein Betriebsteam erwartet. Kein Punkt davon ist ein Mangel, sondern eine Frage der Passung. Sie ist das richtige Werkzeug für ein Modell, das ein kleines Team hinter einer abgeschotteten Grenze bedient. Sie ist das falsche für einen schnellen Einsatz auf Frontier-Skala.

Warum „KI-Cluster“ zu viel verspricht

Manche dieser Boxen werben mit „für KI-Cluster“. Lesen Sie diese Aussage genau. Sie können zwei davon koppeln, über USB4 oder 10-Gigabit-Ethernet, und ihren Speicher bündeln, damit ein größeres Modell über beide reicht. Was Sie nicht können: sie gemeinsam schnell machen. Dieser Interconnect läuft in der Praxis mit vielleicht zehn Gigabit, und die Consumer-Netzwerkkarten sprechen kein RDMA. Also kriechen die Daten zwischen den Knoten dahin, verglichen mit einem echten GPU-Cluster, dessen Verbindungen hundertmal schneller sind. Ein Cluster aus dieser Klasse bringt Ihnen einen größeren Speicher-Pool für ein Modell, das sonst nicht laden würde. Die nahezu lineare Beschleunigung, die das Wort suggeriert, bringt er nicht. Nützlich, solange Sie wissen, was Sie kaufen.

Geschwindigkeit schätzen, ohne die Box zu besitzen

Weil die Bandbreite diese Last begrenzt, schätzen Sie die Obergrenze mit einer Rechnung statt mit einem Benchmark. Um ein Token zu erzeugen, liest die Hardware die aktiven Gewichte des Modells einmal aus dem Speicher. Die Geschwindigkeits-Obergrenze entspricht also ungefähr der Speicherbandbreite geteilt durch die pro Token gelesenen Bytes. Ein Mixture-of-Experts-Modell, das nur ein paar Milliarden Parameter bei Vier-Bit-Präzision aktiviert, liest in der Größenordnung von ein, zwei Gigabyte pro Token. Bei 256 GB/s ergibt das eine Obergrenze nahe hundert Tokens pro Sekunde, und der reale Overhead drückt den tatsächlichen Wert deutlich darunter.

Veröffentlichte Tests auf dieser Hardware landen genau dort, wo die Rechnung es vorhersagt: ein Mixture-of-Experts-Modell mit 120 Milliarden Parametern erzeugt gut 50 Tokens pro Sekunde, ein 30B-Modell um die 80. Wenn Theorie und Messung übereinstimmen, beruhigt das mehr als jede Rechnung sonst. Die Lehre gilt unabhängig vom genauen Wert: Die Bandbreite bestimmt das Tempo, und die gewählte Modellarchitektur zählt mehr als ein paar Prozent Taktrate.

Welches Modell passt, und welches Sie wählen sollten

Bei Vier-Bit-Quantisierung gilt grob: ein halbes Gigabyte Speicher pro Milliarde Parameter der gesamten Modellgröße. Ein dichtes 70B-Modell liegt damit bei rund 40 GB, ein 120B-Mixture-of-Experts-Modell bei rund 65 GB, beide bequem innerhalb von 96 GB nutzbarem VRAM. Bei der Wahl zwischen ihnen zählt nicht, was passt, sondern wie das Modell aus dem Speicher liest:

Mixture-of-Experts-Modelle sind der Idealfall. Sie halten viele Parameter, aktivieren aber nur ein paar Milliarden pro Token. So lesen sie wenig aus dem Speicher und bleiben auf einer bandbreitenbegrenzten Maschine schnell. Wollen Sie für die Agenten-Arbeit eine große Wissensdatenbank und schnelle Antworten, greifen Sie zu dieser Architektur.
Dichte Modelle im 70B-Bereich passen, wirken aber träger. Denn jeder Parameter wird bei jedem Token gelesen, und lange Agenten-Prompts machen das Prefill zum Engpass. Brauchbar, aber nicht flott.
Tool-Calls und Kontextlänge sind für Agenten nicht verhandelbar. Ein Agenten-Modell muss zuverlässig Tools aufrufen und ein langes Transkript halten. Wählen Sie ein Open-Weight-Modell, das in beidem stark ist, nicht eines, das nur einen hohen Chat-Benchmark erzielt.

Die Governance-Checkliste, die kein Datenblatt zeigt

Das ist die Hälfte der Entscheidung, die kein LLM-Benchmark berührt, und für ein Unternehmen ist es die entscheidende Hälfte. Bevor eine solche Box in den Produktivbetrieb geht, besonders eine Air-Gapped-Box, arbeiten Sie eine Liste ab, zu der das Datenblatt schweigt:

Fehlerkorrigierender Speicher. Die meisten Mini-Workstations liefern Non-ECC-RAM. Ein Bit-Flip in ungeschütztem Speicher kann den Zustand eines Modells unbemerkt beschädigen. Fragen Sie, ob das für ein System akzeptabel ist, das Entscheidungen trifft.
Out-of-Band-Management. Bei einem Server gibt es einen Weg, ihn zu erreichen, wenn das Betriebssystem nicht startet. Eine Workstation meist nicht. In einem geschlossenen Raum kann „vor Ort fahren und einen Monitor anstecken“ Ihr einziger Wiederherstellungsweg sein.
Verlöteter Speicher. Unified Memory ist verlötet. Ein einziger defekter Chip bedeutet also, das ganze Gerät geht zurück, statt ein Modul zu tauschen. Planen Sie in jeder Flotte die RMA-Zeit für das ganze Gerät ein. Halten Sie mindestens ein Ersatzgerät bereit, sonst legt eine ausgefallene Box den ganzen Einsatz lahm.
Netzwerk- und Strom-Redundanz. Consumer-Netzwerkkarten und ein einzelnes Netzteil sind in dieser Preisklasse normal. Ein echter Server erwartet Redundanz. Entscheiden Sie, ob Sie sie brauchen, bevor Sie sich auf die Box festlegen.
Vertrauen in die Lieferkette. Ein Air-Gapped-Einsatz vertraut darauf, wer die Platine montiert und die Firmware ausgeliefert hat. Für ein wirklich souveränes System gehört diese Herkunft ins Bedrohungsmodell, nicht in eine Fußnote.
Physische Sicherheit. Air-Gapping verschiebt die Grenze vom Netzwerk in den Raum. Die Box braucht jetzt die physischen Zugangskontrollen, die früher das Netzwerk lieferte.

Nichts davon disqualifiziert die Hardware. Es rückt sie ins richtige Licht: Eine Mini-Workstation mit Unified Memory taugt hervorragend als Appliance für einen kleinen Air-Gapped-Einsatz, doch als Server lässt sie sich nicht ohne Anpassung einsetzen. Kaufen Sie sie mit diesem Wissen, passt sie. Kaufen Sie sie blind, überrascht sie Sie.

Eine ehrliche Grenze

Wir haben diese Boxen noch nicht selbst getestet. Jeder Leistungswert hier ist ein veröffentlichtes Ergebnis Dritter, oben zitiert, oder eine Obergrenze aus der Bandbreiten-Rechnung. Gerade bauen wir einen Air-Gapped-Pinchy-Prototyp auf einer Maschine dieser Klasse. Sobald er läuft, veröffentlichen wir gemessene Zahlen, auch die, die den Schätzungen widersprechen, und aktualisieren diese Seite. Betreiben Sie schon einen selbst betriebenen Agenten auf solcher Hardware, schicken Sie uns Ihre Zahlen, das Modell, die Kontextlänge und was schiefging. Wir nehmen sie hier mit Nennung auf. Das nützlichste Datenblatt für eine solche Box stammt nicht vom Hersteller.

Wo Pinchy passt

Die Hardware entscheidet, wie schnell Ihr Agent denkt. Pinchy entscheidet, was er darf. Pinchy ist eine selbst betriebene KI-Agenten-Plattform, die auf lokalen Modellen über Ollama läuft, ohne Telemetrie und mit Offline-Lizenzprüfung. So bleibt ein Einsatz mit lokalem Modell vollständig Air-Gapped: nichts verlässt die Grenze, auf keiner dieser Boxen. Innerhalb dieser Grenze arbeitet die Governance-Schicht genauso wie online: eine Berechtigungs-Allow-List mit Standard-Verbot und ein manipulationssichtbarer Audit-Trail. Denn auch ein getrennter Agent braucht die Vorgabe, was er anfassen darf, und auch bei ihm gehört jede Aktion ins Protokoll. Wählen Sie die Box für das Modell, das Sie betreiben wollen. Die Governance behalten Sie, unabhängig von der Box.

Air-Gapped-LLM-Hardware:
die richtige Box für selbst betriebene KI-Agenten.

Ein Agent ist kein Chatbot

Die Klasse, die Sie kennen sollten: Ryzen AI Max+ 395 (Strix Halo)

Warum „KI-Cluster“ zu viel verspricht

Geschwindigkeit schätzen, ohne die Box zu besitzen

Welches Modell passt, und welches Sie wählen sollten

Die Governance-Checkliste, die kein Datenblatt zeigt

Eine ehrliche Grenze

Wo Pinchy passt

Frequently asked questions.

Welche Hardware brauchen Sie, um ein lokales LLM für KI-Agenten zu betreiben?

Was ist für lokale LLM-Inferenz wichtiger, Speicherbandbreite oder TOPS?

Können Sie Mini-PCs clustern, um größere lokale LLMs zu betreiben?

Welche Modellgrößen laufen gut auf 128 GB Unified Memory?

Ändert Air-Gapped-Hardware die Governance-Anforderungen an einen KI-Agenten?

Bringen Sie Ihre eigene Box mit. Behalten Sie die Leitplanken.

Air-Gapped-LLM-Hardware:die richtige Box für selbst betriebene KI-Agenten.

Ein Agent ist kein Chatbot

Die Klasse, die Sie kennen sollten: Ryzen AI Max+ 395 (Strix Halo)

Warum „KI-Cluster“ zu viel verspricht

Geschwindigkeit schätzen, ohne die Box zu besitzen

Welches Modell passt, und welches Sie wählen sollten

Die Governance-Checkliste, die kein Datenblatt zeigt

Eine ehrliche Grenze

Wo Pinchy passt

Verwandte Seiten

Air-Gapped-KI-Agenten

Souveräne KI-Agenten

Lokale Modelle über Ollama

KI-Agenten-Governance

Frequently asked questions.

Welche Hardware brauchen Sie, um ein lokales LLM für KI-Agenten zu betreiben?

Was ist für lokale LLM-Inferenz wichtiger, Speicherbandbreite oder TOPS?

Können Sie Mini-PCs clustern, um größere lokale LLMs zu betreiben?

Welche Modellgrößen laufen gut auf 128 GB Unified Memory?

Ändert Air-Gapped-Hardware die Governance-Anforderungen an einen KI-Agenten?

Bringen Sie Ihre eigene Box mit. Behalten Sie die Leitplanken.

Air-Gapped-LLM-Hardware:
die richtige Box für selbst betriebene KI-Agenten.