Air-Gapped-LLM-Hardware:
die richtige Box für selbst betriebene KI-Agenten.

Einen Agenten mit einem rein lokalen Modell betreiben Sie heute auf einer einzigen kleinen Maschine. Die Falle: Sie dimensionieren ihn wie einen Chatbot. Ein Agent belastet genau den Teil der Hardware, den die meisten LLM-Tests auslassen. Und die Spezifikation, die einen Benchmark gewinnt, entscheidet keine Enterprise-Anschaffung. Dieser Guide zeigt, worauf es wirklich ankommt, was die beliebten Mini-Workstations leisten und was nicht, und welche Governance kein Datenblatt nennt.

Wenn Sie einen selbst betriebenen oder vollständig Air-Gapped-KI-Agenten wollen, kommt zuerst die Frage, worauf er läuft. Eine neue Klasse von Mini-Workstations betreibt ein leistungsfähiges lokales Modell auf einer einzigen Box, und das Marketing dazu ist laut. Dieser Guide liefert das ehrliche Gespräch über die Dimensionierung dahinter.

Wir bauen Pinchy, eine selbst betriebene KI-Agenten-Plattform für lokale Modelle. Wir sind hier also nicht neutral, und das legen wir vorab offen: Wir haben diese Maschinen noch nicht selbst getestet. Die Leistungswerte unten stammen aus veröffentlichten Tests Dritter, jeweils direkt zitiert. Die Geschwindigkeits-Obergrenzen folgen aus einer Rechnung, die Sie nachprüfen können. Gerade bauen wir auf einer dieser Maschinen einen Air-Gapped-Prototyp. Sobald er läuft, ersetzen wir die Schätzungen durch gemessene Zahlen.

Ein Agent ist kein Chatbot

Die meisten Tests nach dem Muster „läuft hier ein LLM“ messen einen Chatbot: ein kurzer Prompt, dann fließen die Tokens heraus. Ein KI-Agent belastet die Hardware anders. In jeder Runde übergibt der Agent dem Modell einen großen System-Prompt, abgerufenen Kontext, Tool-Definitionen und das laufende Transkript. Diese Eingabe drängt sich ganz an den Anfang, und der teure Teil ist das Prefill: das Einlesen all dessen, bevor das erste Token kommt. Wie schnell das Prefill läuft, hängt am Tempo, mit dem die Maschine Daten durch den Speicher bewegt, nicht am TOPS-Spitzenwert auf der Box.

Die wichtigste Spezifikation für einen Agenten ist also die Speicherbandbreite, dazu genug Speicherkapazität, um das Modell überhaupt zu halten. Der oft genannte NPU-Wert beschreibt Rechenleistung, die diese Last selten ausreizt. Die Bandbreite dagegen merken Sie bei jeder Nachricht.

Die Klasse, die Sie kennen sollten: Ryzen AI Max+ 395 (Strix Halo)

Eine Plattform bestimmt dieses Gespräch gerade: AMDs Ryzen AI Max+ 395, Codename Strix Halo. Sie verbindet eine leistungsfähige integrierte GPU mit bis zu 128 GB Unified Memory bei rund 256 GB/s. Unter Linux weisen Sie der GPU den Großteil dieses Speichers als VRAM zu, etwa 96 GB. So hält die Maschine Modelle, die eine einzelne Consumer-GPU nicht fasst. Und sie zieht dabei etwa so viel Strom wie eine helle Glühbirne.

Zu dieser Klasse zählen die MINISFORUM MS-S1 Max, das Framework Desktop, das GMKtec EVO-X2, das Beelink GTR9 und das HP Z2 Mini G1a. Weil sie dieselbe APU teilen, teilen sie auch die Eigenschaft, die das Inferenztempo bestimmt: dieselbe Speicherbandbreite. Dasselbe Modell liefert auf allen ungefähr gleich viele Tokens pro Sekunde. Der Unterschied steckt genau dort, wo ein Datenblatt-LLM-Test gern wegschaut, und genau das sollte ein Enterprise-Käufer abwägen: das Netzwerk, die Kühlung unter Dauerlast, ob der Speicher fehlerkorrigierend ist, ob ein Out-of-Band-Management existiert und der Garantieweg, wenn verlöteter Speicher ausfällt. Die MS-S1 Max etwa liefert zweimal 10-Gigabit-Ethernet und USB4. Das ist großzügig für einen Mini-PC und trotzdem zu wenig für das Netzwerk eines echten Inferenz-Clusters.

Wählen Sie ehrlich: Vergleichen Sie die ganze Klasse mit den Alternativen, auf den Achsen, die zählen, statt auf TOPS.

Mini-Workstation mit Unified Memory
(Strix-Halo-Klasse)
Workstation mit dedizierter GPU
(NVIDIA-RTX-6000-Klasse)
Multi-GPU-Server
Speicher für das Modellbis zu 128 GB unified48 bis 96 GB pro KarteHunderte GB über mehrere Karten
Speicherbandbreite~256 GB/s~1 TB/s und mehrsehr hoch (HBM + schneller Interconnect)
Prefill bei langem Kontextmäßigschnellam schnellsten
Fehlerkorrigierender Speichermeist keinerjaja
Out-of-Band-Managementmeist keinesmanchmalja (BMC / IPMI)
Stromaufnahme im Dauerbetrieb~130 W300 W und mehrRack-Klasse
Relative Kostenniedrighochsehr hoch
Beste Eignungein mittelgroßes Modell, kleines Team, Air-Gapped-Appliancegroße dichte Modelle, schnelles Prefillviele gleichzeitige Nutzer, Frontier-Skala

Die Mini-Workstation gewinnt beim Speicher pro Euro und beim Stromverbrauch. Sie verliert bei der Bandbreite, also bei langsamerem Prefill, und bei den Server-Funktionen, die ein Betriebsteam erwartet. Kein Punkt davon ist ein Mangel, sondern eine Frage der Passung. Sie ist das richtige Werkzeug für ein Modell, das ein kleines Team hinter einer abgeschotteten Grenze bedient. Sie ist das falsche für einen schnellen Einsatz auf Frontier-Skala.

Warum „KI-Cluster“ zu viel verspricht

Manche dieser Boxen werben mit „für KI-Cluster“. Lesen Sie diese Aussage genau. Sie können zwei davon koppeln, über USB4 oder 10-Gigabit-Ethernet, und ihren Speicher bündeln, damit ein größeres Modell über beide reicht. Was Sie nicht können: sie gemeinsam schnell machen. Dieser Interconnect läuft in der Praxis mit vielleicht zehn Gigabit, und die Consumer-Netzwerkkarten sprechen kein RDMA. Also kriechen die Daten zwischen den Knoten dahin, verglichen mit einem echten GPU-Cluster, dessen Verbindungen hundertmal schneller sind. Ein Cluster aus dieser Klasse bringt Ihnen einen größeren Speicher-Pool für ein Modell, das sonst nicht laden würde. Die nahezu lineare Beschleunigung, die das Wort suggeriert, bringt er nicht. Nützlich, solange Sie wissen, was Sie kaufen.

Geschwindigkeit schätzen, ohne die Box zu besitzen

Weil die Bandbreite diese Last begrenzt, schätzen Sie die Obergrenze mit einer Rechnung statt mit einem Benchmark. Um ein Token zu erzeugen, liest die Hardware die aktiven Gewichte des Modells einmal aus dem Speicher. Die Geschwindigkeits-Obergrenze entspricht also ungefähr der Speicherbandbreite geteilt durch die pro Token gelesenen Bytes. Ein Mixture-of-Experts-Modell, das nur ein paar Milliarden Parameter bei Vier-Bit-Präzision aktiviert, liest in der Größenordnung von ein, zwei Gigabyte pro Token. Bei 256 GB/s ergibt das eine Obergrenze nahe hundert Tokens pro Sekunde, und der reale Overhead drückt den tatsächlichen Wert deutlich darunter.

Veröffentlichte Tests auf dieser Hardware landen genau dort, wo die Rechnung es vorhersagt: ein Mixture-of-Experts-Modell mit 120 Milliarden Parametern erzeugt gut 50 Tokens pro Sekunde, ein 30B-Modell um die 80. Wenn Theorie und Messung übereinstimmen, beruhigt das mehr als jede Rechnung sonst. Die Lehre gilt unabhängig vom genauen Wert: Die Bandbreite bestimmt das Tempo, und die gewählte Modellarchitektur zählt mehr als ein paar Prozent Taktrate.

Welches Modell passt, und welches Sie wählen sollten

Bei Vier-Bit-Quantisierung gilt grob: ein halbes Gigabyte Speicher pro Milliarde Parameter der gesamten Modellgröße. Ein dichtes 70B-Modell liegt damit bei rund 40 GB, ein 120B-Mixture-of-Experts-Modell bei rund 65 GB, beide bequem innerhalb von 96 GB nutzbarem VRAM. Bei der Wahl zwischen ihnen zählt nicht, was passt, sondern wie das Modell aus dem Speicher liest:

Die Governance-Checkliste, die kein Datenblatt zeigt

Das ist die Hälfte der Entscheidung, die kein LLM-Benchmark berührt, und für ein Unternehmen ist es die entscheidende Hälfte. Bevor eine solche Box in den Produktivbetrieb geht, besonders eine Air-Gapped-Box, arbeiten Sie eine Liste ab, zu der das Datenblatt schweigt:

Nichts davon disqualifiziert die Hardware. Es rückt sie ins richtige Licht: Eine Mini-Workstation mit Unified Memory taugt hervorragend als Appliance für einen kleinen Air-Gapped-Einsatz, doch als Server lässt sie sich nicht ohne Anpassung einsetzen. Kaufen Sie sie mit diesem Wissen, passt sie. Kaufen Sie sie blind, überrascht sie Sie.

Eine ehrliche Grenze

Wir haben diese Boxen noch nicht selbst getestet. Jeder Leistungswert hier ist ein veröffentlichtes Ergebnis Dritter, oben zitiert, oder eine Obergrenze aus der Bandbreiten-Rechnung. Gerade bauen wir einen Air-Gapped-Pinchy-Prototyp auf einer Maschine dieser Klasse. Sobald er läuft, veröffentlichen wir gemessene Zahlen, auch die, die den Schätzungen widersprechen, und aktualisieren diese Seite. Betreiben Sie schon einen selbst betriebenen Agenten auf solcher Hardware, schicken Sie uns Ihre Zahlen, das Modell, die Kontextlänge und was schiefging. Wir nehmen sie hier mit Nennung auf. Das nützlichste Datenblatt für eine solche Box stammt nicht vom Hersteller.

Wo Pinchy passt

Die Hardware entscheidet, wie schnell Ihr Agent denkt. Pinchy entscheidet, was er darf. Pinchy ist eine selbst betriebene KI-Agenten-Plattform, die auf lokalen Modellen über Ollama läuft, ohne Telemetrie und mit Offline-Lizenzprüfung. So bleibt ein Einsatz mit lokalem Modell vollständig Air-Gapped: nichts verlässt die Grenze, auf keiner dieser Boxen. Innerhalb dieser Grenze arbeitet die Governance-Schicht genauso wie online: eine Berechtigungs-Allow-List mit Standard-Verbot und ein manipulationssichtbarer Audit-Trail. Denn auch ein getrennter Agent braucht die Vorgabe, was er anfassen darf, und auch bei ihm gehört jede Aktion ins Protokoll. Wählen Sie die Box für das Modell, das Sie betreiben wollen. Die Governance behalten Sie, unabhängig von der Box.

Frequently asked questions.

Welche Hardware brauchen Sie, um ein lokales LLM für KI-Agenten zu betreiben?

Genug Speicher, um das Modell zu halten, und einen schnellen Weg, ihn zu lesen. Für einen selbst betriebenen KI-Agenten ist der bindende Engpass der Speicher: Ein Modell muss in RAM oder VRAM passen, und das Tempo, mit dem die Hardware diesen Speicher liest, bestimmt, wie schnell der Agent antwortet. Eine Maschine mit 128 GB schnellem Unified Memory, etwa eine Mini-Workstation mit Ryzen AI Max+ 395, kann ein leistungsfähiges mittelgroßes Modell vollständig auf dem Gerät bedienen. Die reinen NPU-TOPS zählen für diese Last weit weniger als die Speicherbandbreite.

Was ist für lokale LLM-Inferenz wichtiger, Speicherbandbreite oder TOPS?

Die Speicherbandbreite, mit großem Abstand, für Agenten-Lasten. Für jedes Token muss die Hardware die aktiven Gewichte des Modells aus dem Speicher lesen. Die Bandbreite geteilt durch die pro Token gelesenen Bytes deckelt also das Token-Tempo. Der plakative TOPS-Wert beschreibt Spitzen-Rechenleistung, die lokale LLM-Inferenz selten ausreizt. Zwei Maschinen mit gleicher Speicherbandbreite betreiben dasselbe Modell mit ungefähr gleichem Tempo, auch wenn ihre TOPS-Werte abweichen.

Können Sie Mini-PCs clustern, um größere lokale LLMs zu betreiben?

Sie können ihren Speicher bündeln, um ein größeres Modell unterzubringen, bekommen aber keine proportionale Beschleunigung. Zwei Mini-Workstations über USB4 oder 10-Gigabit-Ethernet zu koppeln, lässt ein Modell über ihren gemeinsamen Speicher reichen. Dieser Interconnect ist jedoch hundertmal langsamer als die Verbindungen in einem echten GPU-Cluster, und Consumer-Netzwerkkarten unterstützen kein RDMA. Ein Cluster aus dieser Box-Klasse ist ein Trick zum Speicher-Bündeln für größere Modelle, kein Weg, die Inferenz schneller zu machen.

Welche Modellgrößen laufen gut auf 128 GB Unified Memory?

Bei Vier-Bit-Quantisierung passen dichte Modelle bis rund 70B in den Speicher, und große Mixture-of-Experts-Modelle im Bereich über 100B passen, weil nur ein paar Milliarden Parameter pro Token aktiv werden. Mixture-of-Experts-Modelle sind der Idealfall für diese Hardware: Veröffentlichte Tests zeigen ein 120B-MoE mit gut 50 Tokens pro Sekunde und ein 30B-MoE um die 80 auf einem Ryzen AI Max+ 395, während ein dichtes 70B bei langem Kontext wegen des langsameren Prefill spürbar träger reagiert.

Ändert Air-Gapped-Hardware die Governance-Anforderungen an einen KI-Agenten?

Nein. Offline-Hardware schließt den Weg, auf dem Daten das Netzwerk verlassen. Doch ein getrennter Agent kann immer noch zu viel lesen, Datensätze ändern oder einer schädlichen Anweisung folgen, die bereits in der Enklave steckt. Ein Berechtigungsmodell mit Standard-Verbot und ein manipulationssichtbarer Audit-Trail gelten offline genauso wie online. Die Hardware entscheidet, wie schnell der Agent denkt; die Governance entscheidet, was er darf.

Bringen Sie Ihre eigene Box mit. Behalten Sie die Leitplanken.

Pinchy läuft auf lokalen Modellen, ohne Telemetrie und mit Offline-Lizenzprüfung. So bleibt ein Einsatz mit lokalem Modell vollständig Air-Gapped, auf der Hardware Ihrer Wahl. Open Source, selbst betrieben, kostenlos im Betrieb.

Oder schreiben Sie uns: info@heypinchy.com