Im Jahr 2025 verändert die rasante Entwicklung der künstlichen Intelligenz (KI) die Architektur von Rechenzentren. Von multimodalen Großsprachenmodellen bis hin zu offenen und effizienten Frameworks ist KI zur zentralen treibenden Kraft für Innovationen geworden. Der Umfang von KI-Modellen wächst von Hunderten Millionen Parametern auf Billionen, wobei Tausende oder sogar Zehntausende GPUs parallel trainiert werden. Beispielsweise OpenAI'GPT-4o und ähnliche Modelle erfordern eine Echtzeit-Datensynchronisierung, um effiziente Inferenz und Training zu ermöglichen. Dies erfordert nicht nur einen Datendurchsatz im TB/s-Bereich, sondern auch eine Latenz im Mikrosekundenbereich und hohe Zuverlässigkeit, um Engpässe zu vermeiden.
Vor diesem Hintergrund können herkömmliche 100G/200G-Netzwerkverbindungen die Anforderungen nicht mehr erfüllen. Optische 400G/800G-OSFP-Module bieten eine kompaktere und effizientere Verbindungslösung, während DAC (Direct Attach Cable) und AOC (Active Optical Cable) die bevorzugten Optionen für Verbindungen mit kurzer Reichweite sind und Kosten und Stromverbrauch effektiv optimieren. Bei KI geht es nicht mehr nur um algorithmische Innovation, sondern um eine systemweite Entwicklungsleistung, die tief in die physische Infrastruktur integriert ist.

Die KI-Landschaft im Jahr 2025 ist geprägt von Vielseitigkeit und Open-Source-Innovation. Mehrere führende Modelle verdeutlichen, wie diese Fortschritte die Anforderungen an die Vernetzung verändern:
GPT-4o (OpenAI)
GPT-4o ist für seine leistungsstarken multimodalen Verarbeitungsfunktionen für Text, Bilder und Sprache bekannt und basiert auf dem synchronisierten Training Tausender GPUs. Jede GPU erfordert einen Datenaustausch mit Hunderten von GB/s, und jeder Verbindungsengpass kann die Trainingszeit erheblich verlängern.
Claude 3.7 Sonett (anthropisch)
Claude 3.7 Sonnet ist auf Codierung und komplexe Schlussfolgerungsaufgaben spezialisiert und benötigt Echtzeit-Datenströme, um effiziente Inferenz zu gewährleisten. Verbindungen mit extrem niedriger Latenz sind unerlässlich, wobei optische 800G-Module eine Energieeffizienz von ca. 5 pJ/Bit ermöglichen.
Gemini 2.5 (Google)
Gemini 2.5 zeichnet sich durch seine Leistungsfähigkeit bei multimodaler Inferenz und wissenschaftlichen Forschungsanwendungen aus und legt den Schwerpunkt auf hohe Bandbreite und verteilte Kommunikation im großen Maßstab. Seine Leistung hängt stark von DWDM-Systemen und Hochgeschwindigkeits-Ethernet-Verbindungen ab.
Grok 3/4 (xAI)
Mit integriertem Sprachmodus und effizienten Inferenzfunktionen wird Grok 3/4 typischerweise in GB200-Clustern eingesetzt. Jede GPU benötigt eine 800-GbE-Schnittstelle, um die doppelte Leistung zu erreichen.
Lama 3 / DeepSeek V3 (Meta / DeepSeek)
Als führende Vertreter von Open-Source-Modellen legen Llama 3 und DeepSeek V3 Wert auf hohe Leistung und Anpassbarkeit. Ihr verteiltes Training basiert auf 400G/800G-Verbindungen und steigert die Gesamteffizienz um 20–25 %.
| KI-Modell | Entwickler:in / Unternehmen | Hauptfunktionen | Rechen- und Verbindungsanforderungen |
| GPT-4o | OpenAI | Multimodal (Text, Bild, Sprache); fortgeschrittenes Denken; unterstützt o1/o3-Varianten | Erfordert eine GPU-Clustersynchronisierung im großen Maßstab, wobei der Datenaustausch pro GPU während des Trainings Hunderte von GB/s erreicht; Verbindungsengpässe können die Trainingszeit um das Zwei- bis Dreifache verlängern. |
| Claude 3.7 Sonett | Anthropisch | Stark im Programmieren und bei komplexen Aufgaben; kosteneffizient | Die Inferenz basiert auf Echtzeit-Datenstreaming und erfordert Verbindungen mit extrem geringer Latenz, um gleichzeitige Abfragen zu unterstützen. 800G-Optiken können die Energiekosten auf ~5 pJ/Bit senken. |
| Zwillinge 2.5 | Effiziente multimodale Verarbeitung; optimiert für Entwickler und Forschung | Der Schwerpunkt der Schulung liegt auf parallelem Rechnen, wobei die Verbindungsanforderungen auf eine hohe Bandbreite ausgerichtet sind, um die DWDM-Mehrwellenlängenübertragung (Dense Wavelength Division Multiplexing) zu bewältigen. | |
| Grok 3/4 | xAI | Effiziente Inferenz, Sprachmodus-Unterstützung, Open-Source-freundlich | Wird normalerweise in großen Clustern (z. B. GB200) eingesetzt, wo jede GPU eine 800-GbE-Konnektivität benötigt, um eine zweifache Leistungsskalierung zu erreichen. |
| Lama 3 / DeepSeek V3 | Meta / DeepSeek | Open-Source, leistungsstarkes, anpassbares Training | Verteiltes Training hängt von der knotenübergreifenden Kommunikation ab, wobei 400G/800G-Verbindungen die Gesamteffizienz um ca. 25 % steigern. |
Diese Modelle haben eines gemeinsam: Sie basieren auf Mixture of Experts (MoE) oder ähnlichen Architekturen, die eine häufige All-to-All-Kommunikation erfordern. Das Training extrem großer Modelle wie GPT-4o kann einen Datenaustausch im Petabyte-Bereich erfordern, und unzureichende Verbindungen können die Netzwerkkosten um mehr als 70 % in die Höhe treiben.

Der Kern von KI-Training und -Inferenz liegt in der Synchronisierung großer GPU-Cluster. Beispielsweise benötigt in einem NVIDIA GB200-Cluster jede GPU eine 800-GbE-Konnektivität (2 x 400 GbE), um die direkte PCIe-Gen6-Kommunikation zu unterstützen und CPU-Engpässe zu vermeiden. Die wichtigsten Herausforderungen sind:
1. Optische OSFP-Module
Das Optical Small Form-factor Pluggable (OSFP) unterstützt Geschwindigkeiten von 400G/800G und nutzt Silizium-Photonik (SiPh) oder EML-Modulatoren. In KI-Anwendungen werden OSFP-Module für die Übertragung über große Entfernungen (> 100 m) eingesetzt und ermöglichen bidirektionale Konnektivität von bis zu 4 Tbit/s. Beispielsweise nutzen Intels OCI-Chipsätze DWDM für einen geringen Stromverbrauch (~5 pJ/Bit).
2. DAC (Direktanschlusskabel)
DAC ist eine kupferbasierte Lösung für In-Rack-Verbindungen mit kurzer Reichweite (<7 m) und bietet eine kostengünstige Option ohne optisch-elektrische Umwandlung. In KI-Clustern nutzen Lösungen wie die AMD Pensando Pollara 400 NIC DACs, um eine Bandbreite von 400 Gbit/s bereitzustellen und gleichzeitig RDMA (Remote Direct Memory Access) zur Beschleunigung der Datenübertragung zu unterstützen.
3. AOC (Aktives optisches Kabel)
Mit integrierten optischen Transceivern eignen sich AOCs für Verbindungen mittlerer Reichweite (7–100 m). Sie bieten höhere Zuverlässigkeit und helfen, Portkontamination zu vermeiden. In KI-Umgebungen werden AOCs häufig für die Parallelverkabelung eingesetzt und unterstützen 800G-Rechenzentrumsimplementierungen.

In praktischen Anwendungen verbessern diese Technologien die KI-Leistung direkt:
Trainingsphase: Beispielsweise werden beim verteilten Training von Llama 3 400G SR4-Module verwendet, um eine Kommunikation mit geringer Latenz zwischen GPUs sicherzustellen und so die Auslastung zu verbessern.
Inferenzphase: Die Echtzeitverarbeitung von Gemini 2.5 basiert auf 800G AOC, um eine Datenübertragung von 3200 Gbit/s zu erreichen.
Fallstudie: Der Stargate-Cluster von OpenAI verwendet benutzerdefinierte 800-GbE-Netzwerkkarten. Jede GPU ist mit acht OSFP-Ports ausgestattet und bietet so die doppelte Netzwerkleistung. Die Vulcano-Netzwerkkarte von AMD bietet einen Durchsatz von 8 Gbit/s und unterstützt den UC 2-Standard.
Open Source und Skalierbarkeit: Beispielsweise nutzt DeepSeek V3 RDMA, um Verbindungen zu optimieren und so die Überbrückungskosten zu senken.
In der Praxis werden diese Verbindungstechnologien häufig kombiniert eingesetzt: DAC und AOC eignen sich am besten für Verbindungen mit kurzer Reichweite innerhalb oder zwischen benachbarten Racks und bieten niedrige Kosten, geringe Latenzzeiten und eine vereinfachte Verkabelung im großen Maßstab. Optische OSFP-Module hingegen werden hauptsächlich für Verbindungen zwischen Racks oder sogar zwischen Rechenzentren eingesetzt und bieten höhere Bandbreite, Stabilität und Skalierbarkeit über größere Entfernungen. Dieser mehrschichtige Ansatz ermöglicht es Rechenzentren, Kosten, Stromverbrauch und Leistung in Einklang zu bringen und so die Trainings- und Inferenzanforderungen großer KI-Cluster zu unterstützen.
Zusammenfassend lässt sich sagen, dass die Integration von Hochgeschwindigkeits-Verbindungstechnologien mit fortschrittlichen KI-Modellen die nächste Ära der Rechenzentrumsinnovation prägt. Die Kombination neuester KI-Modelle mit 400G/800G-Verbindungen demonstriert nicht nur technologische Synergien, sondern unterstreicht auch die entscheidende Rolle der Infrastruktur im KI-Ökosystem. Verbindungstechnologie ermöglicht nicht nur künstliche Intelligenz, sondern ist der Grundstein für ihre zukünftige Entwicklung.