Năm 2025, sự phát triển nhanh chóng của trí tuệ nhân tạo (AI) đang định hình lại kiến trúc trung tâm dữ liệu. Từ các mô hình ngôn ngữ lớn đa phương thức đến các khuôn khổ mở và hiệu quả, AI đã trở thành động lực cốt lõi của sự đổi mới. Quy mô của các mô hình AI đang mở rộng từ hàng trăm triệu tham số lên đến hàng nghìn tỷ, với việc đào tạo liên quan đến hàng nghìn, thậm chí hàng chục nghìn GPU song song. Ví dụ: OpenAI'GPT-4o và các mô hình tương tự yêu cầu đồng bộ hóa dữ liệu theo thời gian thực để cho phép suy luận và huấn luyện hiệu quả. Điều này không chỉ đòi hỏi thông lượng dữ liệu ở mức TB/giây mà còn đòi hỏi độ trễ ở mức micro giây và độ tin cậy cao để loại bỏ mọi tắc nghẽn.
Trong bối cảnh này, các kết nối mạng 100G/200G truyền thống không còn đáp ứng được yêu cầu. Các mô-đun quang OSFP 400G/800G cung cấp giải pháp kết nối nhỏ gọn và hiệu quả hơn, trong khi DAC (Cáp kết nối trực tiếp) và AOC (Cáp quang chủ động) là những lựa chọn ưu tiên cho các kết nối tầm ngắn, giúp tối ưu hóa hiệu quả chi phí và mức tiêu thụ điện năng. AI không còn chỉ là đổi mới thuật toán, mà là nỗ lực kỹ thuật cấp hệ thống được tích hợp sâu vào cơ sở hạ tầng vật lý.

Bối cảnh AI năm 2025 được định hình bởi tính linh hoạt và đổi mới nguồn mở. Một số mô hình hàng đầu nêu bật cách những tiến bộ này đang định hình lại nhu cầu kết nối:
GPT-4o (OpenAI)
Nổi tiếng với khả năng xử lý đa phương thức mạnh mẽ trên văn bản, hình ảnh và giọng nói, GPT-4o dựa trên việc đào tạo đồng bộ trên hàng nghìn GPU. Mỗi GPU yêu cầu trao đổi dữ liệu với tốc độ hàng trăm GB/giây, và bất kỳ tắc nghẽn kết nối nào cũng có thể kéo dài đáng kể thời gian đào tạo.
Claude 3.7 Sonnet (Nhân chủng học)
Chuyên về mã hóa và các tác vụ suy luận phức tạp, Claude 3.7 Sonnet yêu cầu luồng dữ liệu thời gian thực để duy trì suy luận hiệu quả. Các kết nối có độ trễ cực thấp là điều cần thiết, với các mô-đun quang 800G cho phép tiết kiệm năng lượng ở mức khoảng 5 pJ/bit.
Song Tử 2.5 (Google)
Nổi trội trong suy luận đa phương thức và ứng dụng nghiên cứu khoa học, Gemini 2.5 nhấn mạnh vào băng thông cao và truyền thông phân tán quy mô lớn. Hiệu suất của nó phụ thuộc rất nhiều vào hệ thống DWDM và kết nối Ethernet tốc độ cao.
Grok 3/4 (xAI)
Với chế độ giọng nói tích hợp và khả năng suy luận hiệu quả, Grok 3/4 thường được triển khai trong các cụm GB200. Mỗi GPU yêu cầu giao diện 800GbE để đạt hiệu suất gấp đôi.
Llama 3 / DeepSeek V3 (Meta / DeepSeek)
Là những đại diện hàng đầu của các mô hình nguồn mở, Llama 3 và DeepSeek V3 nhấn mạnh hiệu suất cao và khả năng tùy chỉnh. Việc đào tạo phân tán của họ dựa trên các kết nối 400G/800G, giúp tăng hiệu suất tổng thể lên 20–25%.
| Mô hình AI | Nhà phát triển | Các tính năng chính | Yêu cầu tính toán và kết nối |
| GPT-4o | OpenAI | Đa phương thức (văn bản, hình ảnh, giọng nói); lý luận nâng cao; hỗ trợ các biến thể o1/o3 | Yêu cầu đồng bộ hóa cụm GPU quy mô lớn, với việc trao đổi dữ liệu trên mỗi GPU đạt tới hàng trăm GB/giây trong quá trình đào tạo; tình trạng tắc nghẽn kết nối có thể kéo dài thời gian đào tạo thêm 2–3 lần. |
| Sonnet 3.7 của Claude | nhân loại | Mạnh về lập trình và các nhiệm vụ phức tạp; tiết kiệm chi phí | Suy luận dựa trên luồng dữ liệu thời gian thực, đòi hỏi kết nối có độ trễ cực thấp để hỗ trợ các truy vấn đồng thời; quang học 800G có thể giảm chi phí năng lượng xuống còn ~5 pJ/bit. |
| Gemini 2.5 | Xử lý đa phương thức hiệu quả; được tối ưu hóa cho các nhà phát triển và nghiên cứu | Đào tạo tập trung vào điện toán song song, với các yêu cầu kết nối tập trung vào băng thông cao để xử lý truyền dẫn đa bước sóng DWDM (Công nghệ ghép kênh phân chia bước sóng dày đặc). | |
| Grok 3/4 | XAI | Suy luận hiệu quả, hỗ trợ chế độ giọng nói, thân thiện với mã nguồn mở | Thông thường được triển khai trong các cụm quy mô lớn (ví dụ: GB200), trong đó mỗi GPU yêu cầu kết nối 800GbE để đạt được khả năng mở rộng hiệu suất gấp 2 lần. |
| Llama 3 / DeepSeek V3 | Meta / DeepSeek | Đào tạo nguồn mở, hiệu suất cao, có thể tùy chỉnh | Đào tạo phân tán phụ thuộc vào giao tiếp giữa các nút, với kết nối 400G/800G giúp tăng hiệu quả tổng thể lên khoảng 25%. |
Các mô hình này có một đặc điểm chung: chúng dựa trên kiến trúc Hỗn hợp Chuyên gia (MoE) hoặc các kiến trúc tương tự, đòi hỏi giao tiếp Tất cả-Tất cả thường xuyên. Việc đào tạo các mô hình siêu lớn như GPT-4o có thể liên quan đến việc trao đổi dữ liệu ở cấp độ petabyte, và việc kết nối không đủ có thể làm tăng chi phí mạng lên hơn 70%.

Cốt lõi của việc đào tạo và suy luận AI nằm ở việc đồng bộ hóa các cụm GPU lớn. Ví dụ: trong cụm NVIDIA GB200, mỗi GPU cần kết nối 800GbE (2×400GbE) để hỗ trợ giao tiếp trực tiếp PCIe Gen6, tránh tình trạng tắc nghẽn CPU. Những thách thức chính bao gồm:
1. Mô-đun quang OSFP
Module quang học dạng nhỏ (OSFP) hỗ trợ tốc độ 400G/800G và tận dụng công nghệ quang tử silicon (SiPh) hoặc bộ điều biến EML. Trong triển khai AI, các mô-đun OSFP được sử dụng để truyền dẫn tầm xa (>100m), cho phép kết nối hai chiều lên đến 4 Tbps. Ví dụ, chipset OCI của Intel sử dụng DWDM để đạt mức tiêu thụ điện năng thấp (~5 pJ/bit).
2. DAC (Cáp kết nối trực tiếp)
Là giải pháp nền tảng đồng được thiết kế cho các kết nối trong rack tầm ngắn (<7m), DAC mang đến một lựa chọn tiết kiệm chi phí mà không cần chuyển đổi quang-điện. Trong các cụm AI, các giải pháp như AMD Pensando Pollara 400 NIC sử dụng DAC để cung cấp băng thông 400Gbps đồng thời hỗ trợ RDMA (Truy cập bộ nhớ trực tiếp từ xa) để tăng tốc độ truyền dữ liệu.
3. AOC (Cáp quang chủ động)
Được tích hợp bộ thu phát quang, AOC phù hợp với các kết nối tầm trung (7–100m). Chúng mang lại độ tin cậy cao hơn và giúp tránh nhiễm bẩn cổng. Trong môi trường AI, AOC được sử dụng rộng rãi cho hệ thống cáp song song, hỗ trợ triển khai trung tâm dữ liệu 800G.

Trong các ứng dụng thực tế, những công nghệ này trực tiếp nâng cao hiệu suất AI:
Giai đoạn đào tạo: Ví dụ, trong quá trình đào tạo phân tán của Llama 3, các mô-đun SR400 4G được sử dụng để đảm bảo giao tiếp có độ trễ thấp giữa các GPU, cải thiện khả năng sử dụng.
Giai đoạn suy luận: Quá trình xử lý thời gian thực của Gemini 2.5 dựa vào 800G AOC để đạt tốc độ truyền dữ liệu 3200 Gbps.
Nghiên cứu điển hình: Cụm Stargate của OpenAI sử dụng NIC 800GbE tùy chỉnh, với mỗi GPU được trang bị 8 cổng OSFP, mang lại hiệu suất mạng gấp 2 lần. NIC Vulcano của AMD cung cấp thông lượng 800 Gbps và hỗ trợ chuẩn UC 1.0.
Nguồn mở và khả năng mở rộng: Ví dụ, DeepSeek V3 tận dụng RDMA để tối ưu hóa kết nối, giảm chi phí bắc cầu.
Trong triển khai thực tế, các công nghệ kết nối này thường được sử dụng kết hợp: DAC và AOC phù hợp nhất cho các kết nối tầm ngắn trong hoặc giữa các rack liền kề, mang lại chi phí thấp, độ trễ thấp và hệ thống cáp được đơn giản hóa ở quy mô lớn. Mặt khác, các mô-đun quang OSFP chủ yếu được triển khai cho các kết nối giữa các rack hoặc thậm chí giữa các trung tâm dữ liệu, mang lại băng thông, độ ổn định và khả năng mở rộng cao hơn trên khoảng cách xa hơn. Phương pháp tiếp cận phân lớp này cho phép các trung tâm dữ liệu cân bằng chi phí, mức tiêu thụ điện năng và hiệu suất, từ đó hỗ trợ nhu cầu đào tạo và suy luận của các cụm AI quy mô lớn.
Tóm lại, việc tích hợp công nghệ kết nối tốc độ cao với các mô hình AI tiên tiến đang định hình kỷ nguyên đổi mới trung tâm dữ liệu tiếp theo. Việc kết hợp các mô hình AI mới nhất với kết nối 400G/800G không chỉ thể hiện sức mạnh tổng hợp về mặt công nghệ mà còn nhấn mạnh vai trò quan trọng của cơ sở hạ tầng trong hệ sinh thái AI. Công nghệ kết nối không chỉ là nền tảng cho sự phát triển của trí tuệ nhân tạo mà còn là nền tảng cho sự phát triển trong tương lai.