(Fiberwdm Все права защищены)
В данном случае мы описываем оптимизированное решение нашей компании для устранения проблем со стабильностью работы сервисов, вызванных развертыванием многомодовых оптических модулей 100G в действующей сети кластера вычислительных мощностей предприятия. На основе анализа проблем согласования и адаптации между дальностью передачи и оптическими модулями/кабелями было разработано сценарное решение по замене многомодовых/одномодовых оптических модулей, которое в конечном итоге полностью устранило сетевые сбои и гарантировало стабильность межблочной связи в кластере вычислительных мощностей.
I. Предыстория проекта
Компания развернула кластер вычислительной мощности.
многомодовые оптические модули QSFP28 100G SR4
В масштабах всей действующей сети, предназначенной для соединения вычислительных узлов и сетевых устройств между шкафами, часто возникали проблемы со стабильностью связи во время работы, что влияло на нормальное планирование и передачу данных вычислительного кластера. Поэтому возникла необходимость выявить проблемы и разработать оптимизированное решение.
II. Поиск и устранение неисправностей и анализ основных причин.
Наша техническая группа провела всестороннее исследование топологии действующей сети, оптических каналов передачи и конфигурации оборудования и выявила основную проблему в несоответствии между техническими характеристиками передачи оптических модулей и фактической дальностью связи, как подробно описано ниже:
-
У заказчика имеется большое количество сценариев межблочного соединения, и фактическая дальность передачи по некоторым оптоволоконным линиям значительно превосходит ожидания, превышая даже 100 метров.
-
QSFP28 100G SR4 — это многомодовый оптический модуль, дальность передачи которого ограничена техническими характеристиками поддерживаемых многомодовых оптических кабелей: кабели OM3 обеспечивают максимальную дальность передачи 70 метров, а кабели OM4 — 100 метров. Передача на большие расстояния без запаса по дальности приведет к затуханию оптической мощности и искажению сигнала, что напрямую вызовет нестабильность в работе.
-
Хотя некоторые линии связи на коротких расстояниях (в пределах 50 метров) не превышают установленный предел, используемые кабели MPO имеют высокие вносимые потери, что еще больше усугубляет проблему затухания сигнала в многомодовых линиях связи.
III. Индивидуальное решение
С учетом распределения расстояний связи в вычислительном кластере, совместимости работающего сетевого оборудования и принципа оптимизации затрат было разработано сценарно-ориентированное оптимизированное решение для подбора оптических модулей и оптических кабелей, классифицированных по расстоянию передачи. Основная идея заключается в «оптимизации многомодовых вспомогательных средств для коротких расстояний и замене их одномодовыми оптическими модулями для длинных расстояний»:
-
Для межблочных соединений на расстоянии более 50 метров: повсеместно заменяйте многомодовые оптические модули QSFP28 100G SR4 на одномодовые оптические модули QSFP28 100G LR4. Одномодовые оптические модули поддерживают передачу на большие расстояния до 10 км, что полностью отвечает требованиям к межблочным соединениям на большие расстояния и принципиально решает проблему ограничения дальности.
-
Для линий связи на коротких расстояниях до 50 метров: сохраните многомодовые оптические модули 100G SR4 и замените поддерживающие их оптические кабели на многомодовые кабели MPO с низкими потерями на входе, соответствующие спецификации OM3/OM4, чтобы уменьшить потери на входе и повысить стабильность передачи сигнала в многомодовых линиях связи. Одновременно используйте преимущества многомодовых оптических модулей с точки зрения стоимости, чтобы контролировать затраты на преобразование линий связи на коротких расстояниях.
IV. Эффекты внедрения
После того, как заказчик завершил преобразование всех действующих сетевых каналов и обновление оборудования в соответствии с данным решением, были достигнуты следующие результаты:
-
Нестабильность работы сети, вызванная несоответствием оптических каналов передачи данных, была полностью устранена, а показатели потери пакетов и колебания задержки передачи данных между шкафами в вычислительном кластере вернулись к стандартным значениям.
-
Решение по настройке оборудования на основе сценариев обеспечивает баланс между стабильностью передачи и стоимостью преобразования, избегая ненужного преобразования в одномодовый режим на всем канале связи и эффективно контролируя инвестиции в оптимизацию сети вычислительного кластера.
-
Стандарты соответствия для сетевых оптических модулей и оптических кабелей были стандартизированы, что обеспечивает четкую основу для выбора аппаратного обеспечения оптической передачи при последующем расширении и топологической настройке вычислительного кластера.
V. Краткое изложение дела
Высокоплотное и высокоскоростное соединение между шкафами в вычислительном кластере предъявляет чрезвычайно высокие требования к согласованию оптических каналов передачи. Многомодовый оптический модуль 100G SR4 подходит только для сценариев соединения на коротких расстояниях (≤100 метров) с использованием оптических кабелей OM3/OM4. Если требуется соединение на больших расстояниях между шкафами, следует отдать предпочтение одномодовому оптическому модулю 100G LR4. При развертывании оптической связи необходимо точно выбирать оптические модули в соответствии с фактической дальностью передачи и характеристиками оптических кабелей, а также обращать внимание на использование вспомогательных кабелей с низкими вносимыми потерями для обеспечения долговременной стабильной работы высокоскоростных каналов связи.