Перейти к основному содержимому

ADR-004: Гибридная стратегия доступа к данным (Smart Sync)

Контекст

Модели требуют быстрого доступа к изображениям. При работе в кластере чтение данных по сети (S3) каждым воркером может создать узкое место (Network I/O bound).

Решение

Использовать гибридный подход "Sync-before-Run".

  • Single-Node: Использование локальных Volume Mounts (Bind Mounts).
  • Multi-Node: Данные хранятся в S3 (Source of Truth). Перед запуском задачи EnvManager синхронизирует (кэширует) необходимый датасет на локальный диск узла.

Последствия

  • Плюсы: Высокая скорость чтения во время инференса (Local Disk I/O). Масштабируемость.
  • Минусы: Задержка перед стартом на скачивание данных (амортизируется при больших батчах). Требуется место на диске воркеров.