Перейти к основному содержимому

Запуск бенчмарков

Процесс запуска бенчмарка состоит из подготовки конфигурации и выполнения основного скрипта.

1. Подготовка конфигурации

Конфигурация эксперимента задается в CSV-файле (например, user_config.csv).

Поля конфигурации:

  • model_name: Название модели (например, Qwen2-VL-7B-Instruct).
  • dataset: Название датасета из data_dirs.
  • task_name: Тип задачи (VQA, Classification).
  • framework: Фреймворк инференса (vLLM, HuggingFace).
  • docker_image: (Опционально) Кастомный образ.

2. Запуск через Orchestrator

Основная точка входа — скрипт run_benchmark.py.

uv run python run_benchmark.py --config user_config.csv

3. Мониторинг и результаты

После запуска Оркестратор:

  1. Создаст план выполнения.
  2. Запустит контейнеры для каждого этапа.
  3. Сохранит ответы в reports/answers/.
  4. Сохранит метрики в reports/metrics/.
  5. Сгенерирует финальный отчет в формате Markdown.

4. Оптимизация промптов

Вы можете запустить процесс оптимизации промптов перед основным бенчмарком:

uv run python optimize_prompt.py --config config_prompt_optimization.json