Перейти к основному содержимому

Запуск бенчмарков

Процесс запуска бенчмарка состоит из подготовки конфигурации и выполнения основного скрипта.

1. Подготовка конфигурации

Конфигурация эксперимента задается в CSV-файле (например, user_config.csv).

Поля конфигурации:

model_name: Название модели (например, Qwen2-VL-7B-Instruct).
dataset: Название датасета из data_dirs.
task_name: Тип задачи (VQA, Classification).
framework: Фреймворк инференса (vLLM, HuggingFace).
docker_image: (Опционально) Кастомный образ.

2. Запуск через Orchestrator

Основная точка входа — скрипт run_benchmark.py.

uv run python run_benchmark.py --config user_config.csv

3. Мониторинг и результаты

После запуска Оркестратор:

Создаст план выполнения.
Запустит контейнеры для каждого этапа.
Сохранит ответы в reports/answers/.
Сохранит метрики в reports/metrics/.
Сгенерирует финальный отчет в формате Markdown.

4. Оптимизация промптов

Вы можете запустить процесс оптимизации промптов перед основным бенчмарком:

uv run python optimize_prompt.py --config config_prompt_optimization.json

1. Подготовка конфигурации
- Поля конфигурации:
2. Запуск через Orchestrator
3. Мониторинг и результаты
4. Оптимизация промптов