Запуск бенчмарков
Процесс запуска бенчмарка состоит из подготовки конфигурации и выполнения основного скрипта.
1. Подготовка конфигурации
Конфигурация эксперимента задается в CSV-файле (например, user_config.csv).
Поля конфигурации:
model_name: Название модели (например,Qwen2-VL-7B-Instruct).dataset: Название датасета изdata_dirs.task_name: Тип задачи (VQA,Classification).framework: Фреймворк инференса (vLLM,HuggingFace).docker_image: (Опционально) Кастомный образ.
2. Запуск через Orchestrator
Основная точка входа — скрипт run_benchmark.py.
uv run python run_benchmark.py --config user_config.csv
3. Мониторинг и результаты
После запуска Оркестратор:
- Создаст план выполнения.
- Запустит контейнеры для каждого этапа.
- Сохранит ответы в
reports/answers/. - Сохранит метрики в
reports/metrics/. - Сгенерирует финальный отчет в формате Markdown.
4. Оптимизация пром птов
Вы можете запустить процесс оптимизации промптов перед основным бенчмарком:
uv run python optimize_prompt.py --config config_prompt_optimization.json