Стратегии оценки VLM

На основе проведенных исследований мы выделили ключевые стратегии и лучшие практики для оценки Vision Language Models в задачах анализа документов.

1. Методология оценки

Оценка VLM сложнее, чем LLM, так как требует проверки понимания визуального контента, а не только генерации текста.

Perception (Восприятие): Распознавание объектов, текста (OCR), атрибутов.
- Бенчмарки: VQAv2, DocVQA, OCRBench.
Reasoning (Рассуждение): Логические выводы на основе изображения (MathVista, MMMU).
Hallucination (Галлюцинации): Проверка на выдуманные объекты (POPE).

Zero-shot: Оценка без примеров (наиболее частый сценарий для VLM).
Few-shot: Добавление примеров (in-context learning) для сложных задач.
Chain-of-Thought (CoT): Просьба модели "подумать пошагово" перед ответом (особенно для Math/Reasoning).

ANLS (Average Normalized Levenshtein Similarity): Критически важная метрика для задач DocVQA, позволяющая мягко оценивать ошибки в написании слов, сохраняя при этом строгость к фактическим ошибкам.
- Формула: 1 - d(pred, gt) / max(len(pred), len(gt)), с порогом (обычно 0.5).
Exact Match (EM): Полное совпадение (после нормализации). Подходит для Multiple Choice.
WER/CER: Стандартные метрики для оценки качества распознавания текста.

BLEU / CIDEr / SPICE: Традиционные метрики для Image Captioning. Измеряют n-gram перекрытия.
LLM-as-a-Judge: Использование сильной LLM (GPT-4) для оценки корректности ответа VLM.
- Плюсы: Понимает синонимы и перефразирования.
- Минусы: Дорого, зависит от "судьи".

Критически важна перед сравнением:

Closed-Set Evaluation: Для задач классификации рекомендуется использовать фиксированный набор вариантов ответов с перемешиванием (shuffling) для исключения влияния порядка на выбор модели.
Многоуровневая агрегация: Метрики должны рассчитываться и агрегироваться на трех уровнях:
1. Global Level: Общая точность по всему датасету.
2. Document Type Level: Точность в разрезе типов документов (паспорта, счета, справки).
3. Field Level: Точность извлечения конкретных полей (ФИО, ИНН, Дата).
Прозрачность: Сохранять не только итоговую метрику, но и сырые предсказания модели (answers.csv), чтобы можно было вручную проанализировать ошибки.

Версионирование: Использование систем типа Arize Phoenix для трекинга и версионирования промптов.
Динамическая подстановка: Использование PromptAdapter для замены базовых промптов из датасета на оптимизированные версии для конкретных моделей.

Изоляция: Каждый запуск инференса должен быть изолирован в контейнере для предотвращения конфликтов библиотек (например, разные версии transformers или vLLM).
Параллелизм: Асинхронный запуск задач и распределение по доступным GPU воркерам.
Модульность метрик: Реализовать метрики как отдельные классы с единым интерфейсом Metric, чтобы легко добавлять новые (например, ANLS для OCR).