Перейти к основному содержимому

metric_evaluator

MetricEvaluator Objects

class MetricEvaluator()

Класс для вычисления метрик качества предсказаний модели.

Атрибуты: true_csv (pd.DataFrame): DataFrame с правильными ответами. pred_csv (pd.DataFrame): DataFrame с предсказаниями модели.

__init__

def __init__(true_file: str, prediction_file: str) -> None

Инициализирует экземпляр MetricEvaluator.

Аргументы: true_file (str): Путь к файлу с правильными ответами (CSV или TSV). prediction_file (str): Путь к файлу с предсказаниями модели (CSV или TSV).

Исключения: ValueError: Если данные в файлах не совместимы.

read_file

def read_file(file_path: str) -> pd.DataFrame

Читает файл с определением разделителя (CSV или TSV).

Аргументы: file_path (str): Путь к файлу.

Возвращает: pd.DataFrame: DataFrame с данными из файла.

Исключения: pd.errors.ParserError: Если файл не может быть прочитан как CSV или TSV.

validate_data

def validate_data() -> None

Проверяет совместимость данных в true_csv и pred_csv.

Исключения: ValueError: Если столбцы или количество строк не совпадают.

calculate_metrics_by_id

def calculate_metrics_by_id() -> pd.DataFrame

Вычисляет метрики для каждого ID.

Возвращает: pd.DataFrame: DataFrame с метриками для каждого ID.

Метрики:

  • WER (Word Error Rate)
  • CER (Character Error Rate)
  • BLEU (Bilingual Evaluation Understudy)

calculate_metrics_by_doc_type

def calculate_metrics_by_doc_type(df: pd.DataFrame) -> pd.DataFrame

Вычисляет метрики для каждого типа документа.

Аргументы: df (pd.DataFrame): DataFrame из метода calculate_metrics_by_id.

Возвращает: pd.DataFrame: DataFrame с метриками для каждого типа документа.

group_by_doc_question

def group_by_doc_question(df: pd.DataFrame) -> pd.DataFrame

Группирует данные по типу документа и типу вопроса.

Аргументы: df (pd.DataFrame): Исходный DataFrame.

Возвращает: pd.DataFrame: Сгруппированный DataFrame с метриками.

calculate_metrics_general

def calculate_metrics_general() -> dict

Вычисляет общие метрики по всему корпусу данных.

Возвращает: dict: Словарь с метриками WER, CER и BLEU.