Мультимодальное объединение аудио- и видеомодальностей

class openav.modules.lab.audiovisual.AVMessages(path_to_logs: str = <property object>, lang: str = <property object>)[исходный код]

Базовые классы: Audio, Video

Класс для сообщений

Параметры:
  • path_to_logs (str) – Смотреть path_to_logs

  • lang (str) – Смотреть lang

class openav.modules.lab.audiovisual.AV(path_to_logs: str = <property object>, lang: str = <property object>)[исходный код]

Базовые классы: AVMessages

Класс для мультимодального объединения аудио- и видеомодальностей

Параметры:
  • path_to_logs (str) – Смотреть path_to_logs

  • lang (str) – Смотреть lang

test_audiovisual(subfolders: Dict[str, str], n_classes: int, classes: List[str], encoder_decoder: int, max_segment: int, hidden_units: int, hidden_features: int, input_dim: int, shape_audio: Dict[str, int], shape_video: Dict[str, int], save_confusion_matrix: bool, path_to_save_confusion_matrix: str, figsize_confusion_matrix: Dict[str, int], path_to_model: str, out: bool = True) bool[исходный код]

Автоматическое тестирование на аудиовизуальных данных

Параметры:
  • subfolders (Dict[str, str]) – Словарь с подкаталогами с данными

  • n_classes (int) – Количество классов

  • classes (List[str]) – Список классов

  • encoder_decoder (int) – Количество энкодеров и декодеров

  • max_segment (int) – Максимальная длительность сегмента видео

  • hidden_units (int) – Количество скрытых нейронов

  • hidden_features (int) – Количество скрытых признаков

  • input_dim (int) – Количество входных признаков

  • shape_audio (Dict[str, int]) – Входная размерность аудио лог-мел спектрограммы

  • shape_video (Dict[str, int]) – Входная размерность видеокадров

  • save_confusion_matrix (bool) – Сохранение матрицы спутывания

  • path_to_save_confusion_matrix (str) – Путь к директории для сохранения матрицы спутывания

  • figsize_confusion_matrix (Dict[str, int]) – Настройки для формирования изображения матрицы спутывания

  • path_to_model (str) – Путь к нейросетевой аудиовизуальной модели

  • out (bool) –

Результат:

True если автоматическое тестирование на аудиовизуальных данных произведено, в обратном случае False

Тип результата:

bool

train_audiovisual(subfolders: Dict[str, str], n_classes: int, classes: List[str], encoder_decoder: int, batch_size: int, max_segment: int, patience: int, epochs: int, seed: int, leaning_rate: float, weight_decay: float, optimizer: str, hidden_units: int, hidden_features: int, input_dim: int, shape_audio: Dict[str, int], shape_video: Dict[str, int], path_to_model_fa: str, path_to_model_fv: str, requires_grad: str, path_to_save_models: str, out: bool = True) bool[исходный код]

Автоматическое обучение на аудиовизуальных данных

Параметры:
  • subfolders (Dict[str, str]) – Словарь с подкаталогами с данными

  • n_classes (int) – Количество классов

  • classes (List[str]) – Список классов

  • encoder_decoder (int) – Количество энкодеров и декодеров

  • batch_size (int) – Размер батча

  • max_segment (int) – Максимальная длительность сегмента видео

  • patience (int) – Количество неудачных эпох

  • epochs (int) – Количество эпох

  • seed (int) – Начальное состояние обучения

  • leaning_rate (float) – Скорость обучения

  • weight_decay (float) – Скорость обучения

  • optimizer (str) – Оптимизатор

  • hidden_units (int) – Количество скрытых нейронов

  • hidden_features (int) – Количество скрытых признаков

  • input_dim (int) – Количество входных признаков

  • shape_audio (Dict[str, int]) – Входная размерность аудио лог-мел спектрограммы

  • shape_video (Dict[str, int]) – Входная размерность видеокадров

  • path_to_model_fa (str) – Путь к нейросетевой модели (аудио)

  • path_to_model_fv (str) – Путь к нейросетевой модели (видео)

  • path_to_save_models (str) – Путь к директории для сохранения моделей

  • requires_grad (str) – Заморозка слоев для извлечения ауди и видео признаков

  • out (bool) –

Результат:

True если автоматическое обучение на аудиовизуальных данных произведено, в обратном случае False

Тип результата:

bool