Мультимодальное объединение аудио- и видеомодальностей

class openav.modules.lab.audiovisual.AVMessages(path_to_logs: str = <property object>, lang: str = <property object>)[исходный код]

Базовые классы: Audio, Video

Класс для сообщений

Параметры:

path_to_logs (str) – Смотреть path_to_logs
lang (str) – Смотреть lang

class openav.modules.lab.audiovisual.AV(path_to_logs: str = <property object>, lang: str = <property object>)[исходный код]

Базовые классы: AVMessages

Класс для мультимодального объединения аудио- и видеомодальностей

Параметры:

path_to_logs (str) – Смотреть path_to_logs
lang (str) – Смотреть lang

test_audiovisual(subfolders: Dict[str, str], n_classes: int, classes: List[str], encoder_decoder: int, max_segment: int, hidden_units: int, hidden_features: int, input_dim: int, shape_audio: Dict[str, int], shape_video: Dict[str, int], save_confusion_matrix: bool, path_to_save_confusion_matrix: str, figsize_confusion_matrix: Dict[str, int], path_to_model: str, out: bool = True) → bool[исходный код]

Автоматическое тестирование на аудиовизуальных данных

Параметры:

subfolders (Dict[str, str]) – Словарь с подкаталогами с данными
n_classes (int) – Количество классов
classes (List[str]) – Список классов
encoder_decoder (int) – Количество энкодеров и декодеров
max_segment (int) – Максимальная длительность сегмента видео
hidden_units (int) – Количество скрытых нейронов
hidden_features (int) – Количество скрытых признаков
input_dim (int) – Количество входных признаков
shape_audio (Dict[str, int]) – Входная размерность аудио лог-мел спектрограммы
shape_video (Dict[str, int]) – Входная размерность видеокадров
save_confusion_matrix (bool) – Сохранение матрицы спутывания
path_to_save_confusion_matrix (str) – Путь к директории для сохранения матрицы спутывания
figsize_confusion_matrix (Dict[str, int]) – Настройки для формирования изображения матрицы спутывания
path_to_model (str) – Путь к нейросетевой аудиовизуальной модели
out (bool) –

Результат:

True если автоматическое тестирование на аудиовизуальных данных произведено, в обратном случае False

Тип результата:

bool

train_audiovisual(subfolders: Dict[str, str], n_classes: int, classes: List[str], encoder_decoder: int, batch_size: int, max_segment: int, patience: int, epochs: int, seed: int, leaning_rate: float, weight_decay: float, optimizer: str, hidden_units: int, hidden_features: int, input_dim: int, shape_audio: Dict[str, int], shape_video: Dict[str, int], path_to_model_fa: str, path_to_model_fv: str, requires_grad: str, path_to_save_models: str, out: bool = True) → bool[исходный код]

Автоматическое обучение на аудиовизуальных данных

Параметры:

subfolders (Dict[str, str]) – Словарь с подкаталогами с данными
n_classes (int) – Количество классов
classes (List[str]) – Список классов
encoder_decoder (int) – Количество энкодеров и декодеров
batch_size (int) – Размер батча
max_segment (int) – Максимальная длительность сегмента видео
patience (int) – Количество неудачных эпох
epochs (int) – Количество эпох
seed (int) – Начальное состояние обучения
leaning_rate (float) – Скорость обучения
weight_decay (float) – Скорость обучения
optimizer (str) – Оптимизатор
hidden_units (int) – Количество скрытых нейронов
hidden_features (int) – Количество скрытых признаков
input_dim (int) – Количество входных признаков
shape_audio (Dict[str, int]) – Входная размерность аудио лог-мел спектрограммы
shape_video (Dict[str, int]) – Входная размерность видеокадров
path_to_model_fa (str) – Путь к нейросетевой модели (аудио)
path_to_model_fv (str) – Путь к нейросетевой модели (видео)
path_to_save_models (str) – Путь к директории для сохранения моделей
requires_grad (str) – Заморозка слоев для извлечения ауди и видео признаков
out (bool) –

Результат:

True если автоматическое обучение на аудиовизуальных данных произведено, в обратном случае False

Тип результата:

bool