Мультимодальное объединение аудио- и видеомодальностей
-
Класс для сообщений
- Параметры:
path_to_logs (str) – Смотреть
path_to_logs
lang (str) – Смотреть
lang
Базовые классы:
AVMessages
Класс для мультимодального объединения аудио- и видеомодальностей
- Параметры:
path_to_logs (str) – Смотреть
path_to_logs
lang (str) – Смотреть
lang
Автоматическое тестирование на аудиовизуальных данных
- Параметры:
subfolders (Dict[str, str]) – Словарь с подкаталогами с данными
n_classes (int) – Количество классов
classes (List[str]) – Список классов
encoder_decoder (int) – Количество энкодеров и декодеров
max_segment (int) – Максимальная длительность сегмента видео
hidden_units (int) – Количество скрытых нейронов
hidden_features (int) – Количество скрытых признаков
input_dim (int) – Количество входных признаков
shape_audio (Dict[str, int]) – Входная размерность аудио лог-мел спектрограммы
shape_video (Dict[str, int]) – Входная размерность видеокадров
save_confusion_matrix (bool) – Сохранение матрицы спутывания
path_to_save_confusion_matrix (str) – Путь к директории для сохранения матрицы спутывания
figsize_confusion_matrix (Dict[str, int]) – Настройки для формирования изображения матрицы спутывания
path_to_model (str) – Путь к нейросетевой аудиовизуальной модели
out (bool) –
- Результат:
True если автоматическое тестирование на аудиовизуальных данных произведено, в обратном случае False
- Тип результата:
bool
Автоматическое обучение на аудиовизуальных данных
- Параметры:
subfolders (Dict[str, str]) – Словарь с подкаталогами с данными
n_classes (int) – Количество классов
classes (List[str]) – Список классов
encoder_decoder (int) – Количество энкодеров и декодеров
batch_size (int) – Размер батча
max_segment (int) – Максимальная длительность сегмента видео
patience (int) – Количество неудачных эпох
epochs (int) – Количество эпох
seed (int) – Начальное состояние обучения
leaning_rate (float) – Скорость обучения
weight_decay (float) – Скорость обучения
optimizer (str) – Оптимизатор
hidden_units (int) – Количество скрытых нейронов
hidden_features (int) – Количество скрытых признаков
input_dim (int) – Количество входных признаков
shape_audio (Dict[str, int]) – Входная размерность аудио лог-мел спектрограммы
shape_video (Dict[str, int]) – Входная размерность видеокадров
path_to_model_fa (str) – Путь к нейросетевой модели (аудио)
path_to_model_fv (str) – Путь к нейросетевой модели (видео)
path_to_save_models (str) – Путь к директории для сохранения моделей
requires_grad (str) – Заморозка слоев для извлечения ауди и видео признаков
out (bool) –
- Результат:
True если автоматическое обучение на аудиовизуальных данных произведено, в обратном случае False
- Тип результата:
bool