Модуль предобработки речевых видеоданных

Модуль выполняет предобработку речевых видеоданных, в данном случае извлекаются области губ из исходных видеокадров. Команда для запуска предобработки речевых видеоданных:

openav_preprocess_video --config <путь_к_вашему_конфигурационному_файлу>.yaml

Важно

Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена.

Конфигурационный файл

Конфигурационный файл включает в себя следующие настройки:

  • Отображение процесса выполнения программы в терминале (командной строке)

  • Работа с файловой системой

  • Параметры предобработки речевых видеоданных

Отображение процесса выполнения команды в терминале

Параметр

Тип

Значение по умолчанию

Описание

hide_metadata

bool

false

Включение отображения метаданных

hide_libs_vers

bool

false

Включение отображения версий установленных библиотек в командной строке

Работа с файловой системой

Параметр

Тип

Значение по умолчанию

Описание

path_to_dataset

str

<путь_к_исходным_данным>

Директория, где находятся данные, которые необходимо загрузить или проверить

path_to_dataset_video

str

<путь_к_конечным_данным>

Директория, в которую будут сохраняться данные после предобработки

depth

int

2

Глубина иерархии для получения данных. Указывается количество подкаталогов в директории path_to_dataset

ext_search_files

list

["mov", "mp4",
"webm"]

Список расширений файлов, которые будут обрабатываться.

clear_dir_video

bool

true

Предварительная очистка директории с предобработанными видеоданными

save_raw_data

bool

true

Сохранение данных в формате numpy

Параметры предобработки речевых видеоданных

Параметр

Тип

Значение по умолчанию

Описание

dpi

int

600

Качество изображения. Доступные значения 72; 96; 150; 300; 600; 1200

resize

bool

true

Разрешить изменять полученное изображение. Этот параметр активирует следующие параметры: width, height, resize_resample. При значении false изменение изображения заблокировано

resize_resample

str

nearest

Фильтры применяемые для масштабирования конечного изображения. Доступные значения nearest, bilinear, lanczos

width

int

112

Ширина изображения извлеченной области губ

height

int

112

Высота изображения извлеченной области губ

color_mode

str

rgb

Цветовая гамма конечного изображения. Доступные значения: gray - изображение в градациях серого; rgb - изображение в цветном формате