Модуль распознавания визуальной речи

Команда для запуска модуля распознавания визуальной речи:

python ./openav/api/test_video.py --config <путь_к_вашему_конфигурационному_файлу>.yaml

Важно

Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена.

Конфигурационный файл

Конфигурационный файл включает в себя следующие настройки:

Параметр	Тип	Значение по умолчанию	Описание
hide_metadata	bool	`false`	Включение отображения метаданных
hide_libs_vers	bool	`false`	Включение отображения версий установленных библиотек в командной строке

Параметр	Тип	Значение по умолчанию	Описание
path_to_dataset	str	`<путь_к_набору_данных>`	Директория, где размещается подготовленный набор данных для тестирования обученных нейросетевых моделей
path_to_model	str	`<путь_к_моделям>`	Директория, где размещаются обученные нейросетевые модели
depth	int	`3`	Глубина иерархии для получения данных. Указывается количество подкаталогов в директории `path_to_dataset`
ext_search_files	list	`["mov", "mp4", "webm"]`	Список расширений файлов, которые будут обрабатываться

Параметр	Тип	Значение по умолчанию	Описание
size_lips	int	`width: 112` `height: 112`	Размер входного изображения области губ в `px`
channels_lips	int	`1`	Количество каналов изображения. `1`- одноканальное изображение (в серых тонах), `3` - трёхканальное изображение (RGB)
metric	str	`accuracy`	Метрика, в соответствии с которой будет вывод результатов тестирования обученных нейросетевых моделей