Модуль распознавания визуальной речи

Команда для запуска модуля распознавания визуальной речи:

python ./openav/api/test_video.py --config <путь_к_вашему_конфигурационному_файлу>.yaml

Важно

Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена.

Конфигурационный файл

Конфигурационный файл включает в себя следующие настройки:

  • Отображение процесса выполнения программы в терминале (командной строке)

  • Работа с файловой системой

  • Параметры процесса распознавания визуальной речи

Отображение процесса выполнения команды в терминале

Параметр

Тип

Значение по умолчанию

Описание

hide_metadata

bool

false

Включение отображения метаданных

hide_libs_vers

bool

false

Включение отображения версий установленных библиотек в командной строке

Работа с файловой системой

Параметр

Тип

Значение по умолчанию

Описание

path_to_dataset

str

<путь_к_набору_данных>

Директория, где размещается подготовленный набор данных для тестирования обученных нейросетевых моделей

path_to_model

str

<путь_к_моделям>

Директория, где размещаются обученные нейросетевые модели

depth

int

3

Глубина иерархии для получения данных. Указывается количество подкаталогов в директории path_to_dataset

ext_search_files

list

["mov", "mp4", "webm"]

Список расширений файлов, которые будут обрабатываться

Параметры процесса распознавания визуальной речи

Параметр

Тип

Значение по умолчанию

Описание

size_lips

int

width: 112
height: 112

Размер входного изображения области губ в px

channels_lips

int

1

Количество каналов изображения. 1- одноканальное изображение (в серых тонах), 3 - трёхканальное изображение (RGB)

metric

str

accuracy

Метрика, в соответствии с которой будет вывод результатов тестирования обученных нейросетевых моделей