Модуль предобработки речевых аудиоданных

Модуль выполняет предобработку речевых аудиоданных, в данном случае извлекается спектрограмма из исходной аудиодорожки. Команда для запуска предобработки речевых аудиоданных:

openav_preprocess_audio --config <путь_к_вашему_конфигурационному_файлу>.yaml

Важно

Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена.

Конфигурационный файл

Конфигурационный файл включает в себя следующие настройки:

  • Отображение процесса выполнения программы в терминале (командной строке)

  • Работа с файловой системой

  • Параметры предобработки речевых аудиоданных

Отображение процесса выполнения команды в терминале

Параметр

Тип

Значение по умолчанию

Описание

hide_metadata

bool

false

Включение отображения метаданных

hide_libs_vers

bool

false

Включение отображения версий установленных библиотек в командной строке

Работа с файловой системой

Параметр

Тип

Значение по умолчанию

Описание

path_to_dataset

str

<путь_к_исходным_данным>

Директория, где находятся данные, которые необходимо загрузить или проверить

path_to_dataset_audio

str

<путь_к_конечным_данным>

Директория, в которую будут сохраняться аудиоданные после предобработки

depth

int

1

Глубина иерархии для получения данных. Указывается количество подкаталогов в директории path_to_dataset

ext_search_files

list

["mov", "mp4",
"webm", "wav"]

Список расширений файлов, которые будут обрабатываться. Указывать можно как для видео, так и для аудио

clear_dir_audio

bool

true

Предварительная очистка директории с предобработанными аудиоданными

save_raw_data

bool

true

Сохранение данных в формате numpy

Параметры предобработки речевых аудиоданных

Параметр

Тип

Значение по умолчанию

Описание

sampling_rate

int

16000

Частота дискретизации аудиосигнала. Доступные значения 16000; 22050; 44100; 48000

n_fft

int

2048

Размер параметра FFT, создает n_fft // 2 + 1 бин. Допустимы значения в пределе от 256 до 2048

hop_length

int

512

Длина перехода между окнами STFT. Допустимы значения в пределе от 64 до 512

n_mels

int

128

Количество фильтроблоков mel. Допустимы значения в пределе от 20 до 512

power

float

2.0

Показатель степени магнитудной спектрограммы. Должен быть либо 1.0, либо 2.0

center

bool

true

Включение установки отступов с обеих сторон относительно центральной части аудиодорожки

pad_mode

str

reflect

Управление оступами, применяется когда значение параметра center = True. Доступные значения constant, reflect, replicate, circular. По умолчанию reflect

norm

str

slaney

Нормализация площади. Отношение треугольных мел-весов к ширине мел-зоны

dpi

int

600

Качество изображения спектрограммы. Доступные значения 72; 96; 150; 300; 600; 1200

color_gradients

str

magma

Выбор цветовой схемы итогового изображения спектрограммы. Доступные значения viridis, plasma, inferno, magma, cividis