Модуль предобработки речевых аудиоданных
Модуль выполняет предобработку речевых аудиоданных, в данном случае извлекается спектрограмма из исходной аудиодорожки. Команда для запуска предобработки речевых аудиоданных:
openav_preprocess_audio --config <путь_к_вашему_конфигурационному_файлу>.yaml
Важно
Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена.
Конфигурационный файл
Конфигурационный файл включает в себя следующие настройки:
Отображение процесса выполнения программы в терминале (командной строке)
Работа с файловой системой
Параметры предобработки речевых аудиоданных
Отображение процесса выполнения команды в терминале
Параметр |
Тип |
Значение по умолчанию |
Описание |
---|---|---|---|
hide_metadata |
bool |
|
Включение отображения метаданных |
hide_libs_vers |
bool |
|
Включение отображения версий установленных библиотек в командной строке |
Работа с файловой системой
Параметр |
Тип |
Значение по умолчанию |
Описание |
---|---|---|---|
path_to_dataset |
str |
|
Директория, где находятся данные, которые необходимо загрузить или проверить |
path_to_dataset_audio |
str |
|
Директория, в которую будут сохраняться аудиоданные после предобработки |
depth |
int |
|
Глубина иерархии для получения данных. Указывается количество подкаталогов в директории |
ext_search_files |
list |
|
Список расширений файлов, которые будут обрабатываться. Указывать можно как для видео, так и для аудио |
clear_dir_audio |
bool |
|
Предварительная очистка директории с предобработанными аудиоданными |
save_raw_data |
bool |
|
Сохранение данных в формате numpy |
Параметры предобработки речевых аудиоданных
Параметр |
Тип |
Значение по умолчанию |
Описание |
---|---|---|---|
sampling_rate |
int |
|
Частота дискретизации аудиосигнала. Доступные значения |
n_fft |
int |
|
Размер параметра FFT, создает |
hop_length |
int |
|
Длина перехода между окнами STFT. Допустимы значения в пределе от |
n_mels |
int |
|
Количество фильтроблоков mel. Допустимы значения в пределе от |
power |
float |
|
Показатель степени магнитудной спектрограммы. Должен быть либо |
center |
bool |
|
Включение установки отступов с обеих сторон относительно центральной части аудиодорожки |
pad_mode |
str |
|
Управление оступами, применяется когда значение параметра |
norm |
str |
|
Нормализация площади. Отношение треугольных мел-весов к ширине мел-зоны |
dpi |
int |
|
Качество изображения спектрограммы. Доступные значения |
color_gradients |
str |
|
Выбор цветовой схемы итогового изображения спектрограммы. Доступные значения |