Аудио
Базовые классы:
Yaml
Класс для сообщений
- Параметры:
path_to_logs (str) – Смотреть
path_to_logs
lang (str) – Смотреть
lang
Базовые классы:
AudioMessages
Класс для обработки аудиомодальности
- Параметры:
path_to_logs (str) – Смотреть
path_to_logs
lang (str) – Смотреть
lang
Аугментация аудиовизуальных сигналов
- Параметры:
depth (int) – Глубина иерархии для получения данных
crop_px_min (int) – Обрезка в пикселях мин
crop_px_max (int) – Обрезка в пикселях макс
crop_percent_min (float) – Обрезка в процентах мин
crop_percent_max (float) – Обрезка в процентах макс
flip_lr_probability (float) – Вероятность отражения по вертикали
flip_ud_probability (float) – Вероятность отражения по горизонтали
blur_min (float) – Размытие мин
blur_max (float) – Размытие макс
scale_x_min (float) – Масштабирование Х мин
scale_x_max (float) – Масштабирование Х макс
scale_y_min (float) – Масштабирование Y мин
scale_y_max (float) – Масштабирование Y макс
rotate_min (int) – Поворот мин
rotate_max (int) – Поворот макс
contrast_min (float) – Контраст мин
contrast_max (float) – Контраст макс
alpha (float) – Альфа для MixUp
count (int) – Количество применений аугментации
clear_diraug (bool) – Очистка директории для сохранения аугментированных аудиовизуальных сигналов
out (bool) – Отображение
- Результат:
True если аугментация аудиовизуальных сигналов произведено, в обратном случае False
- Тип результата:
bool
Добавлено в версии 0.1.0.
Изменено в версии 0.1.1.
Не рекомендуется, начиная с версии 0.1.0.
Предобработка речевых аудиоданных
- Параметры:
depth (int) – Глубина иерархии для получения данных
sample_rate (int) – Частота дискретизации
n_fft (int) – Размер параметра FFT
hop_length (int) – Длина перехода между окнами STFT
n_mels (int) – Количество фильтроблоков mel
power (float) – Показатель степени магнитудной спектрограммы
pad_mode (str) – Управление оступами
norm (str) – Коэффициенты треугольных mel-фильтров делятся на ширину соответствующих mel-полос
center (bool) – Отступы с обеих сторон относительно центра аудиодорожки
dpi (int) – DPI
color_gradients (str) – Градиент для спектрограммы
save_raw_data (bool) – Сохранение сырых данных мел-спектрограммы в формате .npy
clear_dir_audio (bool) – Очистка директории для сохранения аудиоданных после предобработки
out (bool) –
- Результат:
True если предобработка речевых аудиоданных произведено, в обратном случае False
- Тип результата:
bool
VAD (Voice Activity Detector) или (детектирование голосовой активности)
- Параметры:
depth (int) – Глубина иерархии для получения данных
type_encode (str) – Тип кодирования
crf_value (int) – Качество кодирования (от 0 до 51)
presets_crf_encode (str) – Скорость кодирования и сжатия
sr_input_type (str) – Тип файлов для распознавания речи
sampling_rate (int) – Частота дискретизации (8000 или 16000)
threshold (float) – Порог вероятности речи (от 0.0 до 1.0)
min_speech_duration_ms (int) – Минимальная длительность речевого фрагмента в миллисекундах
min_silence_duration_ms (int) – Минимальная длительность тишины в выборках между отдельными речевыми фрагментами
window_size_samples (int) – Количество выборок в каждом окне (512, 1024, 1536 для частоты дискретизации 16000 или 256, 512, 768 для частоты дискретизации 8000)
speech_pad_ms (int) – Внутренние отступы для итоговых речевых фрагментов
force_reload (bool) – Принудительная загрузка модели из сети
clear_dirvad (bool) – Очистка директории для сохранения фрагментов аудиовизуального сигнала
out (bool) – Отображение
- Результат:
True если детектирование голосовой активности произведено, в обратном случае False
- Тип результата:
bool
Добавлено в версии 0.1.0.
Изменено в версии 0.1.1.
Не рекомендуется, начиная с версии 0.1.0.
Загрузка и активация модели Vosk для детектирования голосовой активности и распознавания речи
- Параметры:
new_name (str) – Имя директории для разархивирования
force_reload (bool) – Принудительная загрузка модели из сети
out (bool) –
- Результат:
True если модель Vosk загружена и активирована, в обратном случае False
- Тип результата:
bool
Получение/установка размера словаря для распознавания речи
- Параметры:
(str) – Размер словаря
- Результат:
Размер словаря
- Тип результата:
str
Получение/установка языка для распознавания речи
- Параметры:
(str) – Язык
- Результат:
Язык
- Тип результата:
str
VAD + SR (Voice Activity Detector + Speech Recognition) или (детектирование голосовой активности и распознавание речи)
- Параметры:
depth (int) – Глубина иерархии для получения данных
type_encode (str) – Тип кодирования
crf_value (int) – Качество кодирования (от 0 до 51)
presets_crf_encode (str) – Скорость кодирования и сжатия
new_name (str) – Имя директории для разархивирования
speech_left_pad_ms (int) – Внутренний левый отступ для итоговых речевых фрагментов
speech_right_pad_ms (int) – Внутренний правый отступ для итоговых речевых фрагментов
force_reload (bool) – Принудительная загрузка модели из сети
clear_dirvosk_sr (bool) – Очистка директории для сохранения фрагментов аудиовизуального сигнала
out (bool) –
- Результат:
True если детектирование голосовой активности и распознавание речи произведено, в обратном случае False
- Тип результата:
bool