Аудио

class openav.modules.lab.audio.AudioMessages(path_to_logs: str = <property object>, lang: str = <property object>)[исходный код]

Базовые классы: Yaml

Класс для сообщений

Параметры:

path_to_logs (str) – Смотреть path_to_logs
lang (str) – Смотреть lang

class openav.modules.lab.audio.Audio(path_to_logs: str = <property object>, lang: str = <property object>)[исходный код]

Базовые классы: AudioMessages

Класс для обработки аудиомодальности

Параметры:

path_to_logs (str) – Смотреть path_to_logs
lang (str) – Смотреть lang

augmentation(depth: int = 1, crop_px_min: int = 0, crop_px_max: int = 0, crop_percent_min: float = 0, crop_percent_max: float = 0, flip_lr_probability: float = 0, flip_ud_probability: float = 0, blur_min: float = 0, blur_max: float = 0, scale_x_min: float = 0, scale_x_max: float = 0, scale_y_min: float = 0, scale_y_max: float = 0, rotate_min: int = -90, rotate_max: int = -90, contrast_min: float = -10.0, contrast_max: float = -10.0, alpha: float = 0, count: int = 1, clear_diraug: bool = False, out: bool = True) → bool[исходный код]

Аугментация аудиовизуальных сигналов

Параметры:

depth (int) – Глубина иерархии для получения данных
crop_px_min (int) – Обрезка в пикселях мин
crop_px_max (int) – Обрезка в пикселях макс
crop_percent_min (float) – Обрезка в процентах мин
crop_percent_max (float) – Обрезка в процентах макс
flip_lr_probability (float) – Вероятность отражения по вертикали
flip_ud_probability (float) – Вероятность отражения по горизонтали
blur_min (float) – Размытие мин
blur_max (float) – Размытие макс
scale_x_min (float) – Масштабирование Х мин
scale_x_max (float) – Масштабирование Х макс
scale_y_min (float) – Масштабирование Y мин
scale_y_max (float) – Масштабирование Y макс
rotate_min (int) – Поворот мин
rotate_max (int) – Поворот макс
contrast_min (float) – Контраст мин
contrast_max (float) – Контраст макс
alpha (float) – Альфа для MixUp
count (int) – Количество применений аугментации
clear_diraug (bool) – Очистка директории для сохранения аугментированных аудиовизуальных сигналов
out (bool) – Отображение

Результат:

True если аугментация аудиовизуальных сигналов произведено, в обратном случае False

Тип результата:

bool

Добавлено в версии 0.1.0.

Изменено в версии 0.1.1.

Не рекомендуется, начиная с версии 0.1.0.

preprocess_audio(depth: int = 1, sample_rate: int = 16000, n_fft: int = 2048, hop_length: int = 512, n_mels: int = 128, power: float = 2.0, pad_mode: str = 'reflect', norm: str = 'slaney', center: bool = True, dpi: int = 1200, color_gradients: str = 'magma', save_raw_data: bool = True, clear_dir_audio: bool = False, out: bool = True) → bool[исходный код]

Предобработка речевых аудиоданных

Параметры:

depth (int) – Глубина иерархии для получения данных
sample_rate (int) – Частота дискретизации
n_fft (int) – Размер параметра FFT
hop_length (int) – Длина перехода между окнами STFT
n_mels (int) – Количество фильтроблоков mel
power (float) – Показатель степени магнитудной спектрограммы
pad_mode (str) – Управление оступами
norm (str) – Коэффициенты треугольных mel-фильтров делятся на ширину соответствующих mel-полос
center (bool) – Отступы с обеих сторон относительно центра аудиодорожки
dpi (int) – DPI
color_gradients (str) – Градиент для спектрограммы
save_raw_data (bool) – Сохранение сырых данных мел-спектрограммы в формате .npy
clear_dir_audio (bool) – Очистка директории для сохранения аудиоданных после предобработки
out (bool) –

Результат:

True если предобработка речевых аудиоданных произведено, в обратном случае False

Тип результата:

bool

vad(depth: int = 1, type_encode: str = 'crf', crf_value: int = 23, presets_crf_encode: str = 'medium', sr_input_type: str = 'audio', sampling_rate: int = 16000, threshold: float = 0.56, min_speech_duration_ms: int = 250, min_silence_duration_ms: int = 50, window_size_samples: int = 1536, speech_pad_ms: int = 150, force_reload: bool = True, clear_dirvad: bool = False, out: bool = True) → bool[исходный код]

VAD (Voice Activity Detector) или (детектирование голосовой активности)

Параметры:

depth (int) – Глубина иерархии для получения данных
type_encode (str) – Тип кодирования
crf_value (int) – Качество кодирования (от 0 до 51)
presets_crf_encode (str) – Скорость кодирования и сжатия
sr_input_type (str) – Тип файлов для распознавания речи
sampling_rate (int) – Частота дискретизации (8000 или 16000)
threshold (float) – Порог вероятности речи (от 0.0 до 1.0)
min_speech_duration_ms (int) – Минимальная длительность речевого фрагмента в миллисекундах
min_silence_duration_ms (int) – Минимальная длительность тишины в выборках между отдельными речевыми фрагментами
window_size_samples (int) – Количество выборок в каждом окне (512, 1024, 1536 для частоты дискретизации 16000 или 256, 512, 768 для частоты дискретизации 8000)
speech_pad_ms (int) – Внутренние отступы для итоговых речевых фрагментов
force_reload (bool) – Принудительная загрузка модели из сети
clear_dirvad (bool) – Очистка директории для сохранения фрагментов аудиовизуального сигнала
out (bool) – Отображение

Результат:

True если детектирование голосовой активности произведено, в обратном случае False

Тип результата:

bool

Добавлено в версии 0.1.0.

Изменено в версии 0.1.1.

Не рекомендуется, начиная с версии 0.1.0.

vosk(new_name: str | None = None, force_reload: bool = True, out: bool = True) → bool[исходный код]

Загрузка и активация модели Vosk для детектирования голосовой активности и распознавания речи

Параметры:

new_name (str) – Имя директории для разархивирования
force_reload (bool) – Принудительная загрузка модели из сети
out (bool) –

Результат:

True если модель Vosk загружена и активирована, в обратном случае False

Тип результата:

bool

property vosk_dict_language_sr: str

Получение/установка размера словаря для распознавания речи

Параметры:: (str) – Размер словаря
Результат:: Размер словаря
Тип результата:: str

property vosk_language_sr: str

Получение/установка языка для распознавания речи

Параметры:: (str) – Язык
Результат:: Язык
Тип результата:: str

vosk_sr(depth: int = 1, type_encode: str = 'crf', crf_value: int = 23, presets_crf_encode: str = 'medium', new_name: str | None = None, speech_left_pad_ms: int = 0, speech_right_pad_ms: int = 0, force_reload: bool = True, clear_dirvosk_sr: bool = False, out: bool = True) → bool[исходный код]

VAD + SR (Voice Activity Detector + Speech Recognition) или (детектирование голосовой активности и распознавание речи)

Параметры:

depth (int) – Глубина иерархии для получения данных
type_encode (str) – Тип кодирования
crf_value (int) – Качество кодирования (от 0 до 51)
presets_crf_encode (str) – Скорость кодирования и сжатия
new_name (str) – Имя директории для разархивирования
speech_left_pad_ms (int) – Внутренний левый отступ для итоговых речевых фрагментов
speech_right_pad_ms (int) – Внутренний правый отступ для итоговых речевых фрагментов
force_reload (bool) – Принудительная загрузка модели из сети
clear_dirvosk_sr (bool) – Очистка директории для сохранения фрагментов аудиовизуального сигнала
out (bool) –

Результат:

True если детектирование голосовой активности и распознавание речи произведено, в обратном случае False

Тип результата:

bool