Аудио

class openav.modules.lab.audio.AudioMessages(path_to_logs: str = <property object>, lang: str = <property object>)[исходный код]

Базовые классы: Yaml

Класс для сообщений

Параметры:
  • path_to_logs (str) – Смотреть path_to_logs

  • lang (str) – Смотреть lang

class openav.modules.lab.audio.Audio(path_to_logs: str = <property object>, lang: str = <property object>)[исходный код]

Базовые классы: AudioMessages

Класс для обработки аудиомодальности

Параметры:
  • path_to_logs (str) – Смотреть path_to_logs

  • lang (str) – Смотреть lang

augmentation(depth: int = 1, crop_px_min: int = 0, crop_px_max: int = 0, crop_percent_min: float = 0, crop_percent_max: float = 0, flip_lr_probability: float = 0, flip_ud_probability: float = 0, blur_min: float = 0, blur_max: float = 0, scale_x_min: float = 0, scale_x_max: float = 0, scale_y_min: float = 0, scale_y_max: float = 0, rotate_min: int = -90, rotate_max: int = -90, contrast_min: float = -10.0, contrast_max: float = -10.0, alpha: float = 0, count: int = 1, clear_diraug: bool = False, out: bool = True) bool[исходный код]

Аугментация аудиовизуальных сигналов

Параметры:
  • depth (int) – Глубина иерархии для получения данных

  • crop_px_min (int) – Обрезка в пикселях мин

  • crop_px_max (int) – Обрезка в пикселях макс

  • crop_percent_min (float) – Обрезка в процентах мин

  • crop_percent_max (float) – Обрезка в процентах макс

  • flip_lr_probability (float) – Вероятность отражения по вертикали

  • flip_ud_probability (float) – Вероятность отражения по горизонтали

  • blur_min (float) – Размытие мин

  • blur_max (float) – Размытие макс

  • scale_x_min (float) – Масштабирование Х мин

  • scale_x_max (float) – Масштабирование Х макс

  • scale_y_min (float) – Масштабирование Y мин

  • scale_y_max (float) – Масштабирование Y макс

  • rotate_min (int) – Поворот мин

  • rotate_max (int) – Поворот макс

  • contrast_min (float) – Контраст мин

  • contrast_max (float) – Контраст макс

  • alpha (float) – Альфа для MixUp

  • count (int) – Количество применений аугментации

  • clear_diraug (bool) – Очистка директории для сохранения аугментированных аудиовизуальных сигналов

  • out (bool) – Отображение

Результат:

True если аугментация аудиовизуальных сигналов произведено, в обратном случае False

Тип результата:

bool

Добавлено в версии 0.1.0.

Изменено в версии 0.1.1.

Не рекомендуется, начиная с версии 0.1.0.

preprocess_audio(depth: int = 1, sample_rate: int = 16000, n_fft: int = 2048, hop_length: int = 512, n_mels: int = 128, power: float = 2.0, pad_mode: str = 'reflect', norm: str = 'slaney', center: bool = True, dpi: int = 1200, color_gradients: str = 'magma', save_raw_data: bool = True, clear_dir_audio: bool = False, out: bool = True) bool[исходный код]

Предобработка речевых аудиоданных

Параметры:
  • depth (int) – Глубина иерархии для получения данных

  • sample_rate (int) – Частота дискретизации

  • n_fft (int) – Размер параметра FFT

  • hop_length (int) – Длина перехода между окнами STFT

  • n_mels (int) – Количество фильтроблоков mel

  • power (float) – Показатель степени магнитудной спектрограммы

  • pad_mode (str) – Управление оступами

  • norm (str) – Коэффициенты треугольных mel-фильтров делятся на ширину соответствующих mel-полос

  • center (bool) – Отступы с обеих сторон относительно центра аудиодорожки

  • dpi (int) – DPI

  • color_gradients (str) – Градиент для спектрограммы

  • save_raw_data (bool) – Сохранение сырых данных мел-спектрограммы в формате .npy

  • clear_dir_audio (bool) – Очистка директории для сохранения аудиоданных после предобработки

  • out (bool) –

Результат:

True если предобработка речевых аудиоданных произведено, в обратном случае False

Тип результата:

bool

vad(depth: int = 1, type_encode: str = 'crf', crf_value: int = 23, presets_crf_encode: str = 'medium', sr_input_type: str = 'audio', sampling_rate: int = 16000, threshold: float = 0.56, min_speech_duration_ms: int = 250, min_silence_duration_ms: int = 50, window_size_samples: int = 1536, speech_pad_ms: int = 150, force_reload: bool = True, clear_dirvad: bool = False, out: bool = True) bool[исходный код]

VAD (Voice Activity Detector) или (детектирование голосовой активности)

Параметры:
  • depth (int) – Глубина иерархии для получения данных

  • type_encode (str) – Тип кодирования

  • crf_value (int) – Качество кодирования (от 0 до 51)

  • presets_crf_encode (str) – Скорость кодирования и сжатия

  • sr_input_type (str) – Тип файлов для распознавания речи

  • sampling_rate (int) – Частота дискретизации (8000 или 16000)

  • threshold (float) – Порог вероятности речи (от 0.0 до 1.0)

  • min_speech_duration_ms (int) – Минимальная длительность речевого фрагмента в миллисекундах

  • min_silence_duration_ms (int) – Минимальная длительность тишины в выборках между отдельными речевыми фрагментами

  • window_size_samples (int) – Количество выборок в каждом окне (512, 1024, 1536 для частоты дискретизации 16000 или 256, 512, 768 для частоты дискретизации 8000)

  • speech_pad_ms (int) – Внутренние отступы для итоговых речевых фрагментов

  • force_reload (bool) – Принудительная загрузка модели из сети

  • clear_dirvad (bool) – Очистка директории для сохранения фрагментов аудиовизуального сигнала

  • out (bool) – Отображение

Результат:

True если детектирование голосовой активности произведено, в обратном случае False

Тип результата:

bool

Добавлено в версии 0.1.0.

Изменено в версии 0.1.1.

Не рекомендуется, начиная с версии 0.1.0.

vosk(new_name: str | None = None, force_reload: bool = True, out: bool = True) bool[исходный код]

Загрузка и активация модели Vosk для детектирования голосовой активности и распознавания речи

Параметры:
  • new_name (str) – Имя директории для разархивирования

  • force_reload (bool) – Принудительная загрузка модели из сети

  • out (bool) –

Результат:

True если модель Vosk загружена и активирована, в обратном случае False

Тип результата:

bool

property vosk_dict_language_sr: str

Получение/установка размера словаря для распознавания речи

Параметры:

(str) – Размер словаря

Результат:

Размер словаря

Тип результата:

str

property vosk_language_sr: str

Получение/установка языка для распознавания речи

Параметры:

(str) – Язык

Результат:

Язык

Тип результата:

str

vosk_sr(depth: int = 1, type_encode: str = 'crf', crf_value: int = 23, presets_crf_encode: str = 'medium', new_name: str | None = None, speech_left_pad_ms: int = 0, speech_right_pad_ms: int = 0, force_reload: bool = True, clear_dirvosk_sr: bool = False, out: bool = True) bool[исходный код]

VAD + SR (Voice Activity Detector + Speech Recognition) или (детектирование голосовой активности и распознавание речи)

Параметры:
  • depth (int) – Глубина иерархии для получения данных

  • type_encode (str) – Тип кодирования

  • crf_value (int) – Качество кодирования (от 0 до 51)

  • presets_crf_encode (str) – Скорость кодирования и сжатия

  • new_name (str) – Имя директории для разархивирования

  • speech_left_pad_ms (int) – Внутренний левый отступ для итоговых речевых фрагментов

  • speech_right_pad_ms (int) – Внутренний правый отступ для итоговых речевых фрагментов

  • force_reload (bool) – Принудительная загрузка модели из сети

  • clear_dirvosk_sr (bool) – Очистка директории для сохранения фрагментов аудиовизуального сигнала

  • out (bool) –

Результат:

True если детектирование голосовой активности и распознавание речи произведено, в обратном случае False

Тип результата:

bool