TRVFFmpegSpeechToTextProperty.VADModelFileName и др.

Свойства, управляющие работой VAD (Voice Activity Detection – обнаружения речевой активности).

property VADModelFileName: TFileName;
property VADThreshold: Cardinal;
property VADMinSpeechDuration: Cardinal;
property VADMinSilenceDuration: Cardinal;

VADModelFileName – путь к файлу модели VAD. Если свойство задано, будет использоваться дополнительный модуль обнаружения речевой активности (VAD).

Модели VAD можно скачать по адресу: https://huggingface.co/ggml-org/whisper-vad/tree/main

Дополнительная информация: https://github.com/snakers4/silero-vad.

Модели VAD используются для обнаружения фрагментов аудио, содержащих речь, и запуска распознавания только для этих фрагментов. Это даёт два основных преимущества:

•снижает нагрузку на CPU/GPU;

•помогает предотвратить галлюцинации модели распознавания речи, когда модель может генерировать фразы, отсутствующие в аудио, если входной сигнал состоит преимущественно из шума.

С другой стороны, использование моделей VAD требует накопления значительно большего объёма аудиоданных перед обработкой (то есть более высоких значений свойства BufferDuration, например 20000). Это увеличивает задержку перед появлением распознанного текста.

VADThreshold – порог срабатывания VAD в диапазоне от 0 до 100.

VADMinSpeechDuration – минимальная продолжительность речевого сегмента в миллисекундах (минимальное значение – 20).

VADMinSilenceDuration – минимальная продолжительность паузы (тишины) в миллисекундах (минимальное значение – 0).

Если значения этих свойств изменяются во время сеанса распознавания речи, новые значения не применяются в текущем сеансе. Они будут использованы только при следующем запуске распознавания речи. См. также Active.

Значения по умолчанию:

•VADModelFileName: '' (empty string)

•VADThreshold: 50

•VADMinSpeechDuration: 100

•VADMinSilenceDuration: 500

TRVFFmpegSpeechToTextProperty.VADModelFileName, VADThreshold, VADMinSpeechDuration, VADMinSilenceDuration

TRVFFmpegSpeechToTextProperty.VADModelFileName, VADThreshold, VADMinSpeechDuration, VADMinSilenceDuration