|
<< Нажмите, чтобы показать Содержание >> TRVFFmpegSpeechToTextProperty.VADModelFileName, VADThreshold, VADMinSpeechDuration, VADMinSilenceDuration |
Свойства, управляющие работой VAD (Voice Activity Detection – обнаружения речевой активности).
property VADModelFileName: TFileName;
property VADThreshold: Cardinal;
property VADMinSpeechDuration: Cardinal;
property VADMinSilenceDuration: Cardinal;
VADModelFileName – путь к файлу модели VAD. Если свойство задано, будет использоваться дополнительный модуль обнаружения речевой активности (VAD).
Модели VAD можно скачать по адресу: https://huggingface.co/ggml-org/whisper-vad/tree/main
Дополнительная информация: https://github.com/snakers4/silero-vad.
Модели VAD используются для обнаружения фрагментов аудио, содержащих речь, и запуска распознавания только для этих фрагментов. Это даёт два основных преимущества:
•снижает нагрузку на CPU/GPU;
•помогает предотвратить галлюцинации модели распознавания речи, когда модель может генерировать фразы, отсутствующие в аудио, если входной сигнал состоит преимущественно из шума.
С другой стороны, использование моделей VAD требует накопления значительно большего объёма аудиоданных перед обработкой (то есть более высоких значений свойства BufferDuration, например 20000). Это увеличивает задержку перед появлением распознанного текста.
VADThreshold – порог срабатывания VAD в диапазоне от 0 до 100.
VADMinSpeechDuration – минимальная продолжительность речевого сегмента в миллисекундах (минимальное значение – 20).
VADMinSilenceDuration – минимальная продолжительность паузы (тишины) в миллисекундах (минимальное значение – 0).
Если значения этих свойств изменяются во время сеанса распознавания речи, новые значения не применяются в текущем сеансе. Они будут использованы только при следующем запуске распознавания речи. См. также Active.
Значения по умолчанию:
•VADModelFileName: '' (empty string)
•VADThreshold: 50
•VADMinSpeechDuration: 100
•VADMinSilenceDuration: 500