TRVFFmpegSpeechToTextProperty.BufferDuration

<< Нажмите, чтобы показать Содержание >>

TRVFFmpegSpeechToTextProperty.BufferDuration

Размер буфера распознавания речи в миллисекундах. Большее значение увеличивает задержку и может приводить к более длинным паузам, но в целом снижает нагрузку на систему и повышает качество распознавания.

property BufferDuration: Cardinal;

Максимальный объём аудиоданных, который накапливается в очереди перед передачей модели распознавания речи на обработку.

При небольшом значении аудиопоток обрабатывается чаще, однако качество распознавания снижается, а требуемая вычислительная мощность возрастает. При большом значении (например, 10000–20000) результаты распознавания будут более точными и потребуют меньше ресурсов CPU/GPU, но задержка получения результата увеличится, поэтому такие значения плохо подходят для обработки потоков в реальном времени.

Рекомендуется использовать большую величину BufferDuration совместно с включённой моделью VAD (обнаружения речевой активности).

Если значение этого свойства изменяется во время сеанса распознавания речи, новое значение не применяется в текущем сеансе. Оно будет использовано только при следующем запуске распознавания речи. См. также Active.

Значение по умолчанию:

3000 (3 секудны)