Распознавание речи
Определение
Распознавание речи (ASR) — технология AI для преобразования устной речи в текст, основа голосовых ассистентов и транскрипции.
Простое объяснение
Это когда программа слушает голос и записывает всё в текст — как если бы кто-то очень быстро печатал за говорящим.
Подробнее
Современные ASR-системы:
- Whisper — OpenAI, открытый, многоязычный
- Google Speech-to-Text — облачный сервис
- AWS Transcribe — Amazon
- AssemblyAI — API для разработчиков
Точность современных систем превышает 95%.
Связанные термины
TPU
TPU (Tensor Processing Unit) — специализированный AI-ускоритель, разработанный Google для обучения и inference нейронных сетей.
GGUF
GGUF (GPT-Generated Unified Format) — формат файлов для хранения квантизированных языковых моделей, оптимизированный для локального запуска через llama.cpp.
Ollama
Ollama — инструмент для простого локального запуска больших языковых моделей одной командой, с поддержкой популярных моделей и API, совместимым с OpenAI.
GPU
Graphics Processing Unit — специализированный процессор, изначально созданный для графики, но оказавшийся идеальным для обучения нейросетей благодаря способности выполнять тысячи параллельных вычислений.
