FlashAttention

Определение

FlashAttention — алгоритм вычисления attention, оптимизированный для GPU, который значительно снижает использование памяти и ускоряет обучение и inference.

Простое объяснение

FlashAttention — как умное чтение большой книги. Вместо того чтобы разложить все страницы на огромном столе, вы читаете по главам, держа в руках только текущую.

Подробнее

FlashAttention переосмысливает вычисление attention с точки зрения иерархии памяти GPU. Вместо материализации полной матрицы NxN attention (что требует O(N²) памяти), алгоритм разбивает вычисления на блоки, которые помещаются в быструю SRAM GPU. Используется tiling и kernel fusion для минимизации обращений к медленной HBM. FlashAttention-2 дополнительно оптимизирует параллелизм. Позволяет обрабатывать контексты в 4-16x длиннее при том же потреблении памяти.

Определение

Простое объяснение

Подробнее

Связанные термины

PEFT

DPO

LoRA

Embedding

MoE

Quantization