flash-mla

There are 0 repository under flash-mla topic.

Awesome-LLM-Inference
xlite-dev / Awesome-LLM-Inference
📚A curated list of Awesome LLM/VLM Inference Papers with Codes: Flash-Attention, Paged-Attention, WINT8/4, Parallelism, etc.🎉
awesome-llm deepseek deepseek-r1 deepseek-v3 flash-attention flash-attention-3 flash-mla llm-inference minimax-01 mla paged-attention qwen3 tensorrt-llm vllm
Language:Python 4676
ffpa-attn
xlite-dev / ffpa-attn
🤖FFPA: Extend FlashAttention-2 with Split-D, ~O(1) SRAM complexity for large headdim, 1.8x~3x↑🎉 vs SDPA EA.
attention cuda flash-attention mlsys sdpa tensor-cores deepseek deepseek-r1 deepseek-v3 mla fused-mla flash-mla
Language:Cuda 226