Author: Shitanshu Bhushan

Linearizing Llama
Large Language Models

Speeding Up Llama: A Hybrid Approach to Attention Mechanisms

Shitanshu Bhushan

January 10, 2025

12 min read
The Math Behind In-Context Learning
Large Language Models

From attention to gradient descent: unraveling how transformers learn from examples

Shitanshu Bhushan

December 31, 2024

6 min read
Linearizing Attention
Large Language Models

Breaking the Quadratic Barrier: Modern Alternatives to Softmax Attention

Shitanshu Bhushan

December 26, 2024

8 min read