🧠
Activation Steering 深度调研
LLM 激活引导技术全景与核心方法
45 篇
核心论文
4 大
技术分支
5 个
应用方向
4 轮
调研轮次
🔥 四大技术分支
- ▸SAE Steering - 最高可解释性
- ▸Control Theory - 最完善理论保证
- ▸Fine-Grained Intervention - 最高效率
- ▸Geometric Methods - 突破线性假设
🎯 五大应用方向
- ▸Safety Alignment - 最成熟
- ▸Knowledge Editing
- ▸Reasoning Enhancement
- ▸Instruction Following
- ▸Memorization Mitigation
📋 关键论文
Steering LLMs With Activation Engineering
开创性工作,奠定 Activation Steering 基础
arXiv 2023
Activation Steering with Feedback Controller
闭环反馈控制,理论突破
ICLR 2026
AlphaSteer: Learning Refusal Steering
零空间约束,安全应用
ICLR 2026