🧠
Activation Steering
神经网络激活路径控制技术
89+
相关论文
12+
研究团队
5
应用方向
每周
更新频率
技术概述
Activation Steering 是一种通过控制神经网络内部激活来引导模型行为的技术,无需改变模型参数即可实现行为控制。
核心方法
Activation Addition / Steering Vectors
Representation Engineering
Contrastive Activation Analysis
Linear Artificial Tomography
应用场景
模型行为对齐与安全
减少有害输出
控制模型人格/风格
提高事实准确性
研究框架
在线元学习研究框架
将 activation steering 推进为在线可学习的控制系统,通过低维状态 $s_t$ 的实时更新实现自适应行为控制。
更新于 2026-03-23
💡
核心思路
1
不更新模型权重,只在线更新低维控制状态 $s_t$ 2
通过反馈信号(0/1、reward、梯度)快速适配规则变化 3
验证"元能力"的关键:切换测试 + 跨任务迁移 📋
任务模板
推荐
A
规则漂移
最干净的任务,推荐优先验证
B
误导 ICL 下的稳健学习
在对抗性示例中保持学习稳定性
C
工具调用策略在线改进
接近实际应用场景
⚙️
算法路线
| 方法 | 反馈类型 | 优势 | 劣势 |
|---|---|---|---|
| Bandit | 0/1 反馈 | 最稳健,部署门槛低 | 样本效率一般 |
| 黑盒策略梯度 | 标量 reward | 连续优化 | 需要更多样本 |
| 可反传在线梯度 | white-box 梯度 | 样本效率最高 | 易被质疑是训练而非元能力 |
🔍
关键诊断
- ▸ 切换/回切测试:A→B→A 看恢复速度
- ▸ 跨任务迁移:在同族新任务上冷启动表现
⚖️
对照组
No-steeringStatic steeringPrompt-only onlineOnline-LoRA
🗺️
推进路线图
1
规则漂移 (Task A) + Bandit
验证核心假设:steering 状态能在线追踪漂移
2
切换测试 + 跨任务迁移诊断
证明是元能力而非任务记忆
3
扩展到工具调用 (Task C)
接近实际应用场景
4
白盒梯度方法
样本效率最优,但留到最后避免争议