🧠

Activation Steering

神经网络激活路径控制技术

89+
相关论文
12+
研究团队
5
应用方向
每周
更新频率

技术概述

Activation Steering 是一种通过控制神经网络内部激活来引导模型行为的技术,无需改变模型参数即可实现行为控制。

核心方法

Activation Addition / Steering Vectors
Representation Engineering
Contrastive Activation Analysis
Linear Artificial Tomography

应用场景

模型行为对齐与安全
减少有害输出
控制模型人格/风格
提高事实准确性
研究框架

在线元学习研究框架

将 activation steering 推进为在线可学习的控制系统,通过低维状态 $s_t$ 的实时更新实现自适应行为控制。

更新于 2026-03-23

💡
核心思路

1
不更新模型权重,只在线更新低维控制状态 $s_t$
2
通过反馈信号(0/1、reward、梯度)快速适配规则变化
3
验证"元能力"的关键:切换测试 + 跨任务迁移

📋
任务模板

推荐
A
规则漂移
最干净的任务,推荐优先验证
B
误导 ICL 下的稳健学习
在对抗性示例中保持学习稳定性
C
工具调用策略在线改进
接近实际应用场景

⚙️
算法路线

方法 反馈类型 优势 劣势
Bandit 0/1 反馈 最稳健,部署门槛低 样本效率一般
黑盒策略梯度 标量 reward 连续优化 需要更多样本
可反传在线梯度 white-box 梯度 样本效率最高 易被质疑是训练而非元能力

🔍
关键诊断

  • 切换/回切测试:A→B→A 看恢复速度
  • 跨任务迁移:在同族新任务上冷启动表现

⚖️
对照组

No-steeringStatic steeringPrompt-only onlineOnline-LoRA

🗺️
推进路线图

1
规则漂移 (Task A) + Bandit
验证核心假设:steering 状态能在线追踪漂移
2
切换测试 + 跨任务迁移诊断
证明是元能力而非任务记忆
3
扩展到工具调用 (Task C)
接近实际应用场景
4
白盒梯度方法
样本效率最优,但留到最后避免争议