🧠

Activation Steering

神经网络激活路径控制技术

89+

技术概述

Activation Steering 是一种通过控制神经网络内部激活来引导模型行为的技术，无需改变模型参数即可实现行为控制。

核心方法

Activation Addition / Steering Vectors

Representation Engineering

Contrastive Activation Analysis

Linear Artificial Tomography

应用场景

模型行为对齐与安全

减少有害输出

控制模型人格/风格

提高事实准确性

研究框架

在线元学习研究框架

将 activation steering 推进为在线可学习的控制系统，通过低维状态 $s_t$ 的实时更新实现自适应行为控制。

更新于 2026-03-23

💡
核心思路

不更新模型权重，只在线更新低维控制状态 $s_t$

通过反馈信号（0/1、reward、梯度）快速适配规则变化

验证"元能力"的关键：切换测试 + 跨任务迁移

📋
任务模板

⚙️
算法路线

方法	反馈类型	优势	劣势
Bandit	0/1 反馈	最稳健，部署门槛低	样本效率一般
黑盒策略梯度	标量 reward	连续优化	需要更多样本
可反传在线梯度	white-box 梯度	样本效率最高	易被质疑是训练而非元能力

🔍
关键诊断

▸ 切换/回切测试：A→B→A 看恢复速度
▸ 跨任务迁移：在同族新任务上冷启动表现

⚖️
对照组

No-steeringStatic steeringPrompt-only onlineOnline-LoRA

🗺️
推进路线图

规则漂移 (Task A) + Bandit

验证核心假设：steering 状态能在线追踪漂移

切换测试 + 跨任务迁移诊断

证明是元能力而非任务记忆

扩展到工具调用 (Task C)

接近实际应用场景

白盒梯度方法

样本效率最优，但留到最后避免争议

Activation Steering

技术概述

核心方法

应用场景

在线元学习研究框架

💡 核心思路

📋 任务模板

⚙️ 算法路线

🔍 关键诊断