OpenAI 开源!Transformer Debugger 上线

被喷越来越封闭的 OpenAI 宣布开源 Transformer Debugger 工具。
OpenAI 超级对齐负责人 Jan Leike 在 X 上宣布推出他们一直在内部用来分析 Transformer 内部的工具——Transformer Debugger(TBD),它结合了自动可解释性和稀疏自编码器,可以在不编写代码的情况下快速探索模型。

Transformer Debugger 是 OpenAI Superalignment 团队开发的一款工具,旨在支持对小语言模型的特定行为进行研究。它可以用来回答诸如 "为什么模型会输出 token A 而不是 token B" 或 "为什么 attention head H 会关注 token T" 之类的问题。该项目仓库已在 MIT 协议下开放,目前 star 数以及 2 万+。

开源地址:https://github.com/openai/transformer-debugger
此次 OpenAI 开源的主要内容有:
Neuron viewer:一个使用 React 构建的应用程序,用于托管 TDB 以及包含有关各个模型组件(MLP 神经元、注意力头和自编码器潜变量)信息的页面;
Activation server:一个后端服务器,对目标模型进行推理以提供 TDB 所需的数据。它还从公共 Azure 存储桶中读取和提供数据;
Models:一个针对 GPT-2 模型及其自编码器的简单推理库,具有用于获取激活的 hook 函数;
汇总好的激活数据集:MLP 神经元、注意力头和自编码器潜变量的前激活数据集示例。
