面向语言模型的完全自动审查移除工具
Heretic是一款专为Transformer架构大语言模型设计的自动化审查移除工具。它能够高效地消除模型内置的安全对齐机制,即所谓的“审查”或“拒绝回答”行为。该项目通过结合先进的“方向性消融”算法与自动化参数优化技术,无需昂贵的人工后训练即可自动找到最佳处理参数。其目标是最大限度地减少模型对敏感提示的拒绝率,同时尽可能保持与原模型在通用任务上能力的一致性,从而在解除内容限制的同时保护模型的原始智能。该工具操作简便,用户无需深入理解模型内部原理,通过命令行即可使用,为研究人员和开发者探索无约束的语言模型应用提供了便捷的解决方案。
💡 应用场景
最适合需要快速、自动移除大模型安全限制同时最大限度保持原模型能力的场景。
快速移除模型安全限制
问题:开发者想使用开源大模型进行敏感话题研究或内容生成,但模型的安全对齐机制频繁拒绝回答,阻碍了工作进展。
方案:使用Heretic自动移除模型的安全对齐层,无需人工调参即可获得拒绝率极低的去审查版本,保持原模型智能水平。
示例:研究政治敏感话题时,原Gemma-3-12b模型97%拒绝回答,使用Heretic处理后拒绝率降至3%,同时KL散度仅0.16,模型能力损失最小。
低成本获取无审查模型
问题:开发者需要无审查的大模型但缺乏资源进行昂贵的后训练或没有专业知识手动调整模型参数。
方案:Heretic提供完全自动化的去审查方案,只需命令行操作,结合TPE优化器自动寻找最佳参数,无需理解Transformer内部原理。
示例:普通开发者想获得类似GPT-OSS 20B的无审查版本,只需运行Heretic命令,即可获得能处理敏感话题、保持格式能力的模型。
保持模型原有智能
问题:现有去审查方法往往严重损害模型的原始能力,导致回答质量下降或格式混乱,得不偿失。
方案:Heretic通过共同最小化拒绝率和KL散度的优化策略,在移除审查的同时最大程度保留原模型的智能和响应质量。
示例:用户反馈Heretic处理的模型"不破坏模型智能",能正常回答原模型会拒绝的提示,并保持正确的markdown表格格式。
多模态模型去审查
问题:开发者需要处理包含图像和文本的多模态模型,但现有工具主要针对纯文本模型,支持有限。
方案:Heretic支持大多数密集模型,包括多模态模型,提供统一的自动化去审查方案,扩展了应用范围。
示例:对视觉-语言模型进行去审查处理,使其能生成涉及敏感视觉内容的描述,而不会被安全机制过滤。
📊 项目信息
- 语言
- Python
- Stars
- ⭐ 8,476
- Forks
- 847
- 今日新增
- +652
- 排名
- #8
- 收录
- 总榜
- 趋势日期
- 2026年2月19日
- 最后推送
- 2026/2/17


