p-e-w / heretic

8,010807+946 todayPython

Fully automatic censorship removal for language models

最适合需要快速、自动移除大模型安全限制同时最大限度保持原模型能力的场景。

Problem: 开发者想使用开源大模型进行敏感话题研究或内容生成，但模型的安全对齐机制频繁拒绝回答，阻碍了工作进展。

Solution: 使用Heretic自动移除模型的安全对齐层，无需人工调参即可获得拒绝率极低的去审查版本，保持原模型智能水平。

Example: 研究政治敏感话题时，原Gemma-3-12b模型97%拒绝回答，使用Heretic处理后拒绝率降至3%，同时KL散度仅0.16，模型能力损失最小。

Problem: 开发者需要无审查的大模型但缺乏资源进行昂贵的后训练或没有专业知识手动调整模型参数。

Solution: Heretic提供完全自动化的去审查方案，只需命令行操作，结合TPE优化器自动寻找最佳参数，无需理解Transformer内部原理。

Example: 普通开发者想获得类似GPT-OSS 20B的无审查版本，只需运行Heretic命令，即可获得能处理敏感话题、保持格式能力的模型。

Problem: 现有去审查方法往往严重损害模型的原始能力，导致回答质量下降或格式混乱，得不偿失。

Solution: Heretic通过共同最小化拒绝率和KL散度的优化策略，在移除审查的同时最大程度保留原模型的智能和响应质量。

Example: 用户反馈Heretic处理的模型"不破坏模型智能"，能正常回答原模型会拒绝的提示，并保持正确的markdown表格格式。

Problem: 开发者需要处理包含图像和文本的多模态模型，但现有工具主要针对纯文本模型，支持有限。

Solution: Heretic支持大多数密集模型，包括多模态模型，提供统一的自动化去审查方案，扩展了应用范围。

Example: 对视觉-语言模型进行去审查处理，使其能生成涉及敏感视觉内容的描述，而不会被安全机制过滤。

Optuna语言模型审查移除自动化无监督易用研究人员开发者