google

google / magika

#13
15,448849+956 todayPython

快速准确的AI驱动文件内容类型检测。

Magika是一款由谷歌开发的AI驱动文件类型检测工具。它利用深度学习技术,能够快速且准确地识别超过200种文件格式,包括二进制和文本文件。其核心是一个高度优化的轻量级AI模型,体积仅数MB,即使在单CPU上运行也能在毫秒级完成检测,平均准确率高达约99%。 该工具已大规模应用于谷歌的Gmail、Drive和Safe Browsing等服务中,每周处理数百亿个文件,将其准确路由至相应的安全和内容策略扫描器,以提升用户安全。此外,Magika也被VirusTotal等安全平台集成。它提供命令行工具、Python API以及多种语言绑定,方便开发者集成到各类应用中,适用于需要高精度、高性能文件内容识别的场景,如安全分析、数据分类和系统自动化处理。

💡 应用场景

最适合需要高精度、高性能文件内容类型识别的安全扫描、文件处理和自动化分类场景。

邮件附件安全扫描

问题:邮件系统需要准确识别上传附件的真实类型,防止恶意文件伪装成安全格式绕过安全检查。

方案:使用Magika的AI模型快速检测附件真实内容类型,准确率高达99%,确保文件被路由到正确的安全扫描器。

示例:Gmail使用Magika处理用户上传的附件,识别出看似是.jpg但实际是恶意脚本的文件,将其送入脚本扫描器而非图片处理器。

云盘文件分类

问题:云存储服务需要自动识别用户上传文件的类型以便正确预览、处理和存储,传统方法对文本和二进制文件识别不准。

方案:集成Magika的Python API,在文件上传时毫秒级识别200+种文件类型,特别是对文本格式(如代码、配置文件)有高精度识别。

示例:Google Drive使用Magika识别用户上传的.log、.conf、.py等文本文件,即使没有扩展名也能准确分类,支持正确的预览和搜索。

批量文件格式检测

问题:安全分析平台需要快速扫描大量可疑文件(如病毒样本库),传统工具速度慢或准确率不足。

方案:使用Magika命令行工具,单次调用可处理数千个文件,每个文件仅需约5ms,且支持递归目录扫描。

示例:VirusTotal集成Magika,每周处理数百亿个文件样本,快速识别未知二进制或混淆文本文件的真实类型,辅助威胁分析。

Web应用文件上传验证

问题:Web应用需要在前端或后端验证用户上传文件的真实类型,防止恶意文件上传攻击。

方案:使用Magika的JavaScript/TypeScript绑定或Python API,在浏览器或服务器端快速验证文件内容,而非仅依赖文件扩展名。

示例:在线表单应用在用户选择文件后,使用Magika的Web演示版技术实时检测文件真实类型,阻止伪装成PDF的EXE文件上传。

📊 项目信息

语言
Python
Stars
15,448
Forks
849
今日新增
+956
排名
#13
收录
总榜
趋势日期
2026年4月17日
最后推送
2026/4/16

🏷️ 标签

深度学习ONNX文件类型检测安全扫描高性能轻量级安全工程师开发者

📸 截图

magika screenshot 1