google

google / magika

#13
15,448849+956 todayPython

Fast and accurate AI powered file content types detection

💡 Use Cases

最适合需要高精度、高性能文件内容类型识别的安全扫描、文件处理和自动化分类场景。

邮件附件安全扫描

Problem: 邮件系统需要准确识别上传附件的真实类型,防止恶意文件伪装成安全格式绕过安全检查。

Solution: 使用Magika的AI模型快速检测附件真实内容类型,准确率高达99%,确保文件被路由到正确的安全扫描器。

Example: Gmail使用Magika处理用户上传的附件,识别出看似是.jpg但实际是恶意脚本的文件,将其送入脚本扫描器而非图片处理器。

云盘文件分类

Problem: 云存储服务需要自动识别用户上传文件的类型以便正确预览、处理和存储,传统方法对文本和二进制文件识别不准。

Solution: 集成Magika的Python API,在文件上传时毫秒级识别200+种文件类型,特别是对文本格式(如代码、配置文件)有高精度识别。

Example: Google Drive使用Magika识别用户上传的.log、.conf、.py等文本文件,即使没有扩展名也能准确分类,支持正确的预览和搜索。

批量文件格式检测

Problem: 安全分析平台需要快速扫描大量可疑文件(如病毒样本库),传统工具速度慢或准确率不足。

Solution: 使用Magika命令行工具,单次调用可处理数千个文件,每个文件仅需约5ms,且支持递归目录扫描。

Example: VirusTotal集成Magika,每周处理数百亿个文件样本,快速识别未知二进制或混淆文本文件的真实类型,辅助威胁分析。

Web应用文件上传验证

Problem: Web应用需要在前端或后端验证用户上传文件的真实类型,防止恶意文件上传攻击。

Solution: 使用Magika的JavaScript/TypeScript绑定或Python API,在浏览器或服务器端快速验证文件内容,而非仅依赖文件扩展名。

Example: 在线表单应用在用户选择文件后,使用Magika的Web演示版技术实时检测文件真实类型,阻止伪装成PDF的EXE文件上传。

📊 Project Info

Language
Python
Stars
15,448
Forks
849
Today
+956
Ranking
#13
Collection
Overall
Trending Date
April 17, 2026
Last Push
4/16/2026

🏷️ Topics

深度学习ONNX文件类型检测安全扫描高性能轻量级安全工程师开发者

📸 Screenshots

magika screenshot 1