business-science / ai-data-science-team

4,143769+80 todayPython

一个由AI驱动的数据科学智能体团队，助您以10倍速度完成常见数据科学任务。

business-science/ai-data-science-team 是一个基于Python的开源项目，旨在通过AI智能体团队自动化并加速数据科学工作流。其核心是一个名为“AI Pipeline Studio”的旗舰应用，它将数据处理、清洗、可视化到建模的整个流程，转化为一个可视化的、可复现的管道。用户可以在该工作室中混合使用手动步骤与AI驱动的自动化步骤，所有操作均被记录并可生成可复现的脚本。该项目背后的库提供了一系列专门化的AI智能体，例如数据加载、清洗、探索性分析（EDA）、特征工程以及使用H2O和MLflow进行建模的智能体。这些智能体可以协同工作，由监督智能体进行协调，从而快速处理多数据集、执行SQL查询或构建机器学习模型。它主要服务于数据科学家和机器学习工程师，帮助其将重复性任务自动化，大幅提升工作效率，并确保分析过程的可追溯性与可重复性。使用前需准备Python 3.10+环境及OpenAI API密钥。

💡 应用场景

适合需要快速构建、可视化和复现数据科学工作流的场景，特别是当你想用AI辅助加速常规分析任务时。

快速探索新数据集

问题：拿到一个陌生数据集，需要快速理解数据分布、质量并生成初步可视化，但手动写EDA代码耗时费力。

方案：使用AI Pipeline Studio或EDA Explorer App，让AI智能体自动加载数据、检查质量、生成可视化图表和统计摘要。

示例：上传一个CSV销售数据文件，AI自动生成缺失值报告、分布直方图、相关性热图，并给出数据质量建议。

构建可复现分析管道

问题：数据科学项目步骤多且分散，难以跟踪每个步骤的代码和结果，团队协作时无法复现他人分析流程。

方案：使用AI Pipeline Studio的视觉化编辑器，将数据加载、清洗、可视化、建模等步骤组织成可视化管道，自动生成可复现的脚本。

示例：创建一个客户流失预测管道：数据加载→异常值处理→特征工程→模型训练→性能评估，每个步骤都可追溯和修改。

自动化数据清洗任务

问题：数据清洗工作重复性高且容易出错，特别是处理多个相关数据集时，手动编写清洗逻辑效率低下。

方案：调用Data Cleaning Agent和Data Wrangling Agent，用自然语言描述清洗需求，AI自动生成并执行相应的Pandas操作代码。

示例：告诉AI“删除重复行、将日期列格式标准化、用中位数填充数值列缺失值”，AI自动生成并执行清洗代码。

快速原型机器学习模型

问题：需要快速测试多个机器学习模型并比较性能，但配置MLflow、编写训练评估代码流程繁琐。

方案：使用H2O ML Agent和MLflow Tools Agent，通过简单配置自动训练多个模型、记录实验、生成性能报告和预测结果。

示例：指定目标变量和特征，AI自动尝试逻辑回归、随机森林、XGBoost等模型，在MLflow中记录最佳模型并生成预测API。

📊 项目信息

语言: Python
Stars: ⭐ 4,143
Forks: 769
今日新增: +80
排名: #8
收录: 总榜
趋势日期: 2026年1月26日

🏷️ 标签

OpenAIH2O数据科学自动化AI辅助分析可视化工作流可复现数据科学家AI工程师

📸 截图

5分钟上手AI数据科学团队

快速安装并启动AI Pipeline Studio应用，体验AI驱动的数据科学工作流

🖥️ 操作系统

macOSWindowsLinux

⚙️ 运行环境

Python>= 3.10

🔧 工具

Git— 克隆项目仓库

📝 操作步骤

克隆项目并安装依赖

下载项目代码并安装必要的Python包

克隆项目仓库

$ git clone https://github.com/business-science/ai-data-science-team.git

进入项目目录

$ cd ai-data-science-team

以可编辑模式安装项目

$ pip install -e .

✓预期输出：看到安装成功的提示，没有错误信息

💡建议使用虚拟环境（如venv或conda）来管理依赖

设置API密钥

配置OpenAI API密钥以使用AI功能

Linux/macOS设置环境变量

$ export OPENAI_API_KEY='your-api-key-here'

Windows设置环境变量

$ set OPENAI_API_KEY=your-api-key-here

✓预期输出：无报错，环境变量设置成功

💡如果没有OpenAI API密钥，可以使用Ollama运行本地模型

启动AI Pipeline Studio

运行主应用，开始可视化数据科学工作流

启动Streamlit应用

$ streamlit run apps/ai-pipeline-studio-app/app.py

✓预期输出：看到Streamlit启动信息，浏览器自动打开应用界面

💡如果浏览器没有自动打开，请手动访问 http://localhost:8501

✅ 验证成功

确认AI Pipeline Studio应用已正常运行

✓浏览器中看到AI Pipeline Studio界面
✓界面显示'Pipeline-first workspace'等标题
✓可以上传数据或开始创建新项目

⚡ 快速提示

配置使用Ollama运行本地模型：安装Ollama后运行 'ollama run llama3.2'，然后在代码中设置 base_url='http://localhost:11434/v1'

性能首次启动可能需要下载一些模型依赖，请耐心等待

其他应用支持保存项目，可以选择仅保存元数据或完整数据

🔍 常见问题排查

❓ pip install 失败，提示依赖冲突

→ 创建新的虚拟环境：python -m venv venv，然后激活环境再安装

❓ streamlit 命令未找到

→ 确保已正确安装：pip install streamlit，或使用 python -m streamlit run

❓ 应用启动但无法使用AI功能

→ 检查OPENAI_API_KEY环境变量是否正确设置，或切换到Ollama本地模型

❓ 端口8501被占用

→ 停止占用端口的进程，或使用 streamlit run --server.port 8502 指定其他端口

🎯 下一步

尝试上传数据集

在应用中上传CSV文件，体验AI助手的数据加载和探索功能

探索其他示例应用

运行 apps/ 目录下的其他应用，如EDA Explorer和Pandas Data Analyst

查看示例代码

浏览 examples/ 目录了解各个AI智能体的使用方法

难度

初级

预计时间

3-5小时

目标人群

对数据科学和AI感兴趣的新手，有一定Python基础但无AI代理开发经验的开发者，想快速体验AI辅助数据科学工作流的初学者

🎯 学完你将掌握

学会安装和运行AI Pipeline Studio应用，理解AI代理如何协作完成数据科学任务，并能使用库中的基础代理进行简单的数据加载、清洗和可视化

📋 前置知识

Python基础熟悉

需要能理解Python语法、安装包、运行脚本，因为项目是Python库且需要通过命令行操作

Git基础了解

需要克隆GitHub仓库到本地

数据科学基础概念了解(可选)

了解数据清洗、可视化、机器学习等基本术语，有助于理解代理的工作内容

OpenAI API了解

需要获取API密钥才能使用默认的GPT模型，这是项目运行的核心依赖

📚 学习资源

必看

项目README.md

最核心的指南，包含安装、快速启动、库概述和示例

🗺️ 学习阶段

环境准备与项目初识

⏱ 30-45分钟

检查Python版本并安装Git

确保本地Python版本≥3.10，并安装Git客户端（如果尚未安装）

💡在终端输入 python --version 或 python3 --version 检查版本

获取OpenAI API密钥

访问OpenAI官网注册/登录，在API Keys页面创建新的密钥并妥善保存

💡免费额度可能有限，注意使用量；密钥不要分享或上传到公开代码库

克隆项目仓库

打开终端，执行 git clone https://github.com/business-science/ai-data-science-team.git 将项目下载到本地

💡建议在专门的开发目录下操作

浏览项目结构

在文件管理器中查看项目文件夹，重点关注根目录的README.md、requirements.txt，以及 apps/ 和 examples/ 目录

💡先不深入代码，了解整体布局即可

安装与初次运行

⏱ 45-60分钟

创建并激活虚拟环境（推荐）

在项目根目录下，使用 venv 或 conda 创建独立的Python环境并激活

💡避免污染系统Python环境，便于管理依赖

以可编辑模式安装项目

在激活的虚拟环境中，执行 pip install -e . 安装项目库及其依赖

💡-e 参数允许你修改本地代码并立即生效，适合学习

配置API密钥环境变量

在终端中设置环境变量 OPENAI_API_KEY，值为你之前获取的密钥。例如在Linux/Mac: export OPENAI_API_KEY='your-key'，Windows: set OPENAI_API_KEY=your-key

💡也可以将密钥保存在.env文件中，但确保该文件不被提交到Git

运行AI Pipeline Studio应用

在终端执行 python apps/ai-pipeline-studio-app/run.py 启动旗舰应用

💡首次运行会下载一些模型或依赖，可能需要等待。注意终端输出的访问地址（通常是 http://127.0.0.1:8050）

探索应用界面

在浏览器中打开应用，尝试点击各个面板（Visual Editor, Table, Chart等），感受界面布局，暂不进行复杂操作

💡目标是熟悉环境，遇到错误先记下，可能是配置问题

核心概念与基础操作

⏱ 60-90分钟

跟随一个完整的数据工作流

在AI Pipeline Studio中，尝试创建一个新项目，使用‘Data Loader Tools’加载一个示例CSV文件（可在网上找或使用项目自带的示例数据），然后依次尝试‘Data Cleaning’、‘Data Visualization’代理的简单功能

💡先使用AI自动建议，再观察生成的代码和结果，理解代理在背后做了什么

查看代理示例代码

关闭应用，在 examples/ 目录下，选择一个简单的代理示例文件（如 basic_agent_usage.py），阅读并尝试运行它

💡运行前确保虚拟环境已激活且API密钥已设置。从单个代理的例子开始，理解其输入输出

理解多代理工作流

查看 examples/multi_agent_workflows/ 下的例子，例如 pandas_data_analyst.py。阅读代码，理解Supervisor Agent如何协调其他代理完成任务

💡不必完全理解所有代码，重点是看任务分解和代理间对话的模式

尝试本地模型（Ollama）配置（可选）

如果你不想使用OpenAI API或想体验本地模型，按照README中‘Use Ollama’部分的说明，安装Ollama并拉取一个模型（如llama3.2），修改代理的初始化代码使用本地模型

💡本地模型对硬件有要求，且响应可能较慢。此步骤可选，但对理解模型配置有帮助

实践与探索

⏱ 60分钟

用你自己的数据做一个迷你项目

在AI Pipeline Studio中，使用你自己的一个小型CSV数据集（如从Kaggle下载的简单数据集），重复数据加载、探索性分析和创建一个简单可视化的流程

💡数据集要小（<1MB），结构简单，避免复杂的数据类型和缺失值，以降低初期难度

探索其他应用

尝试运行 apps/ 目录下的其他应用，如 exploratory-copilot-app 或 pandas-data-analyst-app，比较它们与旗舰应用的区别

💡每个应用侧重点不同，有助于理解库的灵活性

阅读关键库代码

打开库的核心目录 ai_data_science_team/，浏览 agents/ 和 tools/ 下的部分文件，了解代理和工具是如何定义的

💡重点关注类的结构和继承关系，不必逐行阅读

⚠️ 常见错误

❌ 未正确设置OPENAI_API_KEY环境变量

✅ 确保在运行应用或脚本的同一个终端会话中设置了该变量。使用 echo $OPENAI_API_KEY (Linux/Mac) 或 echo %OPENAI_API_KEY% (Windows) 检查。对于应用，有时需要在启动应用的脚本或环境内设置。

❌ Python版本过低（<3.10）导致安装或运行错误

✅ 使用 pyenv、conda 或官方安装包将Python升级到3.10或更高版本，并在新环境中重新安装项目。

❌ 直接运行示例脚本时遇到模块导入错误（ModuleNotFoundError）

✅ 确保在项目根目录下运行脚本，或者确保Python路径包含项目根目录。最稳妥的方式是在项目根目录下，在激活的虚拟环境中运行 python examples/xxx.py。

❌ 在AI Pipeline Studio中加载数据失败

✅ 检查文件路径是否正确（应用可能有其当前工作目录），确保文件格式是支持的（如CSV），并且文件编码无误（尝试UTF-8）。从小文件开始测试。

❌ 看到API调用配额不足或频率限制的错误

✅ 检查OpenAI账户的用量和配额。对于学习，可以尝试使用更小的模型（如gpt-3.5-turbo），或者在非高峰时段操作。考虑配置Ollama使用免费本地模型。

🚀 后续方向

1. 深入研究某个特定代理（如H2O ML Agent或SQL Database Agent），学习其高级配置和参数调优。 2. 参考 examples/ 中的模式，尝试组合不同的代理和工具，创建一个解决特定数据科学问题（如时间序列预测）的自定义工作流。 3. 学习LangChain或LlamaIndex等框架，理解本项目与它们的异同，思考如何集成。 4. 尝试修改或扩展现有的代理，添加自定义工具（Custom tools），使其适应你的专属任务。 5. 关注项目的版本更新（尤其是达到0.1.0稳定版时），学习其API设计的最佳实践。