An AI-powered data science team of agents to help you perform common data science tasks 10X faster.
💡 Use Cases
适合需要快速构建、可视化和复现数据科学工作流的场景,特别是当你想用AI辅助加速常规分析任务时。
快速探索新数据集
Problem: 拿到一个陌生数据集,需要快速理解数据分布、质量并生成初步可视化,但手动写EDA代码耗时费力。
Solution: 使用AI Pipeline Studio或EDA Explorer App,让AI智能体自动加载数据、检查质量、生成可视化图表和统计摘要。
Example: 上传一个CSV销售数据文件,AI自动生成缺失值报告、分布直方图、相关性热图,并给出数据质量建议。
构建可复现分析管道
Problem: 数据科学项目步骤多且分散,难以跟踪每个步骤的代码和结果,团队协作时无法复现他人分析流程。
Solution: 使用AI Pipeline Studio的视觉化编辑器,将数据加载、清洗、可视化、建模等步骤组织成可视化管道,自动生成可复现的脚本。
Example: 创建一个客户流失预测管道:数据加载→异常值处理→特征工程→模型训练→性能评估,每个步骤都可追溯和修改。
自动化数据清洗任务
Problem: 数据清洗工作重复性高且容易出错,特别是处理多个相关数据集时,手动编写清洗逻辑效率低下。
Solution: 调用Data Cleaning Agent和Data Wrangling Agent,用自然语言描述清洗需求,AI自动生成并执行相应的Pandas操作代码。
Example: 告诉AI“删除重复行、将日期列格式标准化、用中位数填充数值列缺失值”,AI自动生成并执行清洗代码。
快速原型机器学习模型
Problem: 需要快速测试多个机器学习模型并比较性能,但配置MLflow、编写训练评估代码流程繁琐。
Solution: 使用H2O ML Agent和MLflow Tools Agent,通过简单配置自动训练多个模型、记录实验、生成性能报告和预测结果。
Example: 指定目标变量和特征,AI自动尝试逻辑回归、随机森林、XGBoost等模型,在MLflow中记录最佳模型并生成预测API。
📊 Project Info
- Language
- Python
- Stars
- ⭐ 4,143
- Forks
- 769
- Today
- +80
- Ranking
- #8
- Collection
- Overall
- Trending Date
- January 26, 2026
🏷️ Topics
5分钟上手AI数据科学团队
快速安装并启动AI Pipeline Studio应用,体验AI驱动的数据科学工作流
🖥️ OS
⚙️ Runtime
🔧 Tools
📝 Steps
克隆项目并安装依赖
下载项目代码并安装必要的Python包
克隆项目仓库
$ git clone https://github.com/business-science/ai-data-science-team.git进入项目目录
$ cd ai-data-science-team以可编辑模式安装项目
$ pip install -e .设置API密钥
配置OpenAI API密钥以使用AI功能
Linux/macOS设置环境变量
$ export OPENAI_API_KEY='your-api-key-here'Windows设置环境变量
$ set OPENAI_API_KEY=your-api-key-here启动AI Pipeline Studio
运行主应用,开始可视化数据科学工作流
启动Streamlit应用
$ streamlit run apps/ai-pipeline-studio-app/app.py✅ 验证成功
确认AI Pipeline Studio应用已正常运行
- ✓浏览器中看到AI Pipeline Studio界面
- ✓界面显示'Pipeline-first workspace'等标题
- ✓可以上传数据或开始创建新项目
⚡ Quick Tips
🔍 Troubleshooting
❓ pip install 失败,提示依赖冲突
→ 创建新的虚拟环境:python -m venv venv,然后激活环境再安装
❓ streamlit 命令未找到
→ 确保已正确安装:pip install streamlit,或使用 python -m streamlit run
❓ 应用启动但无法使用AI功能
→ 检查OPENAI_API_KEY环境变量是否正确设置,或切换到Ollama本地模型
❓ 端口8501被占用
→ 停止占用端口的进程,或使用 streamlit run --server.port 8502 指定其他端口
🎯 Next Steps
尝试上传数据集
在应用中上传CSV文件,体验AI助手的数据加载和探索功能
探索其他示例应用
运行 apps/ 目录下的其他应用,如EDA Explorer和Pandas Data Analyst
查看示例代码
浏览 examples/ 目录了解各个AI智能体的使用方法
Difficulty
初级
Est. Time
3-5小时
Target Audience
对数据科学和AI感兴趣的新手,有一定Python基础但无AI代理开发经验的开发者,想快速体验AI辅助数据科学工作流的初学者
🎯 What You'll Learn
学会安装和运行AI Pipeline Studio应用,理解AI代理如何协作完成数据科学任务,并能使用库中的基础代理进行简单的数据加载、清洗和可视化
📋 Prerequisites
需要能理解Python语法、安装包、运行脚本,因为项目是Python库且需要通过命令行操作
需要克隆GitHub仓库到本地
了解数据清洗、可视化、机器学习等基本术语,有助于理解代理的工作内容
需要获取API密钥才能使用默认的GPT模型,这是项目运行的核心依赖
📚 Resources
项目README.md
最核心的指南,包含安装、快速启动、库概述和示例
AI Pipeline Studio App README
apps/ai-pipeline-studio-app/README.md,包含该旗舰应用的详细功能说明
examples/ 目录下的示例脚本
最直接的学习资源,展示了每个代理和多种工作流的具体用法
GitHub Issues 和 Discussions
查看他人遇到的问题和解决方案,也可以在这里提问
Next-Gen AI Agentic Workshop
README中提到的作者的工作坊,系统学习如何构建AI代理和应用
🗺️ Learning Phases
环境准备与项目初识
检查Python版本并安装Git
确保本地Python版本≥3.10,并安装Git客户端(如果尚未安装)
获取OpenAI API密钥
访问OpenAI官网注册/登录,在API Keys页面创建新的密钥并妥善保存
克隆项目仓库
打开终端,执行 git clone https://github.com/business-science/ai-data-science-team.git 将项目下载到本地
浏览项目结构
在文件管理器中查看项目文件夹,重点关注根目录的README.md、requirements.txt,以及 apps/ 和 examples/ 目录
安装与初次运行
创建并激活虚拟环境(推荐)
在项目根目录下,使用 venv 或 conda 创建独立的Python环境并激活
以可编辑模式安装项目
在激活的虚拟环境中,执行 pip install -e . 安装项目库及其依赖
配置API密钥环境变量
在终端中设置环境变量 OPENAI_API_KEY,值为你之前获取的密钥。例如在Linux/Mac: export OPENAI_API_KEY='your-key',Windows: set OPENAI_API_KEY=your-key
运行AI Pipeline Studio应用
在终端执行 python apps/ai-pipeline-studio-app/run.py 启动旗舰应用
探索应用界面
在浏览器中打开应用,尝试点击各个面板(Visual Editor, Table, Chart等),感受界面布局,暂不进行复杂操作
核心概念与基础操作
跟随一个完整的数据工作流
在AI Pipeline Studio中,尝试创建一个新项目,使用‘Data Loader Tools’加载一个示例CSV文件(可在网上找或使用项目自带的示例数据),然后依次尝试‘Data Cleaning’、‘Data Visualization’代理的简单功能
查看代理示例代码
关闭应用,在 examples/ 目录下,选择一个简单的代理示例文件(如 basic_agent_usage.py),阅读并尝试运行它
理解多代理工作流
查看 examples/multi_agent_workflows/ 下的例子,例如 pandas_data_analyst.py。阅读代码,理解Supervisor Agent如何协调其他代理完成任务
尝试本地模型(Ollama)配置(可选)
如果你不想使用OpenAI API或想体验本地模型,按照README中‘Use Ollama’部分的说明,安装Ollama并拉取一个模型(如llama3.2),修改代理的初始化代码使用本地模型
实践与探索
用你自己的数据做一个迷你项目
在AI Pipeline Studio中,使用你自己的一个小型CSV数据集(如从Kaggle下载的简单数据集),重复数据加载、探索性分析和创建一个简单可视化的流程
探索其他应用
尝试运行 apps/ 目录下的其他应用,如 exploratory-copilot-app 或 pandas-data-analyst-app,比较它们与旗舰应用的区别
阅读关键库代码
打开库的核心目录 ai_data_science_team/,浏览 agents/ 和 tools/ 下的部分文件,了解代理和工具是如何定义的
⚠️ Common Mistakes
❌ 未正确设置OPENAI_API_KEY环境变量
✅ 确保在运行应用或脚本的同一个终端会话中设置了该变量。使用 echo $OPENAI_API_KEY (Linux/Mac) 或 echo %OPENAI_API_KEY% (Windows) 检查。对于应用,有时需要在启动应用的脚本或环境内设置。
❌ Python版本过低(<3.10)导致安装或运行错误
✅ 使用 pyenv、conda 或官方安装包将Python升级到3.10或更高版本,并在新环境中重新安装项目。
❌ 直接运行示例脚本时遇到模块导入错误(ModuleNotFoundError)
✅ 确保在项目根目录下运行脚本,或者确保Python路径包含项目根目录。最稳妥的方式是在项目根目录下,在激活的虚拟环境中运行 python examples/xxx.py。
❌ 在AI Pipeline Studio中加载数据失败
✅ 检查文件路径是否正确(应用可能有其当前工作目录),确保文件格式是支持的(如CSV),并且文件编码无误(尝试UTF-8)。从小文件开始测试。
❌ 看到API调用配额不足或频率限制的错误
✅ 检查OpenAI账户的用量和配额。对于学习,可以尝试使用更小的模型(如gpt-3.5-turbo),或者在非高峰时段操作。考虑配置Ollama使用免费本地模型。
🚀 Next Steps
1. 深入研究某个特定代理(如H2O ML Agent或SQL Database Agent),学习其高级配置和参数调优。 2. 参考 examples/ 中的模式,尝试组合不同的代理和工具,创建一个解决特定数据科学问题(如时间序列预测)的自定义工作流。 3. 学习LangChain或LlamaIndex等框架,理解本项目与它们的异同,思考如何集成。 4. 尝试修改或扩展现有的代理,添加自定义工具(Custom tools),使其适应你的专属任务。 5. 关注项目的版本更新(尤其是达到0.1.0稳定版时),学习其API设计的最佳实践。
