google

google / langextract

#2
22,6691,562+652 todayPython

一个使用大语言模型从非结构化文本中提取结构化信息的Python库,具备精确的源数据溯源和交互式可视化功能。

LangExtract是一个基于大语言模型的Python库,专门用于从非结构化的文本中自动提取结构化的信息。它允许用户通过提供少量示例来定义需要提取的数据类型和格式,随后库便能处理如临床记录、报告等长文档,精准识别并整理出关键细节。其核心优势在于确保所有提取出的数据都能精确追溯到原文中的具体位置,并支持生成交互式可视化文件以供审核。该工具采用优化的文本分块与并行处理策略,能高效应对海量文本,同时支持多种大语言模型,包括谷歌Gemini系列云端模型和通过Ollama部署的本地开源模型,无需微调即可灵活适配各种专业领域的复杂信息抽取任务。

💡 应用场景

最适合需要从大量非结构化长文档中,快速、准确提取特定结构化信息,且要求结果可追溯和审核的场景。

医疗报告结构化

问题:医生或研究人员需要从海量非结构化的临床记录或病历报告中,快速提取出关键的药物、剂量、诊断结果等信息,手动整理耗时且易出错。

方案:使用LangExtract定义药物提取任务,提供少量示例后,即可批量处理临床文档,自动生成结构化的药物清单,并精确定位到原文位置供审核。

示例:如README中的'Medication Extraction'示例,从临床笔记中提取药物名称、剂量、频率和给药途径,生成可交互的HTML文件进行可视化验证。

法律合同信息抽取

问题:法务或合规团队需要审阅大量合同文本,从中找出关键条款(如签约方、金额、有效期、违约责任),人工阅读效率低下。

方案:通过定义合同要素的提取模板,LangExtract能自动扫描长文档,识别并结构化关键条款,确保每个提取项都能追溯到合同原文的具体条款。

示例:处理一份50页的租赁合同,自动提取出租人、承租人、租金、租期、押金等字段,生成结构化JSON数据并附带原文高亮。

学术文献元数据整理

问题:研究者需要从成百上千篇PDF格式的学术论文中,批量提取标题、作者、摘要、关键词等元数据,手动复制粘贴工作繁重。

方案:利用LangExtract的文本分块和并行处理能力,快速处理大量文献,根据定义的元数据格式自动抽取信息,支持本地Ollama模型以保护数据隐私。

示例:从生物医学论文集中,自动提取研究目的、方法、主要发现和结论,构建可供后续分析的数据库。

客户反馈分析自动化

问题:产品经理需要从杂乱无章的客户反馈(邮件、评论、调查文本)中,系统性地提取产品问题、功能请求和情感倾向,缺乏自动化工具。

方案:配置提取任务,让LangExtract从非结构化反馈中识别问题类型、严重程度和具体描述,生成结构化报告并可视化高频问题。

示例:分析1000条用户评论,自动分类出'登录问题'、'支付失败'、'UI建议'等类别,并统计出现频率,定位原文片段。

📊 项目信息

语言
Python
Stars
22,669
Forks
1,562
今日新增
+652
排名
#2
收录
总榜
趋势日期
2026年1月19日

🏷️ 标签

大语言模型Python库信息提取文本处理精确溯源交互可视化数据科学家自然语言处理工程师

📸 截图

langextract screenshot 1