google

google / langextract

#3
21,1721,471+336 todayPython

A Python library for extracting structured information from unstructured text using LLMs with precise source grounding and interactive visualization.

💡 Use Cases

最适合需要从大量非结构化长文档中,快速、准确提取特定结构化信息,且要求结果可追溯和审核的场景。

医疗报告结构化

Problem: 医生或研究人员需要从海量非结构化的临床记录或病历报告中,快速提取出关键的药物、剂量、诊断结果等信息,手动整理耗时且易出错。

Solution: 使用LangExtract定义药物提取任务,提供少量示例后,即可批量处理临床文档,自动生成结构化的药物清单,并精确定位到原文位置供审核。

Example: 如README中的'Medication Extraction'示例,从临床笔记中提取药物名称、剂量、频率和给药途径,生成可交互的HTML文件进行可视化验证。

法律合同信息抽取

Problem: 法务或合规团队需要审阅大量合同文本,从中找出关键条款(如签约方、金额、有效期、违约责任),人工阅读效率低下。

Solution: 通过定义合同要素的提取模板,LangExtract能自动扫描长文档,识别并结构化关键条款,确保每个提取项都能追溯到合同原文的具体条款。

Example: 处理一份50页的租赁合同,自动提取出租人、承租人、租金、租期、押金等字段,生成结构化JSON数据并附带原文高亮。

学术文献元数据整理

Problem: 研究者需要从成百上千篇PDF格式的学术论文中,批量提取标题、作者、摘要、关键词等元数据,手动复制粘贴工作繁重。

Solution: 利用LangExtract的文本分块和并行处理能力,快速处理大量文献,根据定义的元数据格式自动抽取信息,支持本地Ollama模型以保护数据隐私。

Example: 从生物医学论文集中,自动提取研究目的、方法、主要发现和结论,构建可供后续分析的数据库。

客户反馈分析自动化

Problem: 产品经理需要从杂乱无章的客户反馈(邮件、评论、调查文本)中,系统性地提取产品问题、功能请求和情感倾向,缺乏自动化工具。

Solution: 配置提取任务,让LangExtract从非结构化反馈中识别问题类型、严重程度和具体描述,生成结构化报告并可视化高频问题。

Example: 分析1000条用户评论,自动分类出'登录问题'、'支付失败'、'UI建议'等类别,并统计出现频率,定位原文片段。

📊 Project Info

Language
Python
Stars
21,172
Forks
1,471
Today
+336
Ranking
#3
Collection
Overall
Trending Date
January 16, 2026

🏷️ Topics

大语言模型Python库信息提取文本处理精确溯源交互可视化数据科学家自然语言处理工程师

📸 Screenshots

langextract screenshot 1