当前位置:首页 > AI > 正文内容

LightRAG - 更快更廉价的GraphRAG

邻居的猫1个月前 (12-09)AI1093

检索增强生成(Retrieval-Augmented Generation, RAG)已经成为提高大型言语模型(LLMs)才能的重要办法之一,经过整合外部常识,明显改善了生成内容的质量和相关性。

RAG 的局限性

传统的 RAG 体系虽然体现优异,但其局限性也不容忽视:

  1. 数据结构扁平化
    传统 RAG 体系往往依靠扁平化的数据结构,难以捕捉信息之间的杂乱联系。这种缺点导致生成的答案片段化,缺少上下文的一致性。
  2. 有限的上下文认识
    体系在处理需求归纳多个数据点的杂乱问题时体现欠安,生成的答案缺少对数据间彼此相关的全面了解。

GraphRAG的局限性

GraphRAG 经过运用** 常识图谱** 对文本中的实体和联系进行结构化建模,然后能够捕捉信息间的杂乱相关。GraphRAG 首要在整个私有数据集上创立实体和联系的引证,随后选用自底向上的聚类办法,将数据层次化地安排为语义簇。
但是,当数据会集参加新的常识时,GraphRAG 有必要从头履行整个图构建流程。这种办法关于动态更新的数据集来说功率低下且本钱昂扬。

  1. 资源需求高:需求很多 API 调用(一般依靠贵重的模型如 GPT-4o)。
  2. 数据更新贵重:每次更新数据时,有必要重建整个图谱。

file

LightRAG的立异点

file

比较之下,LightRAG 的增量更新机制大大简化了流程。它经过简略的 联合操作(union operation),将新的图节点和边直接添加到现有图谱中。这种办法避免了重复构建图谱的昂扬开支,一起保证常识库实时更新,习惯动态数据需求。
file

LightRAG

LightRAG 的中心卖点在于 根据图的索引 和 双层检索结构。以下是对这两个要害功用的深化解析:

Graph-based Indexing

file
以下是 LightRAG 进行根据图索引的过程:

  1. 实体与联系(ER)提取
    实体与联系提取由图中的 R(.) 表明。此过程保证从给定文档中首要提取简略的实体。例如,在上图的示例中,“蜜蜂”(bees)和“养蜂人”(beekeeper)是两个实体,它们经过“调查”(observe)联系相相关,即养蜂人调查蜜蜂。

  2. 运用 LLM 生成键值(KV)对
    运用简略的 LLM 生成键值对。LLM 的剖析过程为实体或联系供给了扼要的阐明或解说。例如,在所选示例中,LLM 解说了“养蜂人”是谁。此过程在图中由 P(.) 表明。需求留意的是,此 LLM 不同于主 RAG 流程中运用的通用 LLM。

  3. 去重
    鉴于文档内容与蜜蜂相关,实体“养蜂人”可能从多个文档或文本块中被屡次提取。因而,需求一个去重过程,仅保存一个具有相同含义的实体,丢掉其他重复项。此过程在图中由 D(.) 表明。

Dual-level Retrieval

file
对 RAG 体系的查询能够分为两种类型——详细的或笼统的。在相同的蜜蜂示例中,详细查询可能是:“一个蜂巢中能够有多少只蜂王?” 笼统查询可能是:“气候变化对蜜蜂有哪些影响?” 为了应对这种多样性,LightRAG 选用了两种检索办法:
file
低层检索:简略地提取准确的实体及其联系,如蜜蜂(bees)、调查(observe)和养蜂人(beekeepers)。
高层检索:经过运用 LLM,LightRAG 聚合信息并总结多个信息来历。

架构含义

进行这些操作并切换到 LightRAG 确实能改善履行时间。在索引过程中,每个文本块只需调用一次 LLM 来提取实体及其联系。

相同,在用户查询时,仅运用与索引相同的 LLM 从文本块中检索实体和联系。这大大减少了检索的开支,然后降低了核算本钱。因而,终究具有了一个“轻量”的 RAG!

将新常识整合到现有图谱中看起来是一个无缝的操作。与其在有新信息时从头索引整个数据,能够简略地将新常识附加到现有图谱中。

评价

评价中,LightRAG 与 Naive RAG、RQ-RAG、HyDE 和 GraphRAG 进行了比较。为了坚持比较的公平性,一致运用了 GPT-4o-mini 作为 LLM,并在一切数据集上选用固定的分块巨细(1200)。答案的评价规范包含全面性、多样性以及答复用户问题的有效性。

file

正如下划线成果所示,LightRAG 逾越了当前一切最先进的办法。

整体而言,得出了以下定论:
• 运用根据图的办法(如 GraphRAG 或 LightRAG)比较根底的 Naive RAG 有明显改善。
• LightRAG 经过双层检索范式生成了适当多样化的答案。
• LightRAG 能够更好地处理杂乱查询。

定论

虽然 RAG 是一种相对较新的技能,但这一范畴正在快速开展。像 LightRAG 这样的技能能够将 RAG 流程引进廉价的通用硬件,这是十分受欢迎的。虽然硬件范畴不断进步,但一直需求在核算受限的硬件上实时运转 LLM 和 RAG 流程。

本文由博客一文多发渠道 OpenWrite 发布!

扫描二维码推送至手机访问。

版权声明:本文由51Blog发布,如需转载请注明出处。

本文链接:https://www.51blog.vip/?id=362

标签: Go后端
分享给朋友:

“LightRAG - 更快更廉价的GraphRAG” 的相关文章

机器学习文本分类, 文本分类概述

1. 数据收集:收集需要分类的文本数据。2. 数据预处理:对文本数据进行清洗、分词、去除停用词、词干提取或词形还原等处理,以便于后续的分析。3. 特征提取:从预处理后的文本中提取有用的特征,如词频、TFIDF(词频逆文档频率)等。5. 模型评估:使用测试数据集来评估模型的性能,常用的指标包括准确率、...

ai合成图片,革新视觉艺术的新时代

AI合成图片技术:革新视觉艺术的新时代一、AI合成图片技术的原理AI合成图片技术主要基于深度学习算法,通过训练大量的图片数据,让计算机学会识别和生成图像。以下是AI合成图片技术的基本原理: 数据收集:收集大量的图片数据,包括自然图像、艺术作品等。 特征提取:通过卷积神经网络(CNN)等算法,提取...

ai综合设计,引领未来创新潮流

ai综合设计,引领未来创新潮流

AI综合设计是一个涉及多个领域的复杂过程,包括但不限于:1. 需求分析:明确项目目标、用户需求、技术限制等。2. 系统设计:根据需求分析,设计AI系统的架构、算法、数据流等。3. 数据收集与处理:收集用于训练和测试的数据,并进行预处理,如清洗、标注、特征提取等。4. 模型选择与训练:选择合适的机器学...

俄语学习机器,新时代语言学习的得力助手

俄语学习机器,新时代语言学习的得力助手

1. Duolingo:这款应用利用AI技术提供个性化学习体验,根据你的进度和错误调整练习内容。通过游戏化的方式提供词汇、语法、听力和口语练习。你可以下载应用,选择俄语课程,按课程指引学习。2. Babbel:结合AI技术,提供个性化课程和练习,重点是实际交流所需的俄语技能。注册账户后,选择俄语课程...

AI写ppt,高效与创意的完美结合

AI写ppt,高效与创意的完美结合

1. 确定PPT的主题和目标受众,以便AI为你生成更符合需求的内容。2. 提供关键信息点,例如:主要观点、论据、数据等,让AI为你组织内容。3. 选择合适的模板和设计风格,以提升PPT的美观度和易读性。4. 利用AI生成图片、图表等视觉元素,以丰富PPT内容。5. 根据实际情况,调整AI生成的文本,...

学习机器人插画

1. 了解基础绘画知识:如果你是绘画初学者,建议先从基础绘画技巧开始学习,比如线条、形状、光影和色彩等。掌握这些基本技能将有助于你更好地表达机器人插画中的细节和质感。2. 研究机器人设计:了解机器人的基本结构和功能。你可以通过观看科幻电影、阅读科幻小说或浏览相关网站来获取灵感。研究不同类型的机器人,...