本项目是OpenKG旗下专注于RAG研究的OpenRAG子项目的开源知识库,致力于推动RAG领域的发展。

可以通过链接访问,进入OpenRAG Base主页。

缘起

知识检索增强生成(RAG),作为最受关注的大模型落地的实用技术之一,相关研究飞速发展。

我们在2023年12月发表了第一篇大模型视角下的RAG综述(Retrieval-Augmented Generation for Large Language Models: A Survey),并持续更新(最新版于2024年3月更新)。同时,在Github上设置了论文列表并不断跟踪新的论文。

但是我们发现Survey+Github的形式已经无法满足当前RAG飞速发展的趋势。原因包括:

1.Survey的更新周期长,新增内容不直观

2.Github上论文列表冗长,无法快速定位内容

3.只有资料陈述,缺少多维度分析和汇总

4.无法提供针对性的服务,交互差

我们希望构建一个更加灵活、直观、可以帮助用户分析和把握RAG发展的知识库,而不是简单的堆砌资料。

因此,我们基于Notion 开发了OpenRAG Base

OpenRAG Base是什么?

OpenRAG Base 是整个我们OpenRAG 开放项目中的一个部分(后续会有持续的更新)。这是第一个基于公开资料收集整理汇总的,也是目前最全面的RAG知识库。目的是为读者提供前沿的RAG资料汇总,提供多维度的分析,包括:

  • 学术论文

  • 前沿咨询和文章

  • RAG评估与基准

  • 下游任务与数据集

  • 工具与技术栈

  • 研究学者与机构汇总

  • 专题汇报

  • ……更多内容即将上线 (e.g. ,示例代码、基线测试)

无论是刚刚接触RAG,还是RAG相关研究人员或是从业人员,相信都可以从中受益。基于这个仓库,你拥有了一个灵活的、多维度的、动态更新的Survey,并且支持高度自定义的分析和汇总。

如何使用 ?

整个知识库由多个Notion Database组成,在主页Database List中点击具体的Database即可查看详细内容。更多使用和定制化方法可以参考主页介绍。

3e6a9f2dbaff6008fc8d14312dfb6335.png

注意:在线浏览时,只能看到静态页面,无法进行修改。主页右上角点击“Duplicate”复制到本地后才可以进行改动

学术论文

我们精心设计十余个属性,除了作者、机构、发表会议等基础信息,还包括检索源、检索流程、检索粒度、下游任务、数据集、评价指标等信息,帮助分析和汇总。

全部属性视图

2f6aae1bd8825f0608304b5c173bcb27.png

如何进行检索增强?

快速简介视图,帮助从检索增强的角度对比和分析当前的RAG方法,具体包括:检索增强阶段、检索的数据源、检索的数据类型、以及检索的流程。

34e987f15a112896134f90ce66f393c4.png

RAG有哪些下游任务和数据集?

“Task and Dataset”视图将帮助您快速梳理RAG常用的下游任务、数据集和评价指标。

efa1b87a856f4b55a7c76a92f98ffc6d.png

此外从Downstream Task数据库中进入,查看同一个任务下有哪些文章。这将更好的帮助您构建同任务下的基线

a7218416f786f071b9d4dc10c7d92898.png

评估基准

RAG的评估一直是非常重要的一个环节。我们会汇总了当前的评估工具以及评测Benchmark。

cf2e712861df4c22669ee8938f524486.png

哪些论文公开了源码?

查看“code”视图帮助您定位已经开源代码的论文,快速构建baseline.

7cb7267c6686a83347e451e6190f135e.png

RAG论文都发表在哪里?

RAG论文被顶会的认可度如何?,这可能是研究人员非常关心问题之一。在“Conf”视图中,我们对发表地址进行了分组,您可以快速看到近期的顶会都收录了哪些RAG的文章

44a41108d7f28bbdb2964335055c8031.png

论文快读导读:

论文太多,如何快读了解其中内容?Notion中每一条记录也可以是一页Page,将鼠标放到旁边,点击”Open”后右侧展开详情页面。包括:

  • 原始论文中的摘要和作者信息

  • 论文中的重要图表,例如流程或模型架构图

  • 中文快读导读

01853efac189cf8de494a4b395a27fd5.png

想知道有哪些哪些机构正在研究RAG吗?

Scholar和Institution两个Database基于论文和Blog汇总了当前RAG的领域的主要研究人员以及他们的机构。红色头像表示学术界,绿色头像表示工业界,可以看到RAG是学术界和工业界共同关注的热门领域之一。

通过RAG Scholar Gallery 查看研究人员、他们所在的机构以及代表作。

ae400656f101b05a5de52cb6e4013f59.png

专题文章(Seminar)

在这里分享我们对于RAG领域内具体专题的分析与见解。例如,我们对于Modular RAG梳理:

Modular RAG and RAG Flow: Part I. 介绍了Modular RAG中6大模块类型,14个功能模块,40个具体的算子

Modular RAG and RAG Flow: Part II. 分别介绍了推理和微调阶段共6种典型的RAG Flow 模式,分析了10余个学术和工业界具体的RAG Flow类型。

a71c3736ea816e1f2f6ebd47ad1f9c6e.png

…更多的内容等待探索

欢迎:

  • 评论

你可以任何你感兴趣的地方,例如Database或Pages详情页,进行评论和友好交流。请保持良好的社交礼仪,不讨论与RAG无关的内容。

  • 复制

任何人都可以整个repo复制到本地,并在此基础上进行更自由的修改,构建专属你的RAG知识库。

  • 贡献

如果你有兴趣一起参与维护这个项目,请邮件联系我们

我们是谁 ?

该项目是同济大学-KGLLM实验室(王昊奋、王萌教授团队),复旦大学(上海市数据科学重点实验室)熊贇教授团队联合发起。

联系我们

关于本项目的具体问题与建议请联系:

  • 高云帆(同济大学)Email: gaoyunfan1602@gmail.com

合作及其他相关事宜请联系实验室负责人:

  • 王昊奋(同济大学)Email: haofen.wang@tongji.edu.cn

  • 王萌(同济大学)Email: mengwangtj@tongji.edu.cn

  • 熊贇(复旦大学)Email: yunx@fudan.edu.cn

其他

我们关于大模型评测项目正在火热开展中:AI-Ceping

2fb43bedada12b219f5a8738ea7740b5.png


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

9bebc00a5a951caa520b49d1506ed59b.png

点击阅读原文,进入 OpenKG 网站。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐