开源开放 | OpenRAG Base:RAG的开源开放知识库
本项目是OpenKG旗下专注于RAG研究的OpenRAG子项目的开源知识库,致力于推动RAG领域的发展。可以通过链接访问,进入OpenRAG Base主页。缘起知识检索增强生成(RAG),作为最受关注的大模型落地的实用技术之一,相关研究飞速发展。我们在2023年12月发表了第一篇大模型视角下的RAG综述(Retrieval-Augmented Generation for Large Langua
本项目是OpenKG旗下专注于RAG研究的OpenRAG子项目的开源知识库,致力于推动RAG领域的发展。
可以通过链接访问,进入OpenRAG Base主页。
缘起
知识检索增强生成(RAG),作为最受关注的大模型落地的实用技术之一,相关研究飞速发展。
我们在2023年12月发表了第一篇大模型视角下的RAG综述(Retrieval-Augmented Generation for Large Language Models: A Survey),并持续更新(最新版于2024年3月更新)。同时,在Github上设置了论文列表并不断跟踪新的论文。
但是我们发现Survey+Github的形式已经无法满足当前RAG飞速发展的趋势。原因包括:
1.Survey的更新周期长,新增内容不直观
2.Github上论文列表冗长,无法快速定位内容
3.只有资料陈述,缺少多维度分析和汇总
4.无法提供针对性的服务,交互差
我们希望构建一个更加灵活、直观、可以帮助用户分析和把握RAG发展的知识库,而不是简单的堆砌资料。
因此,我们基于Notion 开发了OpenRAG Base
OpenRAG Base是什么?
OpenRAG Base 是整个我们OpenRAG 开放项目中的一个部分(后续会有持续的更新)。这是第一个基于公开资料收集整理汇总的,也是目前最全面的RAG知识库。目的是为读者提供前沿的RAG资料汇总,提供多维度的分析,包括:
学术论文
前沿咨询和文章
RAG评估与基准
下游任务与数据集
工具与技术栈
研究学者与机构汇总
专题汇报
……更多内容即将上线 (e.g. ,示例代码、基线测试)
无论是刚刚接触RAG,还是RAG相关研究人员或是从业人员,相信都可以从中受益。基于这个仓库,你拥有了一个灵活的、多维度的、动态更新的Survey,并且支持高度自定义的分析和汇总。
如何使用 ?
整个知识库由多个Notion Database组成,在主页Database List中点击具体的Database即可查看详细内容。更多使用和定制化方法可以参考主页介绍。
注意:在线浏览时,只能看到静态页面,无法进行修改。主页右上角点击“Duplicate”复制到本地后才可以进行改动
学术论文
我们精心设计十余个属性,除了作者、机构、发表会议等基础信息,还包括检索源、检索流程、检索粒度、下游任务、数据集、评价指标等信息,帮助分析和汇总。
全部属性视图:
如何进行检索增强?
快速简介视图,帮助从检索增强的角度对比和分析当前的RAG方法,具体包括:检索增强阶段、检索的数据源、检索的数据类型、以及检索的流程。
RAG有哪些下游任务和数据集?
“Task and Dataset”视图将帮助您快速梳理RAG常用的下游任务、数据集和评价指标。
此外从Downstream Task数据库中进入,查看同一个任务下有哪些文章。这将更好的帮助您构建同任务下的基线
评估与基准
RAG的评估一直是非常重要的一个环节。我们会汇总了当前的评估工具以及评测Benchmark。
哪些论文公开了源码?
查看“code”视图帮助您定位已经开源代码的论文,快速构建baseline.
RAG论文都发表在哪里?
RAG论文被顶会的认可度如何?,这可能是研究人员非常关心问题之一。在“Conf”视图中,我们对发表地址进行了分组,您可以快速看到近期的顶会都收录了哪些RAG的文章
论文快读导读:
论文太多,如何快读了解其中内容?Notion中每一条记录也可以是一页Page,将鼠标放到旁边,点击”Open”后右侧展开详情页面。包括:
原始论文中的摘要和作者信息
论文中的重要图表,例如流程或模型架构图
中文快读导读
想知道有哪些人、哪些机构正在研究RAG吗?
Scholar和Institution两个Database基于论文和Blog汇总了当前RAG的领域的主要研究人员以及他们的机构。红色头像表示学术界,绿色头像表示工业界,可以看到RAG是学术界和工业界共同关注的热门领域之一。
通过RAG Scholar Gallery 查看研究人员、他们所在的机构以及代表作。
专题文章(Seminar)
在这里分享我们对于RAG领域内具体专题的分析与见解。例如,我们对于Modular RAG梳理:
Modular RAG and RAG Flow: Part I. 介绍了Modular RAG中6大模块类型,14个功能模块,40个具体的算子
Modular RAG and RAG Flow: Part II. 分别介绍了推理和微调阶段共6种典型的RAG Flow 模式,分析了10余个学术和工业界具体的RAG Flow类型。
…更多的内容等待探索
欢迎:
评论
你可以任何你感兴趣的地方,例如Database或Pages详情页,进行评论和友好交流。请保持良好的社交礼仪,不讨论与RAG无关的内容。
复制
任何人都可以整个repo复制到本地,并在此基础上进行更自由的修改,构建专属你的RAG知识库。
贡献
如果你有兴趣一起参与维护这个项目,请邮件联系我们
我们是谁 ?
该项目是同济大学-KGLLM实验室(王昊奋、王萌教授团队),复旦大学(上海市数据科学重点实验室)熊贇教授团队联合发起。
联系我们
关于本项目的具体问题与建议请联系:
高云帆(同济大学)Email: gaoyunfan1602@gmail.com
合作及其他相关事宜请联系实验室负责人:
王昊奋(同济大学)Email: haofen.wang@tongji.edu.cn
王萌(同济大学)Email: mengwangtj@tongji.edu.cn
熊贇(复旦大学)Email: yunx@fudan.edu.cn
其他
我们关于大模型评测项目正在火热开展中:AI-Ceping
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)