程序员面试、算法研究、机器学习、大模型/ChatGPT/AIGC、论文审稿、具身智能/人形机器人、RAG等11大系列集锦
程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结作者:July--结构之法算法之道blog之博主。时间:2010年10月-2018年5月,一直在不断更新中..出处:http://blog.csdn.net/v_JULY_v。说明:本博客中部分文章经过不断修改、优化,已集结出版成书《编程之法:面试和算法心得》。前言开博4年有余,...
作者:July,七月在线创始人兼CEO、结构之法算法之道blog之博主
时间:2010年10月-2024年9月,一直在不断更新中..
出处:http://blog.csdn.net/v_JULY_v
前言
开博10年有余,回首这10余年,自己一开始侧重编程、面试、数据结构/算法,中途侧重数据挖掘、机器学习,近期则专攻AIGC/ChatGPT,而自己在本blog上也着实花费了巨大的时间和精力,写的东西可能也够几本书的内容了。然不管怎样,希望我能真真正正的为读者提供实实在在的价值与帮助。
下面,敬请观赏。有任何问题,欢迎随时不吝指正(同时,若你也能帮助回复blog内留言的任何朋友的问题,欢迎你随时不吝分享&回复,我们一起讨论,互帮互助,谢谢)。
无私分享,造福天下
以下是本blog内的微软面试100题系列、经典算法研究系列、程序员编程艺术系列、红黑树系列、机器学习十大算法系列、AIGC/ChatGPT等6大经典原创系列作品与一些重要文章的集锦:
一、微软面试100题系列
- 横空出世,席卷Csdn--评微软等数据结构+算法面试100题 (微软面试100题系列原题+答案索引)
- 微软100题 (微软面试完整第1-100题)
- 微软面试100题2010年版全部答案集锦(含下载地址)
- 全新整理:微软、谷歌、百度等公司经典面试100题[第101-160题]
- 全新整理:微软、Google等公司的面试题及解答[第161-170题]
- 十道海量数据处理面试题与十个方法大总结 (十道海量数据处理面试题)
- 海量数据处理面试题集锦与Bit-map详解 (十七道海量数据处理面试题)
- 教你如何迅速秒杀掉:99%的海量数据处理面试题 (海量数据处理PDF)
- 九月腾讯,创新工场,淘宝等公司最新面试三十题(第171-200题) (2011年度九月最新面试三十题)
- 十月上旬百度,阿里巴巴,迅雷搜狗最新面试七十题(第201-270题) (2011年度十月上旬七十题)
- 十月下旬腾讯,网易游戏,百度最新校园招聘笔试题集锦(第271-330题) (2011年度十月下旬校招)
- 九月十月百度人搜,阿里巴巴,腾讯华为笔试面试八十题(第331-410题) (2012年度笔试面试八十题)
- 九月百度,迅雷,华为,阿里巴巴,最新校招笔试面试十(第411-470题) (2013年度校招笔试面试十题)
上述微软面试100题系列(共计11篇文章,300多道面试题)的PDF文档近期已经制作出来,其下载地址为:微软面试100题系列之高清完整版PDF文档[带目录+标签]by_July_pdf-C++文档类资源-CSDN下载
二、十五个经典算法研究与总结、目录+索引
- 一、A*搜索算法
- 一(续)、A*,Dijkstra,BFS算法性能比较及A*算法的应用
- 二、Dijkstra 算法初探 (Dijkstra算法系列4篇文章)
- 二(续)、彻底理解Dijkstra算法
- 二(再续)、Dijkstra 算法+fibonacci堆的逐步c实现
- 二(三续)、Dijkstra 算法+Heap堆的完整c实现源码
- 通俗理解动态规划:由浅入深DP并解决LCS问题(23年修订版)
- 如何通透理解:BFS和DFS优先搜索算法(23年修订版)
- 五、教你透彻了解红黑树 (红黑树系列6篇文章之其中两篇)
- 五(续)、红黑树算法的实现与剖析
- 六、教你初步了解KMP算法
- 六(续)、从KMP算法一步一步谈到BM算法
- 六(三续)、从头到尾彻底理解KMP (KMP的PDF)
- 七、遗传算法 透析GA本质
- 八、再谈启发式搜索算法
- 九、图像特征提取与匹配之SIFT算法 (sift算法系列五篇文章)
- 九(续)、sift算法的编译与实现
- 九(再续)、教你一步一步用c语言实现sift算法、上
- 九(再续)、教你一步一步用c语言实现sift算法、下
- 九(三续):SIFT算法的应用--目标识别之Bag-of-words模型
- 九(四续)、SIFT + KD_BBF算法 (此文第3部分)
- 十、从头到尾彻底理解傅里叶变换算法、上
- 十、从头到尾彻底理解傅里叶变换算法、下
- 十一、从头到尾彻底解析Hash表算法
- 十一(续)、倒排索引关键词Hash不重复编码实践
- 十二、快速排序算法 (快速排序算法3篇文章)
- 十二(续)、快速排序算法的深入分析
- 十二(再续):快速排序算法之所有版本的c/c++实现
- 十三、通过浙大上机复试试题学SPFA 算法
- 十四、快速选择SELECT算法的深入分析与实现
- 十五、多项式乘法与快速傅里叶变换
最新的十五个经典算法研究的PDF文档0积分下载地址如下(1个月5000+人次下载)
三、程序员编程艺术第一~四十章集锦与总结
- 第一章、左旋转字符串
- 第二章、字符串是否包含问题
- 第三章、寻找最小的k个数
- 第三章续、Top K算法问题的实现
- 第三章再续:快速选择SELECT算法的深入分析与实现
- 三之三续、求数组中给定下标区间内的第K小(大)元素
- 第四章、现场编写类似strstr/strcpy/strpbrk的函数
- 第五章、寻找满足条件的两个或多个数
- 第六章、求解500万以内的亲和数
- 第七章、求连续子数组的最大和
- 第八章、从头至尾漫谈虚函数
- 第九章、闲话链表追赶问题
- 第十章、如何给10^7个数据量的磁盘文件排序
- 第十一章、最长公共子序列(LCS)问题
- 第十二~十五章:数的判断,中签概率,IP访问次数,回文问题(初稿)
- 第二十六章:基于给定的文档生成倒排索引的编码与实践
- 第二十七章:不改变正负数之间相对顺序重新排列数组
- 第二十八~二十九章:最大连续乘积子串、字符串编辑距离
- 第三十~三十一章:字符串转换成整数,字符串匹配问题
- 第三十二~三十三章:最小操作数,木块砌墙问题
- 第三十四~三十五章:格子取数问题,完美洗牌算法
- 第三十六~三十七章、搜索智能提示suggestion,附近地点搜索
- 第三十八章:Hero在线编程判题、出题系统的演进与优化
- 第三十九~四十章:最近公共祖先LCA问题、打印螺旋矩阵
- 第四十一章~四十二章:荷兰国旗、矩阵相乘Strassen算法
- ...
程序员编程艺术第1~37章带标签的最新PDF下载地址为(3天3000人下载)
编程艺术github优化版阅读地址:https://github.com/julycoding/The-Art-Of-Programming-By-July-2nd
重大消息:经过反复修改、优化,编程艺术系列最终成书出版,并改名为《编程之法:面试和算法心得》,目前京东、当当、亚马逊等各大网店均已有现货销售。京东抢购地址:《编程之法:面试和算法心得(异步图书出品)》(July)【摘要 书评 试读】- 京东图书,且23年Q4将上市第二版
四、红黑树、B树、R树、Trie树
- 教你初步了解红黑树 (红黑树系列)
- 红黑树算法的实现与剖析
- 红黑树的C实现完整源码
- 一步一图一代码,R-B Tree
- 红黑树插入和删除结点的全程演示
- 红黑树的C++完整实现源码
- 从2-3-4树谈到Red-Black Tree(红黑树)
- 从B树、B+树、B*树谈到R 树 (B树的PDF)
- B树的C 实现
- 从Trie树(字典树)谈到后缀树 (其余树结构)
- 从LSM-Tree、COLA-Tree谈到StackOverflow、OSQA
五、机器学习十大算法系列
-
5.1 AI数学基础
- 概率统计极简入门:通俗理解微积分/期望方差/正态分布前世今生(23修订版)
- 一文通透优化算法:从随机梯度、随机梯度下降法到牛顿法、共轭梯度
- ..
-
5.2 AI工程实践
- 一文读懂特征工程
- 教你从头到尾利用DL学梵高作画:GTX 1070 cuda 8.0 tensorflow gpu版
- 没GPU也能玩梵高作画:Ubuntu tensorflow CPU版
- 基于torch学汪峰写歌词、聊天机器人、图像着色/生成、看图说话、字幕生成
- 教你从头到尾利用DQN自动玩flappy bird(全程命令提示,GPU+CPU版)
- 手把手教你搭建caffe及手写数字识别(Ubuntu下且附mac、纯通俗教程)
- 如何从零起步学习AI(附学习路线)
- GAN之父在NIPS 2016上做的报告:两个竞争网络的对抗(含译文下载)
- Kaggle—So Easy!百行代码实现排名Top 5%的图像分类比赛
- BAT机器学习面试1000题系列(第1~500题)
-
5.3 AI经典模型:从SVM XGBoost CNN RNN LSTM
- 数据挖掘领域十大经典算法初探
- 从K近邻算法、距离度量谈到KD树、SIFT+BBF算法,2012年11月
- 从决策树学习谈到贝叶斯分类算法、EM、HMM,2012年5月
- 支持向量机通俗导论(理解SVM的三层境界) PDF下载 LaTeX版本1 LaTeX版本2,2012年6月
- 最大熵模型中的数学推导,2014年10月
- 如何通俗理解EM算法,2018年8月
- Adaboost 的原理与推导 LaTeX版本下载,2014年11月
- 从拉普拉斯矩阵说到谱聚类,2014年11月
- 从贝叶斯方法谈到贝叶斯网络 LaTeX版本下载,2014年11月
- 通俗理解LDA主题模型 LaTeX版本下载,2014年11月
- CNN笔记:通俗理解卷积神经网络,2016年7月
- 图解CNN:通过100张图一步步理解CNN,2018年3月
- 一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD,2018年5月
- 通俗理解kaggle比赛大杀器xgboost,2018年8月
- 如何从RNN起步,一步一步通俗理解LSTM,2019年5月
- 如何通俗理解Word2Vec,2019年10月首发,后2023年全面修订
- GNN通俗笔记:图神经网络在推荐/广告中的应用,2021年3月
- 通俗理解卡尔曼滤波(感知融合的经典算法),2021年9月
- ..
六、大模型与ChatGPT系列:原理、论文、代码、应用
-
6.1 ChatGPT与o1的原理与实现系列
- ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT-N、instructGPT
- 强化学习极简入门:通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO
- 从零实现带RLHF的类ChatGPT:逐行解析微软DeepSpeed Chat的源码
- RLHF的替代算法之DPO原理解析:从RLHF、Claude的RAILF到DPO、Zephyr
- LLM/ChatGPT与多模态必读论文150篇(已更至第101篇)
- 一文通透OpenAI o1:从CoT、Quiet-STaR、Self-Correct、Self-play RL、MCST等技术细节到工程复现
-
6.2 国内外类ChatGPT:比如Llama2、Mistral、Llama3、Llama3.1
- LLaMA的解读与其微调(含LLaMA 2):Alpaca-LoRA/Vicuna/BELLE/中文LLaMA/姜子牙
- 详解带RLHF的类ChatGPT:从TRL、ChatLLaMA到ColossalChat、DSC
- ChatGLM两代的部署/微调/实现:从基座GLM、ChatGLM的LoRA/P-Tuning微调、6B源码解读到ChatGLM2的微调与实现
- baichuan7B/13B的原理与微调:从baichuan的SFT实现到baichuan2的RLHF实现
- 从Mistral 7B到MoE模型Mixtral 8x7B的全面解析:从原理分析到代码解读
- 一文速览Llama 3:从Llama 3的模型架构到如何把长度扩展到100万——基于NTK-aware插值
- 一文速览Llama 3.1——对其92页paper的全面细致解读:涵盖语言、视觉、语音的架构、原理
-
// 待更..
-
6.3 大模型背后的关键技术与前沿发展:LoRA/并行训练/长度扩展
- LLM高效参数微调方法:从Prefix Tuning、Prompt Tuning、P-Tuning V1/V2到LoRA、QLoRA(含对模型量化的解释)
- 大模型并行训练指南:通俗理解Megatron-DeepSpeed之模型并行与数据并行
- 通透理解FlashAttention与FlashAttention2:全面降低显存读写、加快计算速度
- 大模型长度扩展综述:从直接外推ALiBi、插值PI、NTK-aware插值(对此介绍最详)、YaRN到S2-Attention
- 大模型上下文长度的超强扩展:从LongLoRA到LongQLoRA(含源码剖析)
-
6.4 医疗及LLM与KG、DB的结合
- 医疗金融法律大模型:从ChatDoctor到BloombergGPT/FinGPT/FinBERT、ChatLaw/LawGPT_zh
- 知识图谱实战导论:从什么是KG到LLM与KG/DB的结合实战
- ..// 待更..
七、对Transformer的各种挑战:mamba、KAN、TTT等
- Transformer通俗笔记:从Word2Vec、Seq2Seq逐步理解到GPT、BERT
- 从零实现Transformer的简易版与强大版:从300多行到3000多行
- 一文通透位置编码:从标准位置编码、旋转位置编码RoPE到ALiBi、LLaMA 2 Long(含NTK-aware简介)
- 一文通透各种注意力:从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA
- 一文通透想颠覆Transformer的Mamba:从SSM、HiPPO、S4到Mamba
- 一文通透mamba2「力证Transformer are SSM」:从SSM、半可分矩阵、SMA、SSD到mamba2
- 一文通透想取代MLP的KAN:通俗理解Kolmogorov-Arnold定理和KAN的方方面面
- 一文通透TTT:让RNN的隐藏层变成可学习的函数——继mamba之后也想超越Transformer
- 一文通透DeepSeek-V2(改造Transformer的中文模型):详解MoE、GRPO、MLA
- ..
八、AIGC与CV多模态:图像/视频/代码生成/自动驾驶
-
8.1 AIGC/AI绘画/CV多模态/图像生成
- 图像生成发展起源:从VAE、VQ-VAE、扩散模型DDPM、DETR到ViT、Swin transformer
- AI绘画原理解析:从CLIP、BLIP到DALLE、DALLE 2、DALLE 3、Stable Diffusion
- 图像分割的大变革:从SAM(分割一切)到FastSAM、MobileSAM
- 文生图中从扩散模型到流匹配的演变:从SDXL到Stable Diffusion3(含Flow Matching和Rectified Flow的详解)
-
8.2 视频生成,含OpenAI首个视频生成模型sora
- Sora之前的视频生成发展史:从Gen2、Emu Video到PixelDance、SVD、Pika 1.0
- 视频生成Sora的全面解析:从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等
- 视频生成Sora的从零复现:从Latte、Open-Sora 1.0到StreamingT2V
- Google发布Genie硬杠Sora:通过大量无监督视频训练最终生成可交互虚拟世界
-
8.3 其他生成:代码生成
- 代码生成的原理解析:从Codex、GitHub Copliot到CodeLlama(用了NTK-aware)、CodeGeex
-
8.4 自动驾驶大模型
- 2024自动驾驶(多模态)大模型综述:从DriveGPT4、DriveMLM到DriveLM、DriveVLM
- // 待更
九、七月科研论文大模型:含论文的审稿微调、阅读、写作、修订
-
9.1 七月论文审稿GPT(从第1版到第6版)
- 23年Q3至24年Q1:第一轮
- 七月论文审稿GPT第1版:通过3万多篇paper和10多万的review数据微调RWKV
- 七月论文审稿GPT第2版:用一万多条paper-review数据微调LLaMA2 7B最终反超GPT4
- 七月论文审稿GPT第2.5和第3版:分别微调GPT3.5、Llama2 13B以扩大对GPT4的优势
- 七月论文审稿GPT第3.2版和第3.5版:通过paper-review数据集分别微调Mistral、gemma
- 七月论文审稿GPT第4版:通过paper-review数据集微调Mixtral-8x7b,对GPT4胜率超过80%
- 七月论文审稿GPT第4.2版:通过15K条paper-review数据微调Llama2 70B(含各种坑)
- 24年Q2至24年Q3:第二轮
- 提升大模型数据质量的三大要素:找到早期paper且基于GPT摘要出来7方面review(七月论文审稿GPT第4.5/4.6/4.8版)
- 微调LLama 3——七月论文审稿GPT第5版:拿早期paper-7方面review数据集微调LLama 3
- 一文速览Gemma及其微调(第5.2版):通过我司七月的早期paper-7方面review数据集微调Gemma2
- 微调LLama 3.1——七月论文审稿GPT第5.5版:拿早期paper-review数据集微调LLama 3.1
- ...
- 康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)
- ..
-
9.2 论文的阅读:基于大模型的翻译系统、检索、摘要、对话系统
- 学术论文GPT的源码解读与二次开发:从ChatPaper到gpt_academic
- // 待更..
-
9.3 论文的写作:idea的提出(涉及论文的抓取 检索 召回 排序 提炼)
- 基于大模型的idea提炼:从ResearchAgent,到斯坦福的AI-Researcher、上海AI实验室的VIRSCI
- 让AI写论文——全流程全自动的AI科学家:基于大模型提炼idea、写代码、做实验且最终写成论文
- ..
-
9.4 七月硕士论文助手——论文修订、语法纠错、润色等
- // 待更
十、大模型背景之下:工业协作机器人(含家务)
-
10.1 模仿学习的集中爆发:斯坦福机器人Mobile Aloha、UMI、DexCap、SRT
- 斯坦福mobile aloha系列
- 以Mobile ALOHA为代表的模仿学习的爆发:从Dobb·E、Gello到斯坦福ALOHA、UMI、DexCap、伯克利FMB
- ACT的原理解析:斯坦福炒虾机器人Moblie Aloha的动作分块算法ACT
- 逐行解读ACT的实现:斯坦福Mobile Aloha之动作分块算法ACT的代码剖析、训练部署
- SRT——基于模仿学习的手术机器人:来自约翰霍普金斯大学和斯坦福ALOHA团队
- 斯坦福UMI、DexCap及其变体系列
- UMI——斯坦福刷盘机器人:从手持夹持器到动作预测Diffusion Policy(含代码解读)
- Diffusion Policy——斯坦福机器人UMI所用的扩散策略:从原理到其编码实现(含Diff-Control、ControlNet详解)
- Fast-UMI——改进斯坦福UMI的硬件:用RealSense T265替代SLAM且实现机械臂的迁移与平替
- 机器人领域中的scaling law:通过复现斯坦福机器人UMI——探讨数据规模化定律(含UMI的复现关键)
- DexCap——斯坦福李飞飞团队泡茶机器人:带灵巧手和动作捕捉的数据收集系统(含硬件清单)
- 斯坦福泡茶机器人DexCap源码解析:涵盖收集数据、处理数据、模型训练三大阶段
- //..
-
10.2 预训练 + RL机器人
- 带RL的机器人:从类似预测下一个token的伯克利Digit到CMU 18万机器人
- HIL-SERL——UC伯克利开源的通用灵巧机器人框架:结合视觉和人类示教与纠正的RL方法(可组装电脑主板和插拔USB)
十一、机器人大模型:先预训练后微调(包含GR2、RDT、π0等)
- 字节GR2——在大规模视频数据集上预训练且机器人数据上微调,随后预测动作轨迹和视频(含GR1详解)
- RDT——清华开源的双臂机器人扩散大模型:先预训练后微调,支持语言、图像、动作多种输入(1B参数)
- π0——用于通用机器人控制的流匹配VLA模型:一套框架控制7种机械臂(基于PaliGemma和ACT的3B模型)
十二、VLM背景之下:视觉语言机器人的大爆发
- 视觉语言机器人的大爆发:从RT2、VoxPoser、OK-Robot到Figure 01、清华CoPa
- Google视觉机器人超级汇总:从RT、RT-2到AutoRT/SARA-RT/RT-Trajectory、RT-H
- ReKep——李飞飞团队提出的新一代机器人操作方法:基于视觉语言模型和关键点约束
- VLM驱动机器狗——从UMI on Legs到Helpful DoggyBot:分别把机械臂装到机器狗背上、夹爪装到机器狗嘴里
- ..
十三、具身智能背景之下:人形机器人的复现与开发
-
13.1 斯坦福的各个人形机器人,比如HumanPlus、iDP3
- HumanPlus——斯坦福ALOHA团队开源的人形机器人:融合影子学习技术、RL、模仿学习
- HumanPlus(斯坦福人形机器人)的代码解读与复现关键:从HST到HIT、HardWare
- 人体姿态估计WHAM与手势估计HaMeR:人形机器人重定向的关键技术之一(含SMPL-X的详解)
- 斯坦福iDP3——改进3D扩散策略以赋能人形机器人的训练:不再依赖相机校准和点云分割(含DP3、Diff-Control、ControlNet详解)
-
13.2 CMU、UC San Diego、英伟达的各个人形机器人,比如OmniH2O、TeleVision、HOVER等
- OmniH2O——通用灵巧且可全身远程操作并学习的人形机器人(其前身H2O是HumanPlus的重要参考)
- UC San Diego的三大机器人:AnyTeleop、Open-TeleVision、Bunny-VisionPro——从RGB相机到VR远程控制机器人
- 从MDM、RobotMDM到UC San Diego的Exbody——人体运动扩散模型:赋能机器人的训练
- 从根据视频学习的SeeDo(VLM生成规划和代码),到人形OKAMI、Harmon(重定向中VLM校正动作)
- 英伟达HOVER——用于人形机器人的多功能全身控制器:整合不同的控制模式且实现彼此之间的无缝切换
十四、RAG知识库问答系列
-
14.1 七月RAG第一版之探索,基本流程与基本框架
- LangChain+LLM的本地知识库问答:从企业单文档问答到批量文档问答
- 知识库问答LangChain+LLM的二次开发:商用时的典型问题及其改进方案
- 一文通透Text Embedding模型:从text2vec、openai-ada-002到m3e、bge
- 一文掌握文本语义分割:从朴素切分、Cross-Segment到阿里SeqModel
-
14.2 七月RAG第二版之探索,通用文档处理
- 从零实现本地知识库问答——详解基于OCR和文本解析器的新一代RAG引擎:RAGFlow(含源码剖析)
十五、智能体Agent项目
十六、其它重要文章节选
-
16.1、经典数据结构 & 算法系列
-
16.3、推荐 & 搜索算法系列
- 细数二十世纪最伟大的10大算法
- 当今世界最为经典的十大算法--投票进行时 (本blog将评选出当今世界最为经典的十大算法)
- 推荐引擎算法学习导论
- 搜索引擎技术之概要预览
- Machine Learning读书会,面试算法讲座,创业活动,算法班(14年10月) (含所有线下讲座PPT 集锦)
- 结构之法算法之道blog博文集锦第6、第7期CHM文件 第8期 第9期下载(第9期截止到2014年12月9日)
- ....
后记
世上本无路,走的人多了,也就成了路。世上本无免费的午餐,分享的人多了,也就造就了开源的辉煌
如果你发现了本blog中的任何一问题,请一定不吝指正,thanks。此外,你可以永久通过搜索引擎搜索本博客名称的前4个字,即:“结构之法” 这4个关键字,进入本博客。 最后,感谢CSDN,感谢所有一直以来关注本blog的所有朋友。谢谢大家,谢谢。
转发送书
欢迎大家转发下条微博:Sina Visitor System,我会不定期抽奖,经典IT图书大赠送:
2024.09.19最新更新:2015年,July团队正式创业,创办七月在线,一开始做教育,后拓科技,如今是「集AI大模型教育、应用开发、机器人解决方案为一体的科技公司」
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)