计算机视觉技术综述
计算机视觉不断发展,研究经历了从二维图像到三维到视频到真实空间的探知,3D点云,操作方法从构建三维向特征识别转变,算法从浅层神经网络到深度学习,数据的重要性逐渐被认知,伴随着计算机从理论到应用的速度加快,高质量的各种视觉数据不断沉淀,如今无论是在社会经济农业还是工业检测领域、元宇宙技术结合的VR,还是视频存储、游戏3D场景、电商应用不断发展,计算机视觉技术仍具有巨大发展潜力。视觉技术中深度学习算法
目录
一、技术背景
1、什么是计算机视觉技术
计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉技术,并进一步对收集图形进行处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。因为感知可以看作是从感官信号中提取信息,所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。目前主要流行的使用卷积神经网络(CNN)处理图像和目标检测技术(YOLO)。
2、该技术兴起的背景
20世纪50年代,神经生理学家David Hubel和Torsten Wiesel通过猫的视觉实验,首次发现了视觉初级皮层神经元对于移动边缘刺激敏感,发现了视功能柱结构,为视觉神经研究奠定了基础,奠定了深度学习之后的核心准则。经过人们深入相关算法研究,不断完善图像处理技术。计算机视觉不断发展,研究经历了从二维图像到三维到视频到真实空间的探知,3D点云,操作方法从构建三维向特征识别转变,算法从浅层神经网络到深度学习,数据的重要性逐渐被认知,伴随着计算机从理论到应用的速度加快,高质量的各种视觉数据不断沉淀,如今无论是在社会经济农业还是工业检测领域、元宇宙技术结合的VR,还是视频存储、游戏3D场景、电商应用不断发展,计算机视觉技术仍具有巨大发展潜力。
二、国内外计算机视觉技术现状
1、计算机视觉技术分类、发展历程及其可能导致社会问题,研究中存在问题,如何改进。
计算机视觉技术分类:
计算机视觉应用主要有5大技术,分别为图像分类、目标检测、目标跟踪、语义分割、实列分割,通过此基本技术可以实现图像中提取、分析和理解有用信息,常用深度学习主要CNN和YOLO追踪检测技术,理论可实现各种模型。经过70多年的发展研究,如今计算机视觉技术已经取得重大突破,并广泛应用各领域中,并受到各国领导的重视,深刻影响当今社会和科技革命,人工智能发展促进大数据技发展,使得分布式存储技术成为主流。国外人工智能领域技术上突破,促进世界科技发展,如chatGPT流行后,各大企业加大对人工智能领域投入研究,我国互联网企业也取得重大成就,著名的有百度云的文心一言、阿里云的通义千问,同时视觉技术在我国汽车无人驾驶、远程AI治疗、无人机等方面取得重大进展。
计算机视觉主要发展历程:
20世纪60年代,Lawrence Roberts《三维固体的机器感知》描述了从二维图片中推导三维信息的过程,开创了理解三维场景为目的的计算机视觉研究。从边缘的检测、角点特征的提取,到线条、平面、曲线等几何要素分析,到图像明暗、纹理、运动以及成像几何等,并建立了各种数据结构和推理规则。
20世纪80年代,逻辑学和知识库等理论在人工智能领域占据了主导地位。人们试图建立专家系统来存储先验知识,然后再与实际项目中提取的特征进行规则匹配。这种思想也同样影响了计算机视觉领域,于是诞生了很多这方面的方法。例如David G. Lowe在论文《Three-Dimensional Object Recognition from Single Two-Dimensional Images》中提出了knowledge-based vision的概念。
20世纪90年代,特征对象识别开始成为重点,1997年,伯克利教授JitendraMalik发表了一篇论文,描述了他试图解决感性分组的问题。研究人员试图让机器使用图论算法将图像分割成合理的部分。1999年, David Lowe 发表《基于局部尺度不变特征(SIFT特征)的物体识别》,标志着研究人员开始停止通过创建三维模型重建对象,而转向基于特征的对象识别。
21世纪,图像特征工程出现真正拥有标注的高质量数据集,尤其是深度学习在视觉上的应用,如PyTorch和TensorFlow等深度学习框架,ImageNet、PASCAL等超大型图片数据库使得深度学习训练成为可能并广泛应用于各个行业中,提高生产力,促进社会发展。
今年来流行的深度学习网络:
- AlexNet应该算第一个深度CNN;
- ZFNet采用DeconvNet和visualization技术可以监控学习过程;
- VGGNet采用小滤波器3X3去取代大滤波器5X5和7X7而降低计算复杂度;
- GoogleNet推广NIN的思路定义Inception基本模块(采用多尺度变换和不同大小滤波器组合,即1X1,3X3,5X5)构建模型;
- Highway Networks借鉴了RNN里面LSTM的gaiting单元;
- ResNet是革命性的工作,借鉴了Highway Networks的skip connection想法,可以训练大深度的模型提升性能,计算复杂度变小;
- Inception-V3/4用1X7和1X5取代大滤波器5X5和7X7,1X1滤波器做之前的特征瓶颈,这样卷积操作变成像跨通道(cross channel)的相关操作;
- DenseNet主要通过跨层链接解决vanishing gradient问题;
- SE-Net是针对特征选择的设计,gating机制还是被采用;
- 前段时间流行的Attention机制也是借鉴于LSTM,实现object-aware的context模型。
在具体应用领域也出现了不少成功的模型,比如
- detection问题的R-CNN,fast RCNN,faster RCNN,SSD,YOLO,RetinaNet,CornerNet等,
- 解决segmentation问题的FCN,DeepLab,Parsenet,Segnet,Mask R-CNN,RefineNet,PSPNet,U-Net等,
- 处理激光雷达点云数据的VoxelNet,PointNet,BirdNet,LMNet,RT3D,PIXOR,YOLO3D等,
- 实现激光雷达和图像融合的PointFusion,RoarNet,PointRCNN,AVOD等,
- 做图像处理的DeHazeNet,SRCNN (super-resolution),DeepContour,DeepEdge等,
- 2.5 D视觉的MatchNet,DeepFlow,FlowNet等,
- 3-D重建的PoseNet,VINet,Perspective Transformer Net,SfMNet,CNN-SLAM,SurfaceNet,3D-R2N2,MVSNet等,
- 以及解决模型压缩精简的MobileNet,ShuffleNet,EffNet,SqueezeNet。
计算机可能导致的社会问题:
计算机视觉技术具有显著特大,可融合传统工业,以训练模型应用于生产,可实现大量重复性工作,代替工人。随着该技术不断发展可能导致大量工人失业,带来社会就业问题,大学生毕业找不到工作等问题。第二就是该技术可能带来安全隐患,非法分子利用该技术进行非法收集个人信息,导致个人隐私泄露等。
计算机视觉技术研究存在不足,如何改进?
视觉技术中深度学习算法有限,发展似乎到了瓶颈期,研究需要新的突破口,同时各公司视觉技术算法基本上同质化,创新能力有待突破。计算机视觉技术研究改进必定是趋于精细化、效率化、多模化。数据采集和标注的精细度会更高。从算法的学术研究到产业落地,对于标注内容的精细程度正在不断上升,数据采集和标注的效率,将很大程度考验着数据服务商的专业度。三是,多模态的数据采集和标注,会成为一种必然趋势。
2、最新技术
图像识别是计算机视觉技术的核心,而其最新技术,主要是实现超精细识别和助力近年来新兴起的元宇宙技术。第一主要体现在超小细节区域带来的新挑战,研究重点也转变为全域物体、超细微差异和精细化语义理解的图像识别。从类别数目、空间尺寸和语义丰富度三个维度可以看到,超精细图像识别主要研究面向10万至百万类别类目、约百分之一甚至更小的感兴趣区域占比,以及复杂场景全面语义的新一代图像识别技术,能化升级的需求。如Ai+超精细视觉技术在医疗、航空航天和农业等方面具有重要研究意义。
目前比较热门研究主要有)优化数据质量,应用于健康和安全领域,应用于零售业,自动驾驶汽车领域,边缘计算领域等。
3、计算机视觉技术展望
目前,计算机视觉技术发展最大瓶颈是算法算力上的提升,如何进一步实现超精细识别技术是的重点研究方向,如果实现超精细识别,结合望远镜特点,可实现天文观测应用,医疗上实现医生远程为病人做手术,还可以应用到人体细胞等微小观测研究。同时元宇宙技术在3D真实场景模拟,提供更真实的感受。而这些技术上的突破是可实现的,5G通信为网络传输速度提高了保障,NVIDIA公司的GPU算力加速性能不断提升,可为视觉技术应用训练模型提高保障。
未来,人们安全和效率需求不断提升,计算机视觉技术在各行业应用能有效满足人们需求,市场发展空间巨大。国家政策对人工智能行业的支持也为计算机视觉的发展提供了有利的环境。随着计算机视觉技术日渐成熟,企业商业化落地能力不断提高,未来计算机视觉市场规模将迎来突破性发展。2021年我国AI芯片市场规模达426.8亿元,同比增长123.9%。随着未来AI芯片的应用场景不断丰富,不断增长的需求也将促进我国AI芯片市场规模的持续增长。预计到2025年我国AI芯片市场规模将达1780亿元。可见计算机视觉技术在未来发展具大潜力。可为我国科技兴国、强国提供动力。团结全民族努力奋斗,共同致力实现国家富强。
未来计算机视觉技术将在更多的领域有所落地应用,自动驾驶领域、高考、政务等领域更多的场景开始应用计算机视觉技术。伴随着技术成熟度提高,人脸识别、物体识别等分类、分割算法不算提升精度,未来将有更多的场景能够应用计算机视觉技术,计算机视觉企业应在强化技术打造的前提下,发掘更多新的应用领域,提高商业落地应用。
但目前人脸识别技术仍然存在一定缺陷,现阶段人脸识别技术在智能手机终端上的应用仍处于起步发展阶段,技术和安全性仍有待提高,未来随着各计算机视觉企业加强技术研发
三、结论
本文主要介绍计算机视觉技术兴起背景,以及该技术发展历程,并研究总结该技术主要特点、应用领域,以及视觉技术未来发展详情,通过收集资料、整合国内外文献,经研究发现计算机视觉技术还具有重大发展潜力,主要表现在视觉技术在超微领域上的识别,结合传统工业方面进行融合创新。其次就是应用在新科技方面,这表现在今年流行的数字孪生技术、元宇宙领域和无人机器应用,尤其是在Ai智能芯片领域内。第三点就是应用在智能开发,基于深度学习,根据要求自主写代码开发系统以及相关应用,降低开发成本,提高工作效率。对于如何学好计算机视觉技术,将该技术更好服务人民,推动社会发展,这需要拥有一些工程和实践思维更为重要,从降低开发使用成本,提升模型训练效率和推理的准确性,提高泛化能力,降低学习应用门槛和操作难度等这些角度去定义问题将更有实际意义。
接下来的实际应用计算机视觉技术研究方向,第一步先打好相关领域基础,如高等数学微积分、线性代数、概率论等;第二步是掌握好必要的编程语言技术,如Python和C++,第三步是深入学习机器学习,掌握其原理,相关算法应用;第四步是学习掌握深度学习,掌握流行框架PyTorch 和 TensorFlow;第五步是基于卷积神经网络和YOLO技术研究检测人脸识别项目,部署至云服务器并深入研究其社会应用。
大家点赞、收藏、关注、评论啦 !
谢谢哦!如果不懂,欢迎大家下方讨论学习哦。
四、参考文献(至少10篇,至少2篇英文文献)
[1] 王铁胜.计算机视觉技术的发展及应用[J].信息系统工程,2022,(04):63-66.
[2]王锦凯,宋锡瑾.计算机视觉技术应用研究综述[J].计算机时代,2022,(10):1-4+8.
[3] 张顺,龚怡宏,王进军.深度卷积神经网络的发展及其在计算机视觉领域的应用[J].计算机学报,2019,42(03):453-482.
[4] 王莎莎.计算机视觉技术在智能化农业机械中的应用研究[J].南方农机,2023,54(10):47-49.
[5] 王轶凡,温煦.从直接测热法到计算机视觉技术:身体活动能量消耗测量的历史与未来[J].上海体育学院学报,2023,47(04):92-104.
[6] 高莹.智能交通系统中的计算机视觉技术应用[J].石河子科技,2023,(02):71-72.
[7] 罗虎,Miller Mark,张睿,方勇.基于计算机视觉技术和深度学习的隧道掌子面岩体裂隙自动识别方法研究[J].现代隧道技术,2023,60(01):56-65.
[8] 徐飞,邹寿春.基于计算机视觉技术和支持向量机的手势识别算法研究[J].佳木斯大学学报(自然科学版),2023,41(01):29-33.
[9] 管娜.基于计算机视觉的无人机目标跟随技术研究[J].长江信息通信,2022,35(08):85-87.
[10] 胡阳修,贺亮,赵长春,陈扬,钱洲元.基于路径跟随的改进领航-跟随无人机协同编队方法[J].飞控与探测,2021,4(02):26-35.
[11] Chang X, et al. (2017) Robust in-flight sensor fault diagnostics for aircraft engine based on sliding mode observers. Sensors 17(4): 835–849.
[12] Bai S, He Z, QiaoY, et al. Adaptive Dilated Network with Self-Correction Supervision for Counting[A]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)[C].Online:IEEE,2020:4593- 4602
[13] Bergstrom T, Shi H. Human-Object Interaction Detection: A Quick Survey and Examination of Methods[A]. Proceedings of the 1st International Workshop on Human-centric Multimedia Analysis[C]. Seattle, Washington: The 28th ACM International Conference on Multimedia,October 2020:63-71
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)