《计算机视觉:模型、学习和推理》——第1章 绪论

简介:

本节书摘来自华章计算机《计算机视觉:模型、学习和推理》一书中的第1章,作者:(英)普林斯(Prince,J. D.)著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第1章 绪论

机器视觉旨在从图像中提取有用的信息,这已经被证实是一个极具挑战性的任务。在过去的四十年里,成千上万个聪慧和创造性的大脑致力于这一任务。尽管如此,我们还远远没有能够建立一个通用的“视觉机器”。
该问题的部分原因是可视数据复杂性所导致的。考虑图1-1中的图像。场景中有数百个物体。这些物体几乎都没有呈现出“特定”的姿态。几乎所有的物体都被部分遮挡。对于一个机器视觉算法,很难确定某个物体的结束和另一个物体开始的地方。譬如,背景中的天空和白色建筑物之间的边界上,图像在亮度上几乎没有变化。然而,即使没有物体的边界或材质的变化,前景中SUV后窗上的亮度也有明显的变化。
如果不是因为一个论证,我们可能已经对发展有用的计算机视觉算法的可能性感到沮丧。即我们有具体的证据证明计算机视觉是可研究的,因为我们自有的视觉系统能够毫不费力地处理如图1-1这样的复杂图像。如果要求你统计出该图像中的树的总数或绘制街道布局的草图,你可以很容易做到这点。甚至你可能通过提取微妙的视觉线索,比如人的种族、车和树的种类以及天气等,找出这张照片是在世界上哪个位置拍的。
image

图1-1 一个视觉场景包含许多物体,而几乎所有物体都是部分遮挡的。黑圈所示场景中几乎没有亮度的变化指示天空和建筑之间的边界。灰圈所示区域中有很大的亮度变化但这实际上跟亮度没关系,这里没有物体边界或物体材质的变化
因此,研究计算机视觉并非是不可能的,只是它非常具有挑战性。也许刚开始这并不能被大家重视,因为当我们看一个场景时,我们所能感知到的场景中的物体都已经是深加工过的。例如,在明亮的日光下观察一块煤炭,然后再到昏暗的室内看一张白纸,这一过程中眼睛从煤中单位面积上所接收到的光子数远远多于比从白纸上接收到的光子数。即便如此,我们仍然认为煤炭是黑的,纸是白的。脑视觉有很多这样的小把戏,但是,当我们建立视觉算法时,其不具备这种预处理效果。
尽管如此,广义理解的计算机视觉领域已取得显著进步,并在过去的十年里人们见证了计算机视觉技术在个人消费领域的首次大规模部署。例如,如今大多数数码相机已经嵌入人脸检测算法,在撰写本书时,微软Kinect(一种实时跟踪人体形态的外围设备)一直是销售最快的消费电子设备吉尼斯世界纪录的保持者。包括这两个在内的更多应用所涉及的原理在本书中都有详尽的解释。
计算机视觉近期的迅速发展有许多的原因。最为显而易见的原因是计算机的处理能力、内存以及存储能力有了巨大的提升。在鄙视早期计算机视觉先驱微小进步的时候,我们应该想到即使在内存中存储一幅高分辨率图片他们也需要专用硬件。该领域近期进步的另一个原因是机器学习的广泛使用。最近的20年见证了机器学习领域令人兴奋的发展,如今其已被广泛应用在视觉处理中。机器学习不仅提供了许多有用的工具,它还有助于我们以新的视角理解已知算法及其联系。
机器视觉的未来是令人激动的。随着我们日益增长的认识,人工视觉将会在未来十年里变得越来越流行。然而,这仍然是一个年轻的学科。处理如图1-1中复杂场景的工作直到最近仍是不可想象的。正如Szeliski(2010)所指出的,“计算机若要具备像两岁小孩那样能给出图片中所有物体名称和轮廓的能力,可能还得再过很多年。”然而,这本书提供了一张关于我们所取得成果的快照,以及这些成果背后的原理。

目录
打赏
0
0
0
0
1408
分享
相关文章
Python3 OpenCV4 计算机视觉学习手册:6~11(5)
Python3 OpenCV4 计算机视觉学习手册:6~11(5)
119 0
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-2
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
关于计算机视觉中的自回归模型,这篇综述一网打尽了
这篇综述文章全面介绍了自回归模型在计算机视觉领域的应用和发展。文章首先概述了视觉中的序列表示和建模基础知识,随后根据表示策略将视觉自回归模型分为基于像素、标记和尺度的三类框架,并探讨其与生成模型的关系。文章详细阐述了自回归模型在图像、视频、3D及多模态生成等多方面的应用,列举了约250篇参考文献,并讨论了其在新兴领域的潜力和面临的挑战。此外,文章还建立了一个GitHub存储库以整理相关论文,促进了学术合作与知识传播。论文链接:https://arxiv.org/abs/2411.05902
44 1
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-1
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。
大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态模型等领域应用最广
【7月更文挑战第26天】大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态模型等领域应用最广
428 11
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
255 8
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
366 3
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等