《计算机视觉:模型、学习和推理》——导读

简介: 我们可以根据这些量选择性地组织知识,但在我看来,模型中最重要的内容是全局状态和测量值之间的统计关系。这主要有三个原因。首先,模型的类型往往超越了应用(同一个模型可用于不同的视觉任务);其次,模型能够自然地把它们自身组织成一些可分开理解的系列


image


**
前言
**
目前,已有很多关于计算机视觉的书籍,那么还有必要再写另外一本吗?下面解释撰写本书的原因。
计算机视觉是一门工程学科,机器在现实世界中捕获的视觉信息可以激发我们的积极性。因此,我们通过使用计算机视觉解决现实问题来对我们的知识进行分类。例如,大多数视觉教科书都包含目标识别和立体视觉内容。我们的学术研讨会也是用同样的模式进行组织的。本书对这一传统方式提出了质疑:这真的是我们组织自己知识的正确方法吗?
对于目标识别问题,目前已提出多种算法解决这一问题(例如子空间模型、boosting模型、语义包模型、星座模型等)然而,这些方法没有什么共同点。任何试图全面描述知识的壮举都会转变为一个非结构化的技术列表。我们怎样让新同学把所有的技术和理论都弄懂呢?我主张使用一种不同的方式来组织知识,但首先让我告诉大家我是如何看待计算机视觉问题的。
对于一幅图像,我们不仅要观察图像中的内容,同时还需要提取其测量值。例如,我们可以直接使用RGB值,或者对图像进行滤波处理,或者执行一些更复杂的预处理。计算机视觉的目标或者需要解决的问题是使用这些测量值来推理全局状态。例如:在立体视觉中,我们尝试推断出场景的深度。在目标识别中,我们尝试推断某一特定类目标存在与否。
为了实现目标,我们建立一个模型。模型描述了测量值与全局状态之间的一系列统计关系。这一系列统计关系中的特殊成员是由一个参数集合确定的。在学习的过程中,选择这些参数,以便它们能够准确反映测量值与全局状态之间的关系。在推理的过程中,选用一组新的测量值,并利用学习后的模型来推理全局状态。学习和推理的方法包含在算法中。我认为计算机视觉应该从以下几方面来理解:目标、测量值、全局状态、模型、参数、学习和推理算法。
我们可以根据这些量选择性地组织知识,但在我看来,模型中最重要的内容是全局状态和测量值之间的统计关系。这主要有三个原因。首先,模型的类型往往超越了应用(同一个模型可用于不同的视觉任务);其次,模型能够自然地把它们自身组织成一些可分开理解的系列(例如,回归、马尔可夫随机场、相机模型);最后,在模型层次上讨论视觉问题使得我们能够得到那些貌似不相关的算法和应用之间的关联。因此,本书的章节安排非常巧妙,每个主要的章节都讨论一系列不同的模型。
最后一点,本书中的大部分思想在第一次接触到时是难以理解的。因此,我的目标是使后续研究计算机视觉的学生更容易理解这些内容,我希望这本书能够达到这一目的,并能够激励读者深入了解计算机视觉。

目录

第1章 绪论
1.1 本书结构
1.2 其他书籍
第1部分 概率
[第2章 概率概述
2.1 随机变量](https://yq.aliyun.com/articles/118914)
2.2 联合概率
2.3 边缘化
2.4 条件概率
2.5 贝叶斯公式
2.6 独立性
2.7 期望
2.8 讨论
2.9 习题
第3章 常用概率分布
3.1 伯努利分布
3.2 贝塔分布
3.3 分类分布
3.4 狄利克雷分布
3.5 一元正态分布
3.6 正态逆伽马分布
3.7 多元正态分布
3.8 正态逆维希特分布
3.9 共轭性
3.10 总结
3.11 习题

相关文章
|
3月前
|
机器学习/深度学习 存储 数据库
Python3 OpenCV4 计算机视觉学习手册:6~11(5)
Python3 OpenCV4 计算机视觉学习手册:6~11(5)
|
3月前
|
机器学习/深度学习 计算机视觉
AIGC核心技术——计算机视觉(CV)预训练大模型
【1月更文挑战第13天】AIGC核心技术——计算机视觉(CV)预训练大模型
368 3
AIGC核心技术——计算机视觉(CV)预训练大模型
|
2月前
|
机器学习/深度学习 算法 数据可视化
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-2
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
96 0
|
2月前
|
机器学习/深度学习 Ubuntu Linux
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-1
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
55 1
|
3月前
|
机器学习/深度学习 算法 数据挖掘
Python3 OpenCV4 计算机视觉学习手册:6~11(2)
Python3 OpenCV4 计算机视觉学习手册:6~11(2)
|
3月前
|
算法 计算机视觉 索引
Python3 OpenCV4 计算机视觉学习手册:1~5
Python3 OpenCV4 计算机视觉学习手册:1~5
|
3月前
|
机器学习/深度学习 编解码 人工智能
Vision Mamba:将Mamba应用于计算机视觉任务的新模型
Mamba是LLM的一种新架构,与Transformers等传统模型相比,它能够更有效地处理长序列。就像VIT一样现在已经有人将他应用到了计算机视觉领域,让我们来看看最近的这篇论文“Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Models,”
230 7
|
1月前
|
机器学习/深度学习 人工智能 计算机视觉
生成式计算机视觉(CV)模型的发展历程及最新进展
在计算机视觉(CV)领域,生成式AI技术的发展经历了多个阶段。在深度学习革命之前,传统的图像生成技术主要依赖于手工制作的特征,如纹理合成和纹理映射等方法。然而,这些方法在生成复杂和生动的图像方面的能力是有限的。
86 2
|
3月前
|
机器学习/深度学习 数据可视化 算法
Python3 OpenCV4 计算机视觉学习手册:6~11(4)
Python3 OpenCV4 计算机视觉学习手册:6~11(4)
|
3月前
|
传感器 算法 vr&ar
Python3 OpenCV4 计算机视觉学习手册:6~11(3)
Python3 OpenCV4 计算机视觉学习手册:6~11(3)

热门文章

最新文章