备案控制台

开发者社区

开发者社区人工智能文章正文

吴恩达《深度学习》第一门课（2）神经网络的编程基础

2018-07-08 1419

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 2.1二分类（1）以一张三通道的64×64的图片做二分类识别是否是毛，输出y为1时认为是猫，为0时认为不是猫：y输出是一个数，x输入是64*64*3=12288的向量。（2）以下是一些符号定义（数据集变成矩阵之后进行矩阵运算代替循环运算，更加高效）x：表示一个nx维数据，维度为（nx,1）...

2.1二分类

（1）以一张三通道的64×64的图片做二分类识别是否是毛，输出y为1时认为是猫，为0时认为不是猫：

y输出是一个数，x输入是64*64*3=12288的向量。

（2）以下是一些符号定义（数据集变成矩阵之后进行矩阵运算代替循环运算，更加高效）

x：表示一个n_x维数据，维度为（n_x,1）

y：表示输出结果，取值为（0,1）；

（x⁽ⁱ⁾,y⁽ⁱ⁾）：表示第i组数据；

X=[x⁽¹⁾,x⁽²⁾,……,x^(m)]：表示按列将所有的训练数据集的输入值堆叠成一个矩阵；其中m表示样本数目；

Y=[y⁽¹⁾,y⁽²⁾,……,y^(m)]：表示所有输入数据集对于的输出值，其维度为1×m;

2.2逻辑回归

（1）逻辑回归的输出值是一个概率，算法思想如下：

（2）激活函数使用sigmoid,它使得输出值限定在0到1之间，符合概率的取值。

（3）关于偏置项(偏差)b，可将其变成θ₀，对应的x₀恒定为1，如下所示：

2.3逻辑回归的代价函数

（1）损失函数（针对单个样本）：

（2）代价函数（针对全部训练样本）：

2.4梯度下降法

（1）下图中左边为凸函数，右边为非凸函数，逻辑回归中代价函数为凸函数，故任意的初始化都能收敛到最优点：

（2）参数w、b的更新方式：

2.5导数

导数即斜率。

2.6跟多的导数例子

记住一些常见的导数求法或者直接查看导数表。

2.7计算图

（1）下图展示计算图计算的过程：

（2）正向传播用于计算代价函数

2.8计算图的导数计算

（1）反向传播利用链式法则来进行求导，如对a进行求导，其链式法则公式为：

2.9逻辑回归中的梯度下降

针对于单个样本

（1）计算图如下：

（2）首先计算da:

（3）然后计算dz:

（4）最后计算dw，db（下面的式子其实已经对所有样本进行的求导）:

2.10m个样本的梯度下降法

（1）以下代码显示了对整个数据集的一次迭代

（2）以上过程会有两个循环，一个循环是循环是遍历样本，第二个循环是当w很多时是要循环的，上面之写出了两个w,所以没体现出来。

2.11向量化

（1）使用循环的方式计算：ω^Tx

（2）使用向量的方式

后者不仅书写简单，更重要的是计算速度可以比前者快特别多。

2.12向量化的更多例子

（1）消除w带来的循环

设置u=np.zeros(n(x),1)来定义一个x行的一维向量，从而替代循环，仅仅使用一个向量操作dw=dw+x⁽ⁱ⁾dz⁽ⁱ⁾，最后我们得到dw/m。

2.13向量化逻辑回归

（1）将样本x横向堆叠，形成X，同时根据python的广播性质（把实数b变成了（1，m）维），得到：

（2）继续利用Python的计算方法，得到A：

2.14向量化logistic回归的梯度输出

（1）没有用向量化时使用的代码：

（2）使用向量化之后的代码：

其中前面五个式子完成了前向和后向的传播，也实现了对所有训练样本进行预测和求导，再利用后两个式子，梯度下降更新参数。另外如果需要多次迭代的话，还是需要用到一个循环的，那是避免不了的。

2.15Python中的广播

（1）下图形象的总结了Python中的广播

（2）在Python的numpy中，axis=0是按照列操作，axis=1,是按照行操作，这一点需要注意。

2.16关于python_numpy向量的说明

（1）使用a=np.random.randn(5)生成的数据结构在python中称为一维数组，它既不是行向量也不是列向量，用a.shape的结果是（5，）这表示它是一个一维向量，a和它的转置相乘其实得到的是一个数。

（2）应该使用a=np.random.randn(5，1)这样生成的是一个行向量，它和他的转置乘积会是一个矩阵：

2.17Jupyter/iPython Notebooks快速入门

2.18（选修）logistics损失函数的解释

（1）首先需要明确，逻辑回归的输出表示y等于1的概率。故有：

（2）合并成一个式子（要使得式子越大越好）：

（3）根据对数函数log的单调递增性，对上式取对数有：

（4）要最大化上式，最小化上式取反，得到一个样本的损失函数。

（5）所有样本时，认为样本间独立同分布，故联合概率就是每个样本的乘积：

（6）两边取对数得到：

（7）要最大化上式（最大似然估计）也就是最小化：

总结一下：为了最小化成本函数J（w,b），我们logistic回归模型的最大似然估计的角度出发，假设训练集中的样本都是独立同分布的条件下。

文章标签：

机器学习/深度学习

Python

关键词：

深度学习神经网络

深度学习网络

网络编程

深度学习吴恩达

神经网络吴恩达

ysyouaremyall

目录

相关文章

1941623231718325

|

12天前

|

安全 Java 数据处理

Python网络编程基础（Socket编程）多线程/多进程服务器编程

【4月更文挑战第11天】在网络编程中，随着客户端数量的增加，服务器的处理能力成为了一个重要的考量因素。为了处理多个客户端的并发请求，我们通常需要采用多线程或多进程的方式。在本章中，我们将探讨多线程/多进程服务器编程的概念，并通过一个多线程服务器的示例来演示其实现。

1941623231718325

29 0 0

我爱matlab

|

1月前

|

机器学习/深度学习数据采集人工智能

m基于深度学习网络的手势识别系统matlab仿真,包含GUI界面

m基于深度学习网络的手势识别系统matlab仿真,包含GUI界面

我爱matlab

40 0 0

简简单单做算法

|

1月前

|

机器学习/深度学习算法计算机视觉

基于yolov2深度学习网络的视频手部检测算法matlab仿真

基于yolov2深度学习网络的视频手部检测算法matlab仿真

简简单单做算法

23 2 2

SarPro

|

12天前

|

机器学习/深度学习算法 PyTorch

【动手学深度学习】深入浅出深度学习之线性神经网络

【动手学深度学习】深入浅出深度学习之线性神经网络

SarPro

54 9 9

4as3qn2go3ure

|

5天前

|

机器学习/深度学习数据可视化测试技术

深度学习：Keras使用神经网络进行简单文本分类分析新闻组数据

深度学习：Keras使用神经网络进行简单文本分类分析新闻组数据

4as3qn2go3ure

19 0 0

4as3qn2go3ure

|

6天前

|

机器学习/深度学习 API 算法框架/工具

R语言深度学习：用keras神经网络回归模型预测时间序列数据

R语言深度学习：用keras神经网络回归模型预测时间序列数据

4as3qn2go3ure

16 0 0

4as3qn2go3ure

|

6天前

|

机器学习/深度学习数据采集 TensorFlow

R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据（MNIST）

R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据（MNIST）

4as3qn2go3ure

23 0 0

桃李春风一杯酒

|

8天前

|

SQL 安全 Java

Java安全编程：防范网络攻击与漏洞

【4月更文挑战第15天】本文强调了Java安全编程的重要性，包括提高系统安全性、降低维护成本和提升用户体验。针对网络攻击和漏洞，提出了防范措施：使用PreparedStatement防SQL注入，过滤和转义用户输入抵御XSS攻击，添加令牌对抗CSRF，限制文件上传类型和大小以防止恶意文件，避免原生序列化并确保数据完整性。及时更新和修复漏洞是关键。程序员应遵循安全编程规范，保障系统安全。

桃李春风一杯酒

15 2 2

wljslmz

|

12天前

|

机器学习/深度学习自然语言处理算法

深度学习中必备的算法：神经网络、卷积神经网络、循环神经网络

【4月更文挑战第6天】

wljslmz

32 1 1

1941623231718325

|

15天前

|

Python

Python网络编程基础（Socket编程）UDP服务器编程

【4月更文挑战第8天】Python UDP服务器编程使用socket库创建UDP套接字，绑定到特定地址（如localhost:8000），通过`recvfrom`接收客户端数据报，显示数据长度、地址和内容。无连接的UDP协议使得服务器无法主动发送数据，通常需应用层实现请求-响应机制。当完成时，用`close`关闭套接字。

1941623231718325

12 3 3

热门文章

最新文章

神经网络的训练过程、常见的训练算法、如何避免过拟合

大模型开发：解释卷积神经网络（CNN）是如何在图像识别任务中工作的。

卷积神经网络中的卷积层，如何提取图片的特征？

使用自组织映射神经网络（SOM）进行客户细分

网络名称空间在Linux虚拟化技术中的位置

【MATLAB】GA_ELM神经网络时序预测算法

Python用LSTM长短期记忆神经网络对不稳定降雨量时间序列进行预测分析

使用PYTHON中KERAS的LSTM递归神经网络进行时间序列预测

R语言深度学习：用keras神经网络回归模型预测时间序列数据

RPN(Region Proposal Networks)候选区域网络算法解析（附PyTorch代码）

基于深度学习的图像识别技术在自动驾驶系统中的应用

深度学习在图像识别中的应用与挑战

基于深度学习的图像识别技术在自动驾驶系统中的应用研究

从零构建现代深度学习框架(TinyDL-0.01)

深度学习驱动下的智能监控革新：图像识别技术的前沿应用

基于深度学习的图像识别技术在自动驾驶系统中的应用

Python 深度学习第二版（GPT 重译）（四）(4)

Python 深度学习第二版（GPT 重译）（四）(2)

Python 深度学习第二版（GPT 重译）（四）(1)

基于深度学习的图像识别技术在自动驾驶系统中的应用

相关课程

更多

云网络白皮书-阿里云网络系列课

企业上云攻略-阿里云网络产品应用系列教程

Linux网络进阶 - TCP/IP协议及OSI七层模型

深度学习与自动驾驶

网络管理者必知-2分钟了解新出台的《网络安全法》

神经网络概览及算法详解

相关电子书

更多

阿里云异构计算平台——加速AI深度学习创新

GPU在超大规模深度学习中的发展和应用

深度学习的最新进展

相关实验场景

更多

容器的网络入门

容器的自定义网络

零基础入门Serverless：基于函数计算快速搭建基于人工智能的目标检测系统

自然语言入门：NLP数据读取与数据分析

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）