Python3入门机器学习 - PCA(主成分分析)

简介: 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分),其中每个主成分都能够反映原始变量的大部分信息,且所含信息互不重复。

主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分),其中每个主成分都能够反映原始变量的大部分信息,且所含信息互不重复。这种方法在引进多方面变量的同时将复杂因素归结为几个主成分,使问题简单化,同时得到的结果更加科学有效的数据信息。

img_80b04df9b267cca9e5d075e2c78c2337.png


使用梯度上升法求解主成分


//准备数据
import numpy as np
import matplotlib.pyplot as plt

X = np.empty((100,2))
X[:,0] = np.random.uniform(0.,100.,size=100)
X[:,1] = 0.75*X[:,0]+3.+np.random.normal(0,10.,size=100)

plt.scatter(X[:,0],X[:,1])
plt.show
img_ca898bb4c0a4b0193bfef2cd45b66e66.png
// 数据demean过程
def demean(X):
    return X - np.mean(X,axis=0)
#效用函数
def f(w,X):
    return np.sum((X.dot(w)**2))/len(X)

#效用函数导函数
def df_math(w,X):
    return X.T.dot(X.dot(w))*2./len(X)

#测试导函数是否正确
def df_debug(w,x,epsilon=0.0001):
    res = np.empty(len(w))
    for i in range(len(w)):
        w_1 = w.copy()
        w_1[i] += epsilon
        w_2 = w.copy()
        w_2[i] -= epsilon
        res[i] = (f(w_1,X)-f(w_2,X))/(2*epsilon)
    return res

#使w变为单位向量
def direction(w):
    return w/np.linalg.norm(w)

#梯度上升
def gradient_ascent(df,X,initial_w,eta,n_iters=1e4,epsilon=1e-8):
    
    cur_iter = 0
    w = direction(initial_w)
    
    while cur_iter<n_iters:
        gradient = df(w,X)
        last_w = w
        w = w + eta*gradient
        w = direction(w)   #每次计算后都应该将w转变为单位向量
        if(abs(f(w,X) - f(last_w,X))<epsilon):
            break
        
        cur_iter +=1
        
    return w
initial_w = np.random.random(X.shape[1])   #不能使用0向量作为初始向量,因为0向量本身是一个极值点

eta = 0.01

gradient_ascent(df_debug,X,initial_w,eta)

gradient_ascent(df_math,X,initial_w,eta)
求解数据的前n个主成分
def first_n_components(n,X,eta=0.01,n_iters=1e4,epsilon=1e-8):
    
    X_pca = X.copy()
    X_pca = demean(X_pca)
    res = []
    
    for i in range(n):
        initial_w = np.random.random(X_pca.shape[1])
        w = first_component(df_math,X_pca,initial_w,eta)
        res.append(w)
         /*
         for i in range(len(X)):
          X2[i] = X[i] -X[i].dot(w)*w
        */
        X_pca = X_pca - X_pca.dot(w).reshape(-1,1)*w
        
    return res


封装PCA


# _*_ encoding:utf-8 _*_
import numpy as np

class PCA:
    def __init__(self,n_components):
        self.n_components = n_components
        self.components_ = None

    def fit(self,X,eta=0.01,n_iters=1e4):

        def demean(X):
            return X - np.mean(X, axis=0)

        # 效用函数
        def f(w, X):
            return np.sum((X.dot(w) ** 2)) / len(X)

        # 效用函数导函数
        def df(w, X):
            return X.T.dot(X.dot(w)) * 2. / len(X)

        def direction(w):
            return w / np.linalg.norm(w)

        def first_component(df, X, initial_w, eta, n_iters=1e4, epsilon=1e-8):
            cur_iter = 0
            w = direction(initial_w)
            while cur_iter < n_iters:
                gradient = df(w, X)
                last_w = w
                w = w + eta * gradient
                w = direction(w)  # 每次计算后都应该将w转变为单位向量
                if (abs(f(w, X) - f(last_w, X)) < epsilon):
                    break
                cur_iter += 1
            return w

        def first_n_components(n, X, eta=0.01, n_iters=1e4, epsilon=1e-8):
            X_pca = X.copy()
            X_pca = demean(X_pca)
            res = []

            for i in range(n):
                initial_w = np.random.random(X_pca.shape[1])
                w = first_component(df, X_pca, initial_w, eta)
                res.append(w)
                X_pca = X_pca - X_pca.dot(w).reshape(-1, 1) * w
            return res

        X_pca = demean(X)
        self.components_ = np.empty(shape=(self.n_components,X.shape[1]))
        self.components_ = first_n_components(self.n_components,X)
        self.components_ = np.array(self.components_)
        return self

    def transform(self,X):
        return X.dot(self.components_.T)

    def inverse_transform(self,X):
        return X.dot(self.components_)


    def __repr__(self):
        return "PCA(n_components=%d)" %self.n_components


scikit-learn中的PCA


scikit-learn中的PCA没有使用梯度上升法求解主成分,因此使用sklearn中的PCA求解的主成分是与我们求解的向量方向是相反的

from sklearn.decomposition import PCA

pca = PCA(n_components=1)

pca.fit(X)

X_transform = pca.transform(X)

X_restore = pca.inverse_transform(X_transform)

plt.scatter(X[:,0],X[:,1],color='b',alpha=0.5)
plt.scatter(X_restore[:,0],X_restore[:,1],color='r',alpha=0.5)

img_0d23df5e0ee4a6d9ea9dfefa504b2364.png


使用PCA处理digits数据集

img_4d1082bbd3dea6e38e179a5f32babd96.png

从图中可以看到,使用PCA将digits数据集的数据维度降低到二维后,knn算法的fit时间降低很多,而score准确率却下降到0.6

pca = PCA(n_components=X_train.shape[1])

pca.fit(X_train)

pca.explained_variance_ratio_   #合并某一维度之后的对数据方差的损失后的正确率

plt.plot([i for i in range(X.shape[1])],[np.sum(pca.explained_variance_ratio_[:i+1]) for i in range(X_train.shape[1])])
img_a56b29f98c459e46f273fa2e6a4858bd.png

img_097b1863ce7d6fe789273a50d055d01d.png
pca = PCA(0.95)

pca.fit(X_train)

pca.n_components_             -> pca.n_components = 28
#即降低到28个维度后有原数据95%的正确率
目录
相关文章
|
23小时前
|
机器学习/深度学习 算法 算法框架/工具
Python深度学习基于Tensorflow(5)机器学习基础
Python深度学习基于Tensorflow(5)机器学习基础
12 2
|
3天前
|
机器学习/深度学习 算法 Python
深入浅出Python机器学习:从零开始的SVM教程/厾罗
深入浅出Python机器学习:从零开始的SVM教程/厾罗
|
4天前
|
数据可视化
R语言机器学习方法分析二手车价格影响因素
R语言机器学习方法分析二手车价格影响因素
|
9天前
|
机器学习/深度学习 边缘计算 TensorFlow
【Python机器学习专栏】Python机器学习工具与库的未来展望
【4月更文挑战第30天】本文探讨了Python在机器学习中的关键角色,重点介绍了Scikit-learn、TensorFlow和PyTorch等流行库。随着技术进步,未来Python机器学习工具将聚焦自动化、智能化、可解释性和可信赖性,并促进跨领域创新,结合云端与边缘计算,为各领域应用带来更高效、可靠的解决方案。
|
9天前
|
机器学习/深度学习 传感器 物联网
【Python机器学习专栏】机器学习在物联网(IoT)中的集成
【4月更文挑战第30天】本文探讨了机器学习在物联网(IoT)中的应用,包括数据收集预处理、实时分析决策和模型训练更新。机器学习被用于智能家居、工业自动化和健康监测等领域,例如预测居民行为以优化能源效率和设备维护。Python是支持物联网项目机器学习集成的重要工具,文中给出了一个使用`scikit-learn`预测温度的简单示例。尽管面临数据隐私、安全性和模型解释性等挑战,但物联网与机器学习的结合将持续推动各行业的创新和智能化。
|
9天前
|
机器学习/深度学习 数据采集 算法
【Python 机器学习专栏】机器学习在医疗诊断中的前沿应用
【4月更文挑战第30天】本文探讨了机器学习在医疗诊断中的应用,强调其在处理复杂疾病和大量数据时的重要性。神经网络、决策树和支持向量机等方法用于医学影像诊断、疾病预测和基因数据分析。Python作为常用工具,简化了模型构建和数据分析。然而,数据质量、模型解释性和伦理法律问题构成挑战,需通过数据验证、可解释性研究及建立规范来应对。未来,机器学习将更深入地影响医疗诊断,带来智能和精准的诊断工具,同时也需跨学科合作推动其健康发展。
|
9天前
|
机器学习/深度学习 分布式计算 物联网
【Python机器学习专栏】联邦学习:保护隐私的机器学习新趋势
【4月更文挑战第30天】联邦学习是保障数据隐私的分布式机器学习方法,允许设备在本地训练数据并仅共享模型,保护用户隐私。其优势包括数据隐私、分布式计算和模型泛化。应用于医疗、金融和物联网等领域,未来将发展更高效的数据隐私保护、提升可解释性和可靠性的,并与其他技术融合,为机器学习带来新机遇。
|
9天前
|
机器学习/深度学习 自然语言处理 搜索推荐
【Python机器学习专栏】迁移学习在机器学习中的应用
【4月更文挑战第30天】迁移学习是利用已有知识解决新问题的机器学习方法,尤其在数据稀缺或资源有限时展现优势。本文介绍了迁移学习的基本概念,包括源域和目标域,并探讨了其在图像识别、自然语言处理和推荐系统的应用。在Python中,可使用Keras或TensorFlow实现迁移学习,如示例所示,通过预训练的VGG16模型进行图像识别。迁移学习提高了学习效率和性能,随着技术发展,其应用前景广阔。
|
9天前
|
机器学习/深度学习 人工智能 算法
【Python 机器学习专栏】强化学习在游戏 AI 中的实践
【4月更文挑战第30天】强化学习在游戏AI中展现巨大潜力,通过与环境交互和奖励信号学习最优策略。适应性强,能自主探索,挖掘出惊人策略。应用包括策略、动作和竞速游戏,如AlphaGo。Python是实现强化学习的常用工具。尽管面临训练时间长和环境复杂性等挑战,但未来强化学习将与其他技术融合,推动游戏AI发展,创造更智能的游戏体验。
|
9天前
|
机器学习/深度学习 传感器 自动驾驶
【Python机器学习专栏】深度学习在自动驾驶中的应用
【4月更文挑战第30天】本文探讨了深度学习在自动驾驶汽车中的应用及其对技术发展的推动。深度学习通过模拟神经网络处理数据,用于环境感知、决策规划和控制执行。在环境感知中,深度学习识别图像和雷达数据;在决策规划上,学习人类驾驶行为;在控制执行上,实现精确的车辆控制。尽管面临数据需求、可解释性和实时性挑战,但通过数据增强、规则集成和硬件加速等方法,深度学习将持续优化自动驾驶性能,并在安全性和可解释性上取得进步。

热门文章

最新文章