【阿里云MVP月度分享】基于PAI平台和Pokemon数据集判断精灵是否为极品精灵

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: Pokemon《精灵宝可梦》,也叫《口袋妖怪》、《宠物小精灵》、《神奇宝贝》,是世界上第二热销的系列电子游戏,仅次于任天堂的超级马里奥系列。本文采用kaggle上Pokemon数据集,基于阿里云PAI平台进行实验,利用数据集中提供的精灵能力值来判断精灵是否为极品精灵。

一、背景

Pokemon精灵宝可梦》,也叫《口袋妖怪》、《宠物小精灵》、《神奇宝贝》,是由Game Freak和Creatures株式会社开发,任天堂发行的系列游戏。精灵宝可梦系列是世界上第二热销的系列电子游戏,仅次于任天堂的超级马里奥系列。

本文采用kaggle上Pokemon数据集,基于阿里云PAI平台进行实验,利用数据集中提供的精灵能力值来判断精灵是否为极品精灵。

数据集包含No, Name, Type1, Type2, HP, Attack, Defense, Sp. Atk, Sp. Def, Speed, Generation, Legendary等信息。

二、数据集介绍

本数据集包含800个精灵的相关参数,每个参数字段含义如下:

 字段  含义  类型
 no  编号  bigint
 name  名称  string
 type1  属性  string
 type2  属性  string
 hp    bigint
 attack  攻击  bigint
 defense  防御  bigint
 atk  特攻  bigint
 def  特防  bigint
 speed  速度  bigint
 generation  第几代  bigint
 legendary  是否为极品  bigint

三、实验过程

首先https://www.aliyun.com/?spm=a2c1h.8280630.0.0.3569458dQ5hXYc进入阿里云,选择右上角的控制台进入

从左侧栏中选择DataWorks,进入工作区


新建脚本文件,并导入数据。

drop table if exists pokemon_data;

create table pokemon_data(
	no bigint,
	name string,
	type1 string,
	type2 string,
	hp bigint,
	attack bigint,
	defense bigint,
	atk bigint,
	def bigint,
	speed bigint,
	generation bigint,
	legendary bigint
)

执行完成后,点击右上角的“机器学习平台”

数据的具体结构如下:


首先,这个场景是希望利用精灵能力值来判断精灵是否为极品精灵。将legendary作为目标列时,因其取值为1或0两种,故此场景为一个二分类的监督学习。因数据质量很好,而不需要进行其他额外的处理。

实验流程如下,

(1)数据预处理:数据与处理主要通过"类型转换组件“将特征由bigint转化为double类型,以及用“归一化组件”对数据进行去量纲处理,把全部数值都归一化到0和1之间。


(2)模型训练:首先对数据集进行拆分,拆分比例为0.7,拆分原则按照随机采样的算法实现,70%的数据用来训练模型,30%的数据用来预测。

在模型选择的时候,为了对比不同模型之间的效果,故模型选取了PAI平台自带的四种模型:GBDT、PS-SMART、线性SVM和逻辑回归。

特征使用的是hp、attack、defense、atk、def、speed和generation,目标向量为legendary。

(3)预测。直接采用PAI平台自身的“预测组件”对数据进行预测。

(4)模型评估。因为本场景为二分类监督学习,故采用“二分类评估组件”对结果进行评估。

这个实验流程如下图所示:


四、实验结果


   GBDT  PS-SMART  线性SVM  逻辑回归
 AUC  0.5  0.8287  0.9857  0.9618
 KS  0  0.6549  0.9685  0.867
 F1 Score  0.0952  0.6316  0.85  0.6809
 evaluate_tsmpl  240  240  240  240
 evaluate_psmpl 12  25  18  22
 evaluate_nsmpl  228  215  222  218


五、总结

目前仅为数据的初步实验,因精灵的属性相值等特征之间的关系处理比较复杂,故会在后期慢慢进行更为细致的分析。

因为最近看到大家都开始对吃鸡游戏进行数据分析,便引发了自己对比较喜欢的游戏进行分析的想法。刚好看到Kaggle上有pokemon的数据集,便拿来一试。

我们目前更多看到的是人工智能在娱乐、电商、工业等大的行业带来的变革,其实,人工智能就在我们的身边,只要有数据,就可以利用阿里云机器学习PAI平台,随时随地进行数据分析。比如Pokemon、LOL、王者、吃鸡等游戏,比如基金、股票等理财方式,再比如图像识别、推荐系统等等。

大数据时代,数据无处不在,算法平台信手拈来,只要你想得到,都可以拿来分析,让工作更轻松,让生活充满乐趣。


相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
3月前
|
机器学习/深度学习 PyTorch 算法框架/工具
在阿里云机器学习平台上布置一个PyTorch模型
在阿里云机器学习平台上布置一个PyTorch模型【1月更文挑战第21天】【1月更文挑战第105篇】
162 1
|
3月前
|
人工智能 算法 开发工具
Mixtral 8X7B MoE模型在阿里云PAI平台的微调部署实践
Mixtral 8x7B 是Mixtral AI最新发布的大语言模型,是当前最为先进的开源大语言模型之一。阿里云人工智能平台PAI,提供了对于 Mixtral 8x7B 模型的全面支持,开发者和企业用户可以基于 PAI-快速开始轻松完成Mixtral 8x7B 模型的微调和部署。
|
1月前
|
弹性计算 安全 定位技术
幻兽帕鲁服务器搭建攻略:【阿里云平台快速上手指南】
2024年,火爆畅销的《幻兽帕鲁》游戏让无数玩家着迷不已!那么,您是否急切想要拥有一个能与伙伴们一起畅快玩耍的游戏服务器呢?现在就跟随若城的脚步,一起动手搭建一个属于自己的《幻兽帕鲁》服务器吧!让这个新年有心意
|
2月前
|
弹性计算 Linux 数据安全/隐私保护
幻兽帕鲁服务器搭建攻略:阿里云平台快速上手指南
2024年,火爆畅销的《幻兽帕鲁》游戏让无数玩家着迷不已!那么,您是否急切想要拥有一个能与伙伴们一起畅快玩耍的游戏服务器呢?现在就跟随若城的脚步,一起动手搭建一个属于自己的《幻兽帕鲁》服务器吧!让这个新年有心意, 让这个寒假更有趣
75094 10
|
1月前
|
缓存 运维 监控
应用研发平台EMAS 常见问题之用华为的推送界面阿里云收不到如何解决
应用研发平台EMAS(Enterprise Mobile Application Service)是阿里云提供的一个全栈移动应用开发平台,集成了应用开发、测试、部署、监控和运营服务;本合集旨在总结EMAS产品在应用开发和运维过程中的常见问题及解决方案,助力开发者和企业高效解决技术难题,加速移动应用的上线和稳定运行。
382 2
|
1月前
|
自然语言处理 算法 关系型数据库
阿里云PAI大模型RAG对话系统最佳实践
本文为大模型RAG对话系统最佳实践,旨在指引AI开发人员如何有效地结合LLM大语言模型的推理能力和外部知识库检索增强技术,从而显著提升对话系统的性能,使其能更加灵活地返回用户查询的内容。适用于问答、摘要生成和其他依赖外部知识的自然语言处理任务。通过该实践,您可以掌握构建一个大模型RAG对话系统的完整开发链路。
|
1月前
|
存储 数据采集 Apache
众安保险 CDP 平台:借助阿里云数据库 SelectDB 版内核 Apache Doris 打破数据孤岛,人群圈选提速4倍
随着业务在金融、保险和商城领域的不断扩展,众安保险建设 CDP 平台以提供自动化营销数据支持。早期 CDP 平台依赖于 Spark + Impala + Hbase + Nebula 复杂的技术组合,这不仅导致数据分析形成数据孤岛,还带来高昂的管理及维护成本。为解决该问题,众安保险引入 Apache Doris,替换了早期复杂的技术组合,不仅降低了系统的复杂性,打破了数据孤岛,更提升了数据处理的效率。
众安保险 CDP 平台:借助阿里云数据库 SelectDB 版内核 Apache Doris 打破数据孤岛,人群圈选提速4倍
|
3月前
|
机器学习/深度学习 JavaScript 前端开发
机器学习 - [源码实现决策树小专题]决策树中子数据集的划分(不允许调用sklearn等库的源代码实现)
机器学习 - [源码实现决策树小专题]决策树中子数据集的划分(不允许调用sklearn等库的源代码实现)
39 0

热门文章

最新文章