【大数据技巧】MaxCompute中实现IP地址归属地转换-阿里云开发者社区

【大数据技巧】MaxCompute中实现IP地址归属地转换

2017-01-06 11235

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 大数据平台的成熟使得更多种类的非结构化、半结构化的数据分析成为可能其中应用非常广泛的一种场景就是日志分析。在日志类型数据的清洗转换过程中把IP地址转换为归属地又是极为常见的一种场景。

免费开通大数据服务：https://www.aliyun.com/product/odps

大数据平台的成熟使得更多种类的非结构化、半结构化的数据分析成为可能，其中应用非常广泛的一种场景就是日志分析。在日志类型数据的清洗转换过程中把IP地址转换为归属地又是极为常见的一种场景。那么利用MaxCompute如何实现IP地址向归属地的转换呢？

俗话说：巧妇难为无米之炊，要实现IP地址与归属地的转换必须要有IP地址库，不过好在互联网上已经有一些资源，而且还提供免费版本的IP数据库下载详见：www.ipip.net（请叫我雷锋^_^）。没错，我们首先要把它下载到本地，命名为ip.dat。

米已经有了，接下来就考虑怎么下厨了。想要在MaxCompute中实现用户自定义逻辑的代码处理，最常用的就是MR和SQL UDF。考虑到大部分用户使用偏好以及工作成果的可重用性，此处我们给大家介绍通过UDF的实现方式。如果客官还对MaxCompute如何实现UDF不熟悉，请自行脑补：https://help.aliyun.com/document_detail/27866.html，文档中都有代码示例。UDF分为三种，分别是UDF、UDAF、UDTF，此处不过多介绍，毫无疑问这种需求场景需要采用第一种实现。

实现用户自定义函数要继承com.aliyun.odps.udf.UDF，具体实现分两个步骤：

一、实现setup方法加载IP地址库数据，并做初始化，代码片段如下图：

注意：ip.dat 的大小，修改ByteBuffer.allocate(),不要溢出，可以大一些，如ByteBuffer.allocate(4057479)

二、实现evaluate方法，完成用户数据IP地址到归属地的转换逻辑，代码片段如下图：

此处需要注意的是，MaxCompute中是采用UTF-8编码的，为了避免出现中文乱码，我们在输出是可以指定编码方式为UTF-8。

Coding完成后编译打包，命名为getaddr.jar。而后我们需要把ip.dat以及getaddr.jar作为资源上传到MaxCompute项目空间。上传资源可以通过数加DataIDE中向导的方式，也可以通过Console中执行命令的方式。两种方式截图如下：

方式一：

用阿里云数加大数据开发套件中的数据开发->函数管理上传getaddr.jar和ip.dat，如图。

用数据开发->函数管理，注册UDF函数，命名getaddr。

注意：把上一步上传的getaddr.jar和ip.dat资源，注册为一个函数名，如图。

新建MaxCompute SQL任务，任选一张表，我这里用了user_info，执行

select getaddr('116.11.34.15')  from user_info  limit 1;

方式二：

资源上传完毕后需要创建Function，在控制台或者数加DataIDE窗口中执行命令，如图：

至此，UDF已经实现完成，我们需要做个验证，比如我们可以通过UDF查询116.11.34.15这个IP地址的所属地，如下图：

准确性验证，如下图：

当然准确性一方面是我们解析匹配的逻辑，更重要的也取决于IP地址库本身是否准确。

GetAddr.java代码下载：https://yq.aliyun.com/attachment/download/?spm=0.0.0.0.oMX36t&filename=GetAddr_...[%E9%9A%90%E6%9E%97].1499678865.rar

常见问题：

Q：用大数据开发套件执行报错，2017-07-10 14:51:48 M1_Stg1_job0:0/0/1[FAILED]，FAILED: ODPS-0123131:User defined function exception - com_aliyun_odps_examples_udf_GetAddr - Call Java udf method.

A：注册函数的时候，没有附上ip.dat。

Q：用大数据开发套件执行报错，FAILED: ODPS-0123131:User defined function exception - Traceback:

          java.nio.BufferOverflowException

         at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:189)

         at odps.test.GetAddr.setup(GetAddr.java:144)

A：ByteBuffer.allocate(2657479)->ByteBuffer.allocate(4057479)根据ip.dat文件大小调大一些。

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

【大数据技巧】MaxCompute中实现IP地址归属地转换

大数据计算 MaxCompute

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景