《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一3.3　序列化框架的局限性-阿里云开发者社区

《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一3.3　序列化框架的局限性

2017-05-02 1088

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生数据库 PolarDB MySQL 版，Serverless 5000PCU 100GB

简介：

本节书摘来自华章出版社《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一书中的第3章，第3.1节，南森·马茨（Nathan Marz） [美]　詹姆斯·沃伦（JamesWarren）　著马延辉　向　磊　魏东琦　译，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.3　序列化框架的局限性

序列化框架只检查所有必需的字段是否存在以及是否是预期的类型。它们无法检查更丰富的属性，如“年龄应该非负”或“真实的时间戳不应该是未来的时间戳”。在系统中，与这些属性不匹配的数据会提示出现问题，而你不想让它们写入主数据集。
这看上去不像是一个限制，因为序列化框架似乎有点类似于关系型数据库模式的工作方式。事实上，你可能已经发现了使用关系型数据库模式的痛苦，并且担心更严格的模式会令人更加痛苦。但是我们要求你不要混淆使用关系型数据库模式附带的复杂性与模式本身的价值。当应用序列化框架来表示使用图模式的不可变对象时，用关系型数据库表示嵌套对象和做模式迁移会更加容易。
思考一个模式的正确方式是，将模式作为能获取一段无论是否有效的数据并返回结果的函数。ApacheThrift的模式语言可以让你把只有字段存在和字段类型被验证过的函数表述为一个子集。理想的工具会让你实现任何可能的模式函数。
这样一个理想的工具—尤其是语言中立的—是不存在的，但你可以采取两种方法来解决序列化框架（如Apache Thrift）的这些限制：
将生成的代码封装为额外的代码，用来检查你所关注的附加属性，如“年龄非负”。只要你只使用一种语言读/写数据，这种方法是适用的—如果你使用多种语言，你必须用多种语言重复该逻辑。
在批处理工作流的最开始检查额外的属性。这一步将把数据集分成“有效数据”和“无效数据”，如果没有任何无效的数据将会发送一个通知。这种方法使得实现工作流的其余部分更加容易，因为任何通过有效性检查的数据可以被认为拥有你所关注的更严格的属性。但是这种方法并能不阻止无效的数据写入主数据集，也不能帮助确定损坏发生时的上下文。
这两种方法都不是很理想，但如果你的结构使用多种语言读/写数据，你会发现很难做得比这更好。所以你必须决定是更愿意用多种语言保持相同的逻辑，还是失去损坏发生时的上下文。唯一完美的方法是，一个序列化框架也是一类通用的编程语言，可以将本身翻译成任何目标语言。虽然这样的工具在理论上是可能的，但在现实中是不存在的。

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一3.3　序列化框架的局限性

3.3　序列化框架的局限性

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一3.3 序列化框架的局限性

3.3 序列化框架的局限性

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一3.3　序列化框架的局限性

3.3　序列化框架的局限性