MaxCompute-GRAPH可配置参数列表(持续更新)

简介:

基础配置

设置Vertex类

配置:odps.graph.vertex.class
APIGraphJob.setVertexClass()
说明:设置Vertex的实现类,通常使用API设置。

设置Combiner类

配置:odps.graph.combiner.class
APIGraphJob.setCombinerClass()
说明:设置Combiner的实现类,通常使用API设置。

设置Partitioner类

配置:odps.graph.partitioner.class
APIGraphJob.setPartitionerClass()
说明:设置Partitioner的实现类,通常使用API设置。

设置Aggregator类

配置:odps.graph.aggregator.classes
APIGraphJob.setAggregatorClass()
说明:可以设置一个或多个Aggregator实现类,编号从0开始。通常使用API设置。

设置WorkerComputer类

配置:odps.graph.worker.computer.class
APIGraphJob.setWorkerComputerClass()
说明:设置WorkerComputer的实现类,通常使用API设置。

设置Loader类

配置:odps.graph.loader.class
APIGraphJob.setGraphLoaderClass()
说明:设置GraphLoader实现类,通常使用API设置。

配置Loading Resolver类

配置:odps.graph.loading.vertex.resolver.class
APIGraphJob.setLoadingVertexResolverClass()
说明:设置LoadingVertexResolver的实现类,通常使用API设置。

配置Computing Resolver类

配置:odps.graph.computing.vertex.resolver.class
APIGraphJob.setComputingVertexResolverClass()
说明:设置ComputingVertexResolver的实现类,通常使用API设置。

配置最大迭代次数

配置:odps.graph.max.iteration
APIGraphJob.setMaxIteration()
说明:设置最大迭代次数,默认 -1,小于或等于 0 时表示最大迭代次数不作为作业终止条件.

配置Worker的CPU申请量

配置:odps.graph.worker.cpu
APIGraphJob.setWorkerCPU()
说明:设置 Worker CPU,默认 200,表示两个 CPU 核. 取值范围[200, 800]

配置Worker内存申请量

配置:odps.graph.worker.memory
APIGraphJob.setWorkerMemory()
说明:设置 Worker 内存,单位MB,默认 4096. 取值范围[2048, 32768],即2G~32G。如有特殊需求,请联系ODPS-GRAPH开发人员。

配置输入表信息

配置:odps.graph.input.desc
API:GraphJob.addInput()
说明:请参考javadoc:http://odps.alibaba-inc.com/doc/prddoc/odps_graph/api/index.html

配置输出表信息

配置:odps.graph.output.desc
API:GraphJob.addOutput()
说明:请参考javadoc:http://odps.alibaba-inc.com/doc/prddoc/odps_graph/api/index.html

配置Split Size

配置:odps.graph.split.size
API:GraphJob.setSplitSize()
说明:设置输入的切分大小,单位 MB,默认 64。当没有配置odps.graph.worker.num情况下,切分的个数决定了worker的个数。

配置Worker的个数

配置:odps.graph.worker.num
API:GraphJob.setNumWorkers()
说明:设置作业并行执行的节点数,最大值4000。 默认节点数由getSplitSize()和作业输入数据量计算得到。
此接口与 setSplitSize(long) 配合使用,可以提高数据的载入速度。 假设 setNumWorkers 为 workerNum, setSplitSize 为 splitSize, 总输入字节数为 inputSize, 则输入被切分后的块数 splitNum = inputSize / splitSize,workerNum 和 splitNum 之间的关系:

若 splitNum == workerNum,每个 worker 负责载入一个 split;
若 splitNum > workerNum,每个 worker 负责载入一个或多个 split;
若 splitNum < workerNum, 每个 worker 负责载入零个或一个 split;
因此,应调节 workerNum 和 splitSize,在满足前两种情况时,数据载入比较快。迭代阶段只调节 workerNum 即可。

Failover相关配置

配置等待所有Worker启动完毕最长时间

配置:odps.graph.fuxi.job.max.wait.time
API:无
备注:单位是分钟,默认值:15

配置Load后马上执行checkpoint的时间限制

配置:odps.graph.load.checkpoint.limit.time
API:无
说明:
单位:毫秒,默认值:60000010分钟)
如果load时间超过了该值,则load完成后会立即执行一次checkpoint。

配置checkpoint执行频率

配置:odps.graph.checkpoint.superstep.frequency
API:GraphJob.setCheckpointSuperstepFrequency()
说明:
默认不设置表示按系统默认的方式做checkpoint,即间隔10分钟做一次checkpoint,如果设置,合法值是大于或等于0的整数, 0表示不进行checkpoint,大于0,表示期望每隔n轮superstep做checkpoint,若n次superstep的时间小于系统checkpoint 时间间隔(10分钟),也仍然等到10分钟后再做checkpoint.

配置checkpoint执行周期

配置:odps.graph.checkpoint.time.interval
API:无
说明:单位:秒,默认值:60010分钟)
如果没有配置odps.graph.checkpoint.superstep.frequency,则checkpoint执行周期以改参数为准;如果配置了odps.graph.checkpoint.superstep.frequency且配置值非0,则checkpoint执行周期为superstep达到odps.graph.checkpoint.superstep.frequency的整数倍且执行间隔大于该参数。
该参数从sprint17开始开放配置。

配置Failover最大重试次数

配置:odps.graph.max.attempts
API:无
说明:默认值为3

高级Feature

配置AggregatorOwnerPartitioner

配置:odps.graph.aggregator.owner.partitioner.class
API:GraphJob.setAggregatorOwnerPartitionerClass()
说明:设置AggregatorOwnerPartitioner的实现类,默认是HashAggregatorOwnerPartitioner.class

配置是否启用Tree Aggregator

配置:odps.graph.use.tree.aggregator
APIGraphJob.setUseTreeAggregator()
说明:是否启用Tree Aggregator,待补充介绍文档。

配置Tree Aggregator 深度

配置:odps.graph.aggregator.tree.depth
APIGraphJob.setAggregatorTreeDepth()
说明:启用Tree Aggregator情况下,Tree的深度。默认是2

配置是否启动广播机制

配置:odps.graph.broadcast.message.enable
APIGraphJob.setBroadcastMessageEnable()
说明:是否启用广播消息机制,待补充介绍文档。

启用多线程compute

配置:odps.graph.computing.threads
API:N/A
说明:采用多线程执行vertex.compute(),默认是1,即单个线程

其他配置项

配置Job优先级

配置:odps.graph.job.priority
API:GraphJob.setJobPriority()
说明:设置Graph作业的优先级,默认是9,取值范围[0,9],0为最高,9为最低。下个版本考虑默认值改为0.

配置cache的资源

配置:odps.graph.cache.resources
APIGraphJob.addCacheResources()
说明:设置cache资源,通过采用命令行jar -resources来指定。

配置加入classpath的资源

配置:odps.graph.cache.resources
APIGraphJob.addCacheResourcesToClassPath()
说明:配置classpath资源,通常采用命令行 jar -libjars来指定。

启用资源预留机制

配置: odps.graph.fuxi.job.resource.all_or_nothing
API: 无
说明:  设置为true,作业提交后,如当前资源不足,Fuxi会为该作业预留资源。

Graph-LOCAL 配置项

配置local run的时候下载数据的条数

配置:odps.mapred.local.record.download.limit
API:无
说明:默认100条,最大可设置上限为1万条

请在评论中给予反馈,谢谢!

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
3月前
|
分布式计算 大数据 数据库连接
maxcompute开发环境问题之参数解析失败如何解决
MaxCompute开发环境是指设置和配置用于开发MaxCompute项目的本地或云端环境;本合集将指导用户如何搭建和管理MaxCompute开发环境,包括工具安装、配置和调试技巧。
|
3月前
|
分布式计算 DataWorks 调度
maxcompute配置问题之优先级如何解决
MaxCompute配置是指在使用阿里云MaxCompute服务时对项目设置、计算资源、存储空间等进行的各项调整;本合集将提供MaxCompute配置的指南和建议,帮助用户根据数据处理需求优化其MaxCompute环境。
33 1
|
3月前
|
SQL 分布式计算 MaxCompute
maxcompute之配置报错如何解决
MaxCompute配置是指在使用阿里云MaxCompute服务时对项目设置、计算资源、存储空间等进行的各项调整;本合集将提供MaxCompute配置的指南和建议,帮助用户根据数据处理需求优化其MaxCompute环境。
35 0
|
3月前
|
SQL 存储 分布式计算
maxcompute配置问题之配置mc内容如何解决
MaxCompute配置是指在使用阿里云MaxCompute服务时对项目设置、计算资源、存储空间等进行的各项调整;本合集将提供MaxCompute配置的指南和建议,帮助用户根据数据处理需求优化其MaxCompute环境。
33 1
|
5天前
|
存储 分布式计算 大数据
MaxCompute产品使用合集之MaxCompute是否 支持导出所有表结构和表列表
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
4天前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之DataWorks中,填写ODPS SQL任务中的参数和分区信息如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
17 0
|
5天前
|
SQL 分布式计算 NoSQL
MaxCompute产品使用合集之concat ws函数如何解决某一参数为空导致返回值为空的问题
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5天前
|
存储 分布式计算 DataWorks
MaxCompute产品使用合集之大数据计算MaxCompute dataworks可以批量修改数据集成任务的数据源配置信息吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5天前
|
分布式计算 大数据 数据处理
MaxCompute操作报错合集之在开发环境中配置MaxCompute参数进行调度,但参数解析不出来,如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
5天前
|
SQL 分布式计算 大数据
MaxCompute操作报错合集之spark3.1.1通过resource目录下的conf文件配置,报错如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute