1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. S>
  5. Sql mode

当前主题:Sql mode

RDS数据库与自建库的gtid主从同步

场景:数据库用的是阿里云的RDS,有个实时数据分析项目需要做数据库主从,开始的时候购买了阿里云RDS的只读实例,但在测试的过程中,发现该只读实例不能满足项目需求。因为实时数据分析项目需要从库的条件有: 1、从库需要有开启和停止主从的权限; 2、从库需要支持r

阅读全文

【译】Delta Lake 0.4.0 新特性演示:使用 Python API 就地转换与处理 Delta Lake 表

编译:陈强,花名无咎,阿里巴巴技术专家,目前专注于EMR产品的管控与数据治理的研发工作。 我们激动地宣布 Delta Lake 0.4.0 发布,本次发布包含操纵与管理 Delta Lake 表的 Python API。关键特性包括: Python APIs

阅读全文

PostgreSQL 12 新特性汇总

源文链接:https://postgres.fun/20190809161300.html PostgreSQL 12 正式版已于 2019-10-03 发布,已对 12 版本的新特性进行了探索,整体上 12 版本的变化不小。 12 版本的典型新特性如下:

阅读全文

Apache Spark中国技术交流社区历次直播回顾(持续更新)

9月26日【New Developments in the Open Source Ecosystem: Apache Spark 3.0 and Koalas】 主讲人:李潇 Databricks Spark 研发总监,管理一跨国团队,专注于 Apache

阅读全文

Linux 常用命令全拼

pwd: print work directory 打印当前目录 显示出当前工作目录的绝对路径 ps: process status(进程状态,类似于windows的任务管理器) 常用参数:-auxf ps -auxf 显示进程状态 df: disk fre

阅读全文

MongoDB Spark Connector 实战指南

Why Spark with MongoDB? 高性能,官方号称 100x faster,因为可以全内存运行,性能提升肯定是很明显的 简单易用,支持 Java、Python、Scala、SQL 等多种语言,使得构建分析应用非常简单 统一构建 ,支持多种数据源

阅读全文

Apache Spark Delta Lake 写数据使用及实现原理代码解析

Apache Spark Delta Lake 写数据使用及实现原理代码解析 Delta Lake 写数据是其最基本的功能,而且其使用和现有的 Spark 写 Parquet 文件基本一致,在介绍 Delta Lake 实现原理之前先来看看如何使用它,具体使

阅读全文

通过Datax将CSV文件导入Hbase,导入之前的CSV文件大小和导入之后的Hadoop分布式文件大小对比引入的思考

由于项目需要做系统之间的离线数据同步,因为实时性要求不高,因此考虑采用了阿里的datax来进行同步。在同步之前,将数据导出未csv文件,因为需要估算将来的hbase运行的hadoop的分布式文件系统需要占用多少磁盘空间,因此想到了需要做几组测试。几个目的:

阅读全文

Sql mode相关问答

查看更多 提问题

请教一个范围查询的问题

表结构 ```sql CREATE TABLE IF NOT EXISTS api_stats ( app_name text, -- 目标应用 -- 被其它

阅读全文

来自Spark的S3写入间歇性地失败,错误代码为404 NoSuchKey

我每隔5分钟写入s3的spark作业(EMR),每天都会写几次,但有以下异常。知道是什么原因引起的吗? 码: ds.write .mode("overwrite") .format("parquet")

阅读全文

1百万数据点查, 你是怎么做到69万的tps的

[postgres@cnsz92pl00192 data]$pgbench -M prepared -h 127.0.0.1 -p 10002 -n -r -f ~/data/test.sql -c 64 -j 64 -T 10 transactio

阅读全文

在EMR类中找不到Spark-submit异常java

我有一个jar包捆绑创建一个弹簧启动应用程序,其中我创建spark会话来做一些操作。 然后我发送这个jar AWS EMR,要么运行的spark-submit或者java -jar未工作的可执行文件。 这是我的jar结构 jar -tf <jar

阅读全文

从csv文件读取输入时,如何在Cassandra中插入数据时达到50k / s的吞吐量?

我的目标是增加Cassandra中版本控制数据的吞吐量。我使用了并发读取和写入,并且还增加了我的代码从文件中读取的块大小。我的机器是16GB,有8个核心,是的,我已经改变了Cassandra的yaml文件,进行了10k并发读写,当计时时,我发现10000次写入

阅读全文

当数据存储在对象存储中时,从Spark SQL访问Hive表

我使用spark数据帧编写器在IBM Cloud Object Storage中以parquet 格式在内部hive表中编写数据。所以,我的hive Metastore在HDP集群中,我从HDP集群运行spark作业。此spark作业将数据以parquet 格

阅读全文

在初始化spark上下文后,在运行时更改pyspark的hadoop配置中的aws凭据

我已经在Stack Overflow上查看了相关问题的解决方案,但似乎这个问题相当独特。对于上下文,由于公司程序的原因,我需要每小时刷新一次AWS安全凭证,而我正在努力将新刷新的安全凭证添加到spark中。在第一个小时内一切正常(我可以从s3访问和读取表等),

阅读全文

查询Yarn and Spark

我需要使用spark将数据从Hive(已分区)导出到Teradata(非分区)。 集群规范:120个工作节点,每个节点有16个核心处理器,128 GB RAM。表大小约为130GB,当我从中创建数据帧时,它会产生1,30,000个分区。 val d

阅读全文