阿里云大数据产品开放搜索(opensearch)常见问题总结及排查思路

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 在使用大数据产品开放搜索(opensearch)过程中难免会遇到问题,我把踩过的坑总结了下,给需要的人看下。不定时更新中......

1.支持多表同属一个数据源。但不支持同一个表有多个数据源。
2.不支持修改源数据表的主键,查询会出现重复。
3.查询分词可以单字分词,以达到查询所有组合的目的。
4.主表绝大多数数据更新情况是10s内,辅表会慢一些,时效性目前没有保证。
5.对于RDS表中的datetime及timestamp类型开放搜索系统会自动将其转化为毫秒数。如果想保留源time格式,可以在rds中转化为string后再导入。
6.搜索引擎最多返回5000条指的是start+hit。一页最多返回500条是因为hit的系统限制是[0,500]。
7.有些飘红有些不飘红的,如果是opensearch的搜索问题。最好在opensearch控制台测试,或者sdk调用opensearch的搜索接口。
8.字符串TEXT类型是用来做索引做分词的,LITERAL可以创建为属性字段
9.按量付费是按配额付费不是实际流量。可以在应用列表页面开通“一键报警”,这样有流量超过85%就会报警可以再紧急扩容。
10.老高级版索引重建触发以后立即执行,新高级版需要单击全量索引构建,触发全量数据导入,否则一直处于等待全量索引构建状态。
11.自定义分词的词条文档上查看最多只能支持8000条,不支持扩展
12.如果同时设置了同义词干预和自动纠错干预,那么同义词干预就不会生效的
13.数据更新属于增量同步,不会引起索引重建。
14.不支持MySQL的view的同步。定时任务每天只会执行一次,一旦当天成功执行了一次,无论如何修改配置,都不会再次执行(仅针对于定时任务,手动可以执行)
15.6015错误码,配额不足,扩容即可。批量更新不会消耗LCU的
16.同一个主账号在同一个区域最多创建2个入门型实例(2018.5.7以后)。
17.数据源,只支持rds-mysql、maxcompute,其他的数据库中的数据,只能通过api、sdk上传到opensearch中。
18.v3.x SDK 可以访问高级版 和 标准版应用,目前v2.x 和 v3.x 这2个SDK版本代码差异较大,代码也不兼容
19.粗排表达式,排序分超过20000 是因为 时间戳, 建议:static_bm25()10000+sales_count5+timeliness(create_time)*3
20.下拉提示问题,60字节以内就是原值保留,超过60字节,才会抽取,例如返回:“清扬 洗发水 洗发露”。
21.目前opensearch的文档数据类型,还不支持json格式的数据,目前的办法只能将json类型数据的key全部以字段的形式上传。如果是不定长度的json数组,确实不太好处理,只能看下业务层次生成的数据,是否可以调整下了。
22.如果您希望搜索'国家天文台厉害吗?' 召回国家天文台的内容,不需要配置模糊分词,可以尝试使用查询分析——词权重。https://help.aliyun.com/document_detail/126679.html?spm=a2c4g.11186623.6.597.40fc7778kei4qw
23.类目预测报错('Flow task for table [110053251_category_prediction)可能是数据量和pv太少
24.粗排exact_boost_match 不能用来-RANK 因为RANK只能设置精排,所以不论是sort=-RANK还是sort=+RANK都不会生效。
25.精排中text_relevance用来替代exact_boost_match,但并不是完全替代。text_relevance是文本相关性函数,顾名思义只能支持TEXT,INT是没有任何意义的。
26.设置text_relevance(name) 然后再使用-RANK; sort=-sale_count;-RANK 这样设置就表示,先按sale_count降序,再按text_relevance(name) 降序排列。按文本匹配度再按销量降序,应该是sort=-RANK;-sales_count

27.报错

  • Hostname in DNS cache was stale, zapped
  • Trying xx.xx.xx.xx...
  • TCP_NODELAY set
  • Connection timed out after 1000 milliseconds
  • Closing connection 0
    没有requestid,考虑是网络问题,还没有请求到opensearch。

28.把搜索出来的结果按照相关度高的排序(文本相关度高的排序 使用text_relevance 精排表达式)
选择或者点击率高的结果下次自动增加排序权重(按点击率排序使用sort=-click,需要先按相关度再按点击率排那就是 sort=-RANK;-click)
支持每秒每库1500条doc 可以同时更新
29.scroll_id 的有效时长 默认1min

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
14天前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
14天前
|
分布式计算 大数据 MaxCompute
MaxCompute产品使用合集之使用pyodps读取OSS(阿里云对象存储)中的文件的步骤是什么
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
1天前
|
Cloud Native 数据库
阿里云产品四月刊来啦
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代,详情请点击阿里云产品四月刊
阿里云产品四月刊来啦
|
2天前
|
人工智能 API
阿里云微服务引擎及 API 网关 2024 年 4 月产品动态
阿里云微服务引擎及 API 网关 2024 年 4 月产品动态。
|
2天前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 API 网关 2024 年 04 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要。
|
4天前
|
Cloud Native 关系型数据库 分布式数据库
数据库性能诊断工具DBdoctor通过阿里云PolarDB产品生态集成认证
DBdoctor(V3.1.0)成功通过阿里云PolarDB分布式版(V2.3)集成认证,展现优秀兼容性和稳定性。此工具是聚好看科技的内核级数据库性能诊断产品,运用eBPF技术诊断SQL执行,提供智能巡检、根因分析和优化建议。最新版V3.1.1增加了对PolarDB-X和OceanBase的支持,以及基于cost的索引诊断功能。PolarDB-X是阿里巴巴的高性能云原生分布式数据库,兼容MySQL生态。用户可通过提供的下载地址、在线试用链接和部署指南体验DBdoctor。
|
4天前
|
Prometheus 监控 数据可视化
阿里云可观测 2024 年 4 月产品动态
阿里云可观测 2024 年 4 月产品动态。
|
6天前
|
消息中间件 人工智能 监控
|
11天前
|
数据库 云计算
电子好书发您分享《阿里云产品手册2024版》
**阿里云2024产品手册电子版分享:** 探索最新云计算解决方案,涵盖智能计算、视觉智能与云数据库ClickHouse。了解阿里云在新的一年中提供的核心产品与服务升级,包括适用于初学者的云服务器选项。查看完整手册:[阿里云产品手册2024版](https://developer.aliyun.com/ebook/8326/116556?spm=a2c6h.26392459.ebook-detail.4.50ae272a22gHxh)。
38 9
|
14天前
|
数据采集 分布式计算 DataWorks
DataWorks产品使用合集之在阿里云的DataWorks中,使用CREATE AS创建分区表的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
28 2

热门文章

最新文章