背景

随着人们风险意识的提高与普及，越来越多的人愿意为自己与家人投一份保险，保险行业的飞速发展也带来了许多问题：海量的保险单该如何存储？如何高效地对保险单进行检索？传统的解决方案一般使用MySQL等关系型数据库对数据进行持久化与检索，但是随着数据量的上涨如何进行水平扩展变成了一个问题。近年来使用NoSQL这种分布式架构的存储引擎来存储海量数据越来越流行，Tablestore是阿里云自研的分布式NoSQL服务，有高并发低延迟、易于水平扩展等特点，可以很好地解决保险行业保险单存储的规模以及各种检索等需求。

需求分析

某公司推出一款寿险产品，每一位投保人投保后会在后台系统中产生一条订单数据，同时投保人可以通过平台查看自己的保单；与此同时，保险经纪人也可以通过平台多保单进行检索、追踪以及轻量级分析。具体需求整理如下：

保险用户
- 在线投保，生成保单
- 根据保单生效日期、失效日期检索保单
- 查看自己的保单详情
保险经纪人
- 根据投保人查询保单
- 根据保单生效日期、失效日期检索保单
- 查询某个用户快要失效的保单
- 根据受益人的受益百分比查询保单
- 根据保费对保单以及用户进行排序

技术选型

MySQL

作为一款开源的开源关系型数据库，MySQL有高性能、低成本以及可靠性好等特点，用户可以通过JDBC等工具使用SQL语句对数据库进行增删改查。但是MySQL也有他的不足：

随着数据量的膨胀无法水平扩展
对保险单的多维查询需求支持不佳
在大数量的情况下，写入性能较差

对于这些问题，第一条可以通过一些例如分库分表等手段解决，但是用户维护成本较高；第二条的话由于MySQL的索引引擎的实现，MySQL并不适合对数据进行多维检索分析，一般业界也会将数据导入到Elasticsearch、Solr等搜索引擎中对数据进行检索分析，但是这样同样提高了运维的复杂度。

Tablestore

Tablestore是阿里云基于谷歌Bigtable论文研发的一款分布式数据库产品，可以提供超大规模的存储容量，天然的分布式架构也提供了易于横向扩展的特性，理论上可以存储的数据量是不受限制的。在存储引擎上与MySQL相比Tablestore使用的是LSM-Tree，此种数据结构有天然的写入性能优势，特别适合存储保险单这类写多读少的数据。同时用户将数据托管在Tablestore上无需做任何的运维管理，大大减低了开发运维成本。

在数据检索方面，2019年年初Tablestore推出了多元索引（SearchIndex）功能，支持多维查询、GEO查询、分词查询等功能，完全满足保险单数据查询与轻量级分析的需求。多元索引与MySQL索引不同的是，用户只需要在需要索引的列上打开索引，既可以与其他列进行各种组合查询，而无需创建类似MySQL的联合索引。

所以基于Tablestore，我们给出如下的系统架构：

表结构设计

我们这边以普通的寿险保单为例，一张保单有如下的几类数据

保单ID
产品名称
用户信息（投保人用户ID、经纪人用户ID）
投保人信息、被保人信息与收益人信息

同时我们是支持了多受益人，这边我们选用了SearchIndex的NESTED数据类型来满足相关需求。具体Tablestore表与SearchIndex索引设计如下：

列类型	字段名	数据类型	索引数据类型	说明
主键列	policy_id_md5	String	不索引	保单ID的MD5，保证数据打散
属性列	policy_id	String	KEYWORD	保单ID，全局唯一
	product_name	String	KEYWORD	产品名称
	operate_time	Long	LONG	投保日期，UNIX时间戳，毫秒
	effective_time	Long	LONG	生效日期
	expiration_time	Long	LONG	失效日期
	applier_user_id	String	KEYWORD	投保人用户ID
	broker_user_id	String	KEYWORD	经纪人用户ID
	applier_name	String	KEYWORD	投保人姓名
	applier_id	String	KEYWORD	投保人证件号
	applier_gender	String	KEYWORD	投保人性别
	insured_name	String	KEYWORD	被保人姓名
	insured_id	String	KEYWORD	被保人证件号
	insured_gender	String	KEYWORD	被保人性别
	beneficiary_info	String	NESTED	多受益人信息
	premium	Long	LONG	保费
	profit	Long	LONG	保额

受益人信息在SearchIndex中为NESTED类型，在写入Tablestore表是需要写入一个JSON数组字符串，例如

[
  {
    "name": "Tom",
    "id": "110101199909221111",
    "gender": "male",
    "benifit_percentage": 30
  },
  {
    "name": "Lucy",
    "id": "110102199201031411",
    "gender": "female",
    "benifit_percentage": 70
  }
]

具体的字段类型如下

字段	索引数据类型	说明
name	KEYWORD	受益人姓名
id	KEYWORD	受益人证件号
gender	KEYWORD	受益人性别
benefit_percentage	LONG	受益百分比

代码示例

代码可以在github上找到：https://github.com/aliyun/tablestore-examples/tree/master/demos/insurance-policy-management

SDK引入

引入Tablestore SDK 4.11.0

<dependency>
    <groupId>com.aliyun.openservices</groupId>
    <artifactId>tablestore</artifactId>
    <version>4.11.0</version>
</dependency>

创建Tablestore表与多元索引

创建表

// Create table
TableMeta tableMeta = new TableMeta(tableName);
// Only one primary key column: policy_id_md5 with type String
tableMeta.addPrimaryKeyColumn(POLICY_ID_MD5, PrimaryKeyType.STRING);
// Set TTL to -1, never expire; Set maxVersions 1, only have one version per column
TableOptions tableOptions = new TableOptions(-1, 1);
CreateTableRequest createTableRequest = new CreateTableRequest(tableMeta, tableOptions);
syncClient.createTable(createTableRequest);

创建索引

CreateSearchIndexRequest createRequest = new CreateSearchIndexRequest(tableName, indexName);
IndexSchema indexSchema = new IndexSchema();
indexSchema.addFieldSchema(new FieldSchema(POLICY_ID, FieldType.KEYWORD));
// Other filed ommited

// Create nested Field
List<FieldSchema> beneficiaryInfoSchema = new ArrayList<>();
beneficiaryInfoSchema.add(new FieldSchema(NAME, FieldType.KEYWORD));
beneficiaryInfoSchema.add(new FieldSchema(ID, FieldType.KEYWORD));
beneficiaryInfoSchema.add(new FieldSchema(GENDER, FieldType.KEYWORD));
beneficiaryInfoSchema.add(new FieldSchema(BENEFIT_PERCENTAGE, FieldType.LONG));

indexSchema.addFieldSchema(new FieldSchema(BENEFICIARY_INFO, FieldType.NESTED).setSubFieldSchemas(beneficiaryInfoSchema));

createRequest.setIndexSchema(indexSchema);

syncClient.createSearchIndex(createRequest);

数据写入

本示例仅展示插入一条数据的样例，批量插入可以看demo中的ImportExampleData

RowPutChange rowPutChange = new RowPutChange(tableName);
// primary key
PrimaryKey primaryKey = new PrimaryKey(new PrimaryKeyColumn[]{
  new PrimaryKeyColumn(POLICY_ID_MD5, PrimaryKeyValue.fromString(DigestUtils.md5Hex("POLICY_000000001837128")))
  });
rowPutChange.setPrimaryKey(primaryKey);
// value columns
rowPutChange.addColumn(POLICY_ID, ColumnValue.fromString("POLICY_000000001837128"))
  // Other columns are omitted
  .addColumn(PROFIT, ColumnValue.fromLong(10_000L));
// nested field, must fill with a JSON array, you can use jackson or gson to generate JSON array
rowPutChange.addColumn(BENEFICIARY_INFO, ColumnValue.fromString("[\n" +
                                                                "  {\n" +
                                                                "    \"name\": \"Kelly Evans\",\n" +
                                                                "    \"id\": \"285278192706139313\",\n" +
                                                                "    \"gender\": \"male\",\n" +
                                                                "    \"benefitPercentage\": 14\n" +
                                                                "  },\n" +
                                                                "  {\n" +
                                                                "    \"name\": \"Ida Clark\",\n" +
                                                                "    \"id\": \"418688200511062045\",\n" +
                                                                "    \"gender\": \"male\",\n" +
                                                                "    \"benefitPercentage\": 27\n" +
                                                                "  },\n" +
                                                                "  {\n" +
                                                                "    \"name\": \"Corey King\",\n" +
                                                                "    \"id\": \"909243194601171631\",\n" +
                                                                "    \"gender\": \"female\",\n" +
                                                                "    \"benefitPercentage\": 18\n" +
                                                                "  },\n" +
                                                                "  {\n" +
                                                                "    \"name\": \"Susan Evans\",\n" +
                                                                "    \"id\": \"288912191305043117\",\n" +
                                                                "    \"gender\": \"female\",\n" +
                                                                "    \"benefitPercentage\": 41\n" +
                                                                "  }\n" +
                                                                "]"));
PutRowRequest putRowRequest = new PutRowRequest(rowPutChange);
syncClient.putRow(putRowRequest);

数据查询

通过申请人姓名和保单过期时间搜索

本需求是一个AND查询，在多元索引中，我们只需要将两个Query放到BoolQuery的mustQueries中即可：

SearchQuery searchQuery = new SearchQuery();
searchQuery.setGetTotalCount(true);

BoolQuery boolQuery = new BoolQuery();

TermQuery applierNameQuery = new TermQuery();
applierNameQuery.setFieldName(APPLIER_NAME);
applierNameQuery.setTerm(ColumnValue.fromString("Vernon Richardson"));

RangeQuery expirationTimeQuery = new RangeQuery();
expirationTimeQuery.setFieldName(EXPIRATION_TIME);
SimpleDateFormat simpleDateFormat = new SimpleDateFormat("yyyy-MM-dd");
Date date;
try {
  date = simpleDateFormat.parse("2019-03-04");
} catch (ParseException e) {
  throw new RuntimeException(e);
}
expirationTimeQuery.setTo(ColumnValue.fromLong(date.getTime()), true);

// use BoolQuery to combine other queries
boolQuery.setMustQueries(Arrays.asList(
  applierNameQuery,
  expirationTimeQuery
        ));

searchQuery.setQuery(boolQuery);

SearchRequest searchRequest = new SearchRequest(tableName, indexName, searchQuery);
// specify columns to get
SearchRequest.ColumnsToGet columnsToGet = new SearchRequest.ColumnsToGet();
// get all columns
columnsToGet.setReturnAll(true);
searchRequest.setColumnsToGet(columnsToGet);
SearchResponse searchResponse = syncClient.search(searchRequest);

通过受益人姓名和受益比例查询

受益人字段我们在多元索引中保存为nested类型，这边我们使用NestedQuery来完成此功能：

SearchQuery searchQuery = new SearchQuery();
searchQuery.setGetTotalCount(true);

NestedQuery nestedQuery = new NestedQuery();
// search for nested field beneficiary_info
nestedQuery.setPath(BENEFICIARY_INFO);
nestedQuery.setScoreMode(ScoreMode.Avg);

BoolQuery boolQuery = new BoolQuery();

TermQuery beneficiaryNameQuery = new TermQuery();
// concat field name with `.`
beneficiaryNameQuery.setFieldName(BENEFICIARY_INFO + "." + NAME);
beneficiaryNameQuery.setTerm(ColumnValue.fromString("Tyrone Lee"));

RangeQuery profitPercentageQuery = new RangeQuery();
// concat field name with `.`
profitPercentageQuery.setFieldName(BENEFICIARY_INFO + "." + BENEFIT_PERCENTAGE);
profitPercentageQuery.setFrom(ColumnValue.fromLong(50), true);

boolQuery.setMustQueries(Arrays.asList(
  beneficiaryNameQuery,
  profitPercentageQuery
        ));

nestedQuery.setQuery(boolQuery);

searchQuery.setQuery(nestedQuery);
SearchRequest searchRequest = new SearchRequest(tableName, indexName, searchQuery);
// specify columns to get
SearchRequest.ColumnsToGet columnsToGet = new SearchRequest.ColumnsToGet();
// get all columns
columnsToGet.setReturnAll(true);
searchRequest.setColumnsToGet(columnsToGet);
SearchResponse searchResponse = syncClient.search(searchRequest);

其他示例

其他示例可以参照样例代码中的SearchPolicyExample。

总结

通过Tablestore的多元索引功能可以很方便地完成一个海量保单查询平台，用户只需要关注功能开发而不需要关注具体的运维细节，实现了真正的0托管，如果有更多的问题可以加入我们的技术支持群：

基于Tablestore的海量保险单查询平台

背景

需求分析

技术选型

MySQL

Tablestore

表结构设计

代码示例

SDK引入

创建Tablestore表与多元索引

数据写入

数据查询

通过申请人姓名和保单过期时间搜索

通过受益人姓名和受益比例查询

其他示例

总结

云存储

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

基于Tablestore的海量保险单查询平台

背景

需求分析

技术选型

MySQL

Tablestore

表结构设计

代码示例

SDK引入

创建Tablestore表与多元索引

数据写入

数据查询

通过申请人姓名和保单过期时间搜索

通过受益人姓名和受益比例查询

其他示例

总结

云存储

热门文章

最新文章

相关课程

相关电子书

相关实验场景