新功能: 阿里云爬虫风险管理利器 - 实时日志分析 (一)

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 阿里云反爬管理与日志服务打通,对外开放访问与机器人攻击日志。提供近实时的网站具体的日志自动采集存储、并提供基于日志服务的查询分析、报表报警、下游计算对接与投递的能力。

背景

爬虫形势

Web安全形势一直不容乐观, 根据Globaldots的2018年机器人报告, 爬虫占据Web流量的42%左右.
image

为什么要反爬

防资源过度消耗

大量的机器人访问网站, 设想你的网站有42%的流量都不是真的人访问的. 相当一部分还会大量占用后台的网络带宽, 服务器计算, 存储资源.

防黄牛党

航空公司占座: 黄牛党利用恶意爬虫遍历航空公司的低价票,同时批量发起机器请求进行占座,导致航班座位资源被持续占用产生浪费,最终引发航班空座率高对航空公司造成业务损失,并且损害正常用户的利益。

防薅羊毛党

黄牛党在电商活动时针对有限的高价值商品的限时秒杀、优惠活动等可牟利场景,批量发起机器请求来模拟正常的交易,再将商品、资源进行倒卖从中赚取差价,导致电商企业的营销资源无法触达正常用户,而被黄牛牟取暴利。

防黑客

核心接口被刷: 登录、注册、短信等业务环节作为业务中的关键节点,相关接口往往会被黑客利用,为后续的欺诈行为作准备。

为什么需要日志分析

找出隐藏更深的机器人

爬虫与反爬虫是一个攻与防的过程, 根据前述报告, 高级机器人占据了74%的比例(剩余是比较简单的机器人), 而根据FileEye M-Trends 2018报告,企业组织的攻击从发生到被发现,一般经过了多达101天,其中亚太地区问题更为严重,一般网络攻击被发现是在近498(超过16个月)之后。有了日志才能更好的找出隐藏很深的坏机器人.

了解机器人并区分对待

爬虫也分好与坏, 搜索引擎来查询, 才可以达到SEO效果并带来更多有价值的访问. 通过日志可以帮助管理员更好的区分哪些是好的机器人, 并依据做出更加适合自己的反爬配置.

保留报案证据

发现非法攻击的机器人, 可以保留攻击者信息与路径, 作为报警的重要证据.

增强运维效率

基于日志可以发现异常, 并能快速报警并采取行动.

更多附加功能

依托日志服务的其他功能, 可以发挥日志的更大价值.

阿里云爬虫风险管理 - 实时日志分析概述

阿里云爬虫风险管理

云盾爬虫风险管理是一款网络应用安全防护产品,专业检测高级爬虫,降低爬虫、自动化工具对网站的业务影响。 产品提供从Web、App到API接口的一整套全面的恶意Bot防护解决方案,避免某一环节防护薄弱导致的安全短板。
image

阿里云日志服务

阿里云的日志服务(log service)是针对日志类数据的一站式服务,无需开发就能快捷完成海量日志数据的采集、消费、投递以及查询分析等功能,提升运维、运营效率。日志服务主要包括 实时采集与消费、数据投递、查询与实时分析 等功能,适用于从实时监控到数据仓库的各种开发、运维、运营与安全场景:
image

目前,云盾爬虫风险管理日志服务打通,对外开发Web访问与攻击日志。提供近实时的网站具体的日志自动采集存储、并提供基于日志服务的查询分析、报表报警、下游计算对接与投递的能力。
image

发布地域

  • 国内
  • 国际

适用客户

  • 拥有大量优质与知识产权的视频、图片、文字载体的内容、教育、媒体、咨询类网站。
  • 面向大量优质客户,并频繁更新Web上金融、电商、服务信息的互联网企业,如航空、政府、电商、金融网站。
  • 拥有自己的安全运营中心(SOC),需要收集安全告警等日志进行中央运营管理的企业,如大型地产、电商、金融公司、政府类机构等。
  • 拥有较强技术能力,需要基于云上资产的日志进行深度分析、对告警进行自动化处理的企业,如IT、游戏、金融公司等。

功能优势

爬虫风险管理日志实时查询分析服务具有以下功能优势:

  • 配置简单:轻松配置即可实现反爬访问与攻击日志的实时采集。
  • 实时分析:依托日志服务产品,提供实时日志分析能力、开箱即用的报表中心与自带交互挖掘支持,从0到1, 让您对网站业务的各种爬虫攻击状况以及客户访问细节了如指掌。
  • 实时告警:支持基于特定指标定制准实时的监测与告警,确保在关键业务发生异常时能第一时间响应。
  • 生态体系:支持对接其他生态如实时计算、云存储、可视化等方案,进一步挖掘数据价值。
  • 费用:免费提供14天实时访问与攻击日志的存储。

开通前提

  • 开通日志服务

限制说明

爬虫风险管理所存储的日志库属于专属的日志库,有如下限制:

  1. 用户无法通过API/SDK等方式写入数据,或者修改日志库的属性(例如存储周期等)
  2. 其他日志库的功能,例如查询、统计、报警、流式消费等均支持与一般日志库无差别
  3. 日志服务对专属日志库不进行任何收费,但日志服务本身需处于可用状态(不超期欠费)
  4. 后期会升级并发布内置的报表.

使用场景

1.追踪机器人爬取与封禁日志,溯源安全威胁:

查看Top 100的爬取机器人列表:

__topic__: antibot_access_log AND (block_action:* AND NOT block_action: "") | SELECT if(real_client_ip='-', remote_addr, real_client_ip) as IP, (CASE WHEN ip_to_country(if(real_client_ip='-', remote_addr, real_client_ip))='香港' THEN '中国香港' WHEN ip_to_province(if(real_client_ip='-', remote_addr, real_client_ip))='' THEN '未知IP' WHEN ip_to_provider(if(real_client_ip='-', remote_addr, real_client_ip))='内网IP' THEN '内网IP' ELSE concat(ip_to_country(if(real_client_ip='-', remote_addr, real_client_ip)), '/', ip_to_province(if(real_client_ip='-', remote_addr, real_client_ip)), '/', if(ip_to_city(if(real_client_ip='-', remote_addr, real_client_ip))='-1', '未知城市', ip_to_city(if(real_client_ip='-', remote_addr, real_client_ip))), ' ',ip_to_provider(if(real_client_ip='-', remote_addr, real_client_ip))) END) AS "地理网络", concat(cast(count(1) AS varchar), ' / ', cast(sum(if(block_action='antibot', 1, 0)) AS varchar)) AS "攻击次数 / 爬虫封禁", round(sum(request_length)/1024.0/1024, 2) AS "攻击流量 (MB)" GROUP BY IP, "地理网络" ORDER BY count(1) DESC LIMIT 100

image

2. 实时正常可信Web请求活动,洞察状态与趋势:

查看PV/UV访问趋势的SQL:

__topic__: antibot_access_log  | select date_format(from_unixtime(__time__ - __time__% 3600), '%H:%i') as dt, count(1) as PV,  approx_distinct(if(real_client_ip='-', remote_addr, real_client_ip)) as UV  group by __time__ - __time__% 3600 order by dt limit 1000

image

3. 快速了解安全运营效率,即时反馈处理:

查看有效请求与拦截率趋势的SQL:

__topic__: antibot_access_log | select date_format(from_unixtime(__time__ - __time__% 3600), '%H:%i') as dt,  count(1) as "请求次数", round(sum(if(status < 400 and if((block_action <> ''), false, true), 1, 0))*100.0/sum(if(status < 500, 1, 0)), 1) AS "有效请求率(%)" group by __time__ - __time__% 3600 order by dt limit 10000

image

4. 输出安全网络日志到自建数据与计算中心

image

进一步参考

我们会陆续发布爬虫风险管理日志分析的最佳实践, 这里可以进一步参考相关用户手册:

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
7月前
|
存储 消息中间件 监控
阿里云sls日志服务简介和使用流程
阿里云SLS(Simple Log Service)是一种高度可扩展的、低成本的日志托管服务,它提供了全面的日志采集、存储、分析和呈现功能。阿里云SLS是全球首个在公共云上提供日志服务的企业,它具有高可靠性、高稳定性和高安全性等特点,可满足不同企业的日志需求。
|
3月前
|
存储 监控 Serverless
在处理阿里云函数计算3.0版本的函数时,如果遇到报错但没有日志信息的情况
在处理阿里云函数计算3.0版本的函数时,如果遇到报错但没有日志信息的情况【1月更文挑战第23天】【1月更文挑战第114篇】
63 5
|
3月前
|
存储 监控 数据挖掘
阿里云函数计算的日志可以通过两种方式进行处理
【1月更文挑战第16天】【1月更文挑战第76篇】阿里云函数计算(Function Compute)的日志可以通过两种方式进行处理
56 1
|
4月前
|
存储 数据采集 运维
构建高效日志管理系统:阿里云产品实践与技术解析
日志管理对于系统运维和故障排查至关重要。本文将详细介绍如何利用阿里云相关产品搭建一个高效、可扩展的日志管理系统。我们将使用Log Service、Elasticsearch、DataHub等阿里云产品,通过代码示例和详细说明,带你一步步完成整个流程。
130 0
|
5月前
|
存储 监控 安全
奇安信基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志安全分析系统,查询平均提速 700%
Apache Doris 助力奇安信建设全新日志存储分析平台,提升系统安全性与快速响应能力!
奇安信基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志安全分析系统,查询平均提速 700%
|
6月前
|
关系型数据库 MySQL 数据库
阿里云Mysql数据库物理全备文件恢复到自建数据库Mysql报错:InnoDB: Log file ./...xtrabacku
阿里云Mysql数据库物理全备文件恢复到自建数据库Mysql报错:InnoDB: Log file ./...xtrabacku
|
7月前
|
存储 SQL 运维
阿里云日志服务SLS全面升级:秒级处理数千亿行日志
阿里云日志服务SLS全面升级:秒级处理数千亿行日志
421 0
|
7月前
|
存储 SQL 运维
阿里云日志服务SLS全面升级:秒级处理数千亿行日志、新计费模式可省32%
数据更安全、计费更灵活  阿里云日志服务SLS内核全面升级
805 0
阿里云日志服务SLS全面升级:秒级处理数千亿行日志、新计费模式可省32%
|
8月前
|
存储 人工智能 运维
阿里云宣布升级SLS内核,更稳定,更灵活,更普惠
阿里云宣布升级SLS内核,更稳定,更灵活,更普惠
355 0
|
8月前
|
对象存储 索引 消息中间件
备份日志和索引到阿里云OSS
备份日志和索引到阿里云OSS

相关产品

  • 日志服务