1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. G>
  5. 关键词过滤

当前主题:关键词过滤

敏捷AI | NLP技术在宜信业务中的实践【构建用户画像篇】

高级场景之构建客户画像 在许多企业中,每天业务人员和客户的沟通都会产生大量记录,这些记录可能包括了客服的沟通数据(通话记录、通话小结),也可能包括了各式各样的报告数据(陪访报告、征信报告等)(见图1)。 图1 业务人员与客户产生沟通记录 前者可能口语会多一些

阅读全文

什么是网络爬虫?有什么用?怎么爬?终于有人讲明白了

一、什么是网络爬虫 随着大数据时代的来临,网络爬虫在互联网中的地位将越来越重要。互联网中的数据是海量的,如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题,而爬虫技术就是为了解决这些问题而生的。 我们感兴趣的信息分为不同的类型:如果只是做

阅读全文

Apache Flink 在同程艺龙实时计算平台的研发与应用实践

本文主要介绍 Apache Flink 在同程艺龙的应用实践,从当前同程艺龙实时计算平台现状、建设过程、易用性提升、稳定性优化四方面分享了同城艺龙实时计算平台的建设经验,供大家参考。 1.背景介绍 在 2015 年初,为了能够采集到用户在 PC,APP 等平

阅读全文

重磅|阿里云HBase Ganos全新升级,推空间、时空、遥感一体化基础云服务

1、HBase Ganos是什么 Ganos是阿里云时空PaaS服务的自研核心引擎。Ganos已作为云数据库时空引擎与数据库平台融合,建立了以自研云原生数据库POALRDB为基础,联合NoSQL大数据平台(Ali-HBASE和X-Pack Spark)的完整

阅读全文

重磅|阿里云HBase Ganos全新升级,推空间、时空、遥感一体化基础云服务

1、HBase Ganos是什么 Ganos是阿里云时空PaaS服务的自研核心引擎。Ganos已作为云数据库时空引擎与数据库平台融合,建立了以自研云原生数据库POALRDB为基础,联合NoSQL大数据平台(Ali-HBASE和X-Pack Spark)的完整

阅读全文

日志服务索引那些事儿

简介 日志是排查问题最基本也是最重要的信息,排查问题原始的方式是登录机器查看日志,分布式场景下登录所有的机器代价太大,不利于问题排查。所以需要将日志集中采集,而且要快速查询到问题日志。所以这里选择的是日志服务来对日志进行处理。日志服务(Log Service

阅读全文

日志服务数据加工最佳实践: 字符串动态键值对的提取

本实践案例主要是从字符串专题进行展开,将从多方面讲解如何使用不同方案字符串,来解决用户需求。 一个快速案例: 解析URL中参数键值对 以下是一个url的数据,本文将会使用两种方案来展开这条日志内容: request: https://yz.m.sm.cn/s

阅读全文

1000行 MySQL 学习笔记,不怕你不会,就怕你不学!

Windows服务 -- 启动MySQL net start mysql -- 创建Windows服务 sc create mysql binPath= mysqld_bin_path(注意:等号与值之间有空格) 连接与断开服务器 mysql -h 地址 -

阅读全文

关键词过滤相关问答

提问题

违法关键词过滤问题

我现在有5000万数据, 信息内容可能违词, 我想请问一下,我如何过滤这些违法词, 能提供对应的违法词库,我做过滤整理

阅读全文

文本分析中数据导入,分词后,停用词过滤组件为什么不能用?

文本数据在数据源中上传,设置了一个关键字段 在分词组件中进行了分词和词性标注 再连接停用词过滤组件,点击右边的选择字段却显示列表为空,因此无法执行停用词过滤 请问大家如何解决

阅读全文

有什么好的方法可以防止网络爬虫进行数据抓取

我先简单说一下,网站使用的是SpringMVC+Tomcat的框架,具有搜索功能,基本就是依靠关键词使用ajax进行post请求,这样爬虫可以通过字典用httpclient等工具抓取数据。 我现在想防止数据被爬取,初步的想法是根据IP的访问次数来过滤,我

阅读全文

防止网络爬虫进行数据抓取

我先简单说一下,网站使用的是SpringMVC+Tomcat的框架,具有搜索功能,基本就是依靠关键词使用ajax进行post请求,这样爬虫可以通过字典用httpclient等工具抓取数据。 我现在想防止数据被爬取,初步的想法是根据IP的访问次数来过滤,我

阅读全文