1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. G>
  5. 关键词过滤

当前主题:关键词过滤

超大规模商用 K8s 场景下,阿里巴巴如何动态解决容器资源的按需分配问题?

作者 | 张晓宇(衷源)  阿里云容器平台技术专家 关注『阿里巴巴云原生』公众号,回复关键词“1010**”,可获取本文 PPT。** 导读:资源利用率一直是很多平台管理和研发人员关心的话题。本文作者通过阿里巴巴容器平台团队在这一领域的工作实践,整理出了一套

阅读全文

夯实Java基础系列21:Java8新特性终极指南

本系列文章将整理到我在GitHub上的《Java面试指南》仓库,更多精彩内容请到我的仓库里查看 https://github.com/h2pl/Java-Tutorial 喜欢的话麻烦点下Star哈 文章首发于我的个人博客: www.how2playlife

阅读全文

Docker容器实战(六) - 容器的隔离与限制

Linux容器中用来实现“隔离”的技术手段:Namespace。Namespace实际上修改了应用进程看待整个计算机“视图”,即它的“视线”被操作系统做了限制,只能“看到”某些指定的内容。对于宿主机来说,这些被“隔离”了的进程跟其他进程并没有区别。 在之前虚

阅读全文

电商平台评论关键词提取|无监督/有监督方法

电商平台评论关键词提取 背景介绍 在电商业务中,用户评价是很重要的数据。如何合理的将其利用起来,提升用户购物体验是各大电商都会不断思考的问题。 用户评价信息一般包含以下三个方面: 正向,好等 中性,无意义等 负面,差等 ![0](https://yqfile

阅读全文

「最有用」的特殊大数据:一文看懂文本信息系统的概念框架及功能

导读:作为一种特殊的大数据,文本数据泛指各种以自然语言形式存在的数据。 目前,我们正处在一个以大数据与人工智能技术为核心的新的工业革命时代,其主要特征是大量各种可利用的数据可以视为一种特殊的生产资料,经过高效的智能数据分析与挖掘以及机器学习等人工智能技术处理

阅读全文

编程小技巧之 Linux 文本处理命令

合格的程序员都善于使用工具,正所谓君子性非异也,善假于物也。合理的利用 Linux 的命令行工具,可以提高我们的工作效率。 本文简单的介绍三个能使用 Linux 文本处理命令的场景,给大家开阔一下思路。希望大家阅读完这篇文章之后,要多加实践,将这些技巧内化到

阅读全文

敏捷AI | NLP技术在宜信业务中的实践【构建用户画像篇】

高级场景之构建客户画像 在许多企业中,每天业务人员和客户的沟通都会产生大量记录,这些记录可能包括了客服的沟通数据(通话记录、通话小结),也可能包括了各式各样的报告数据(陪访报告、征信报告等)(见图1)。 图1 业务人员与客户产生沟通记录 前者可能口语会多一些

阅读全文

什么是网络爬虫?有什么用?怎么爬?终于有人讲明白了

一、什么是网络爬虫 随着大数据时代的来临,网络爬虫在互联网中的地位将越来越重要。互联网中的数据是海量的,如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题,而爬虫技术就是为了解决这些问题而生的。 我们感兴趣的信息分为不同的类型:如果只是做

阅读全文

关键词过滤相关问答

提问题

违法关键词过滤问题

我现在有5000万数据, 信息内容可能违词, 我想请问一下,我如何过滤这些违法词, 能提供对应的违法词库,我做过滤整理

阅读全文

文本分析中数据导入,分词后,停用词过滤组件为什么不能用?

文本数据在数据源中上传,设置了一个关键字段 在分词组件中进行了分词和词性标注 再连接停用词过滤组件,点击右边的选择字段却显示列表为空,因此无法执行停用词过滤 请问大家如何解决

阅读全文

有什么好的方法可以防止网络爬虫进行数据抓取

我先简单说一下,网站使用的是SpringMVC+Tomcat的框架,具有搜索功能,基本就是依靠关键词使用ajax进行post请求,这样爬虫可以通过字典用httpclient等工具抓取数据。 我现在想防止数据被爬取,初步的想法是根据IP的访问次数来过滤,我

阅读全文

防止网络爬虫进行数据抓取

我先简单说一下,网站使用的是SpringMVC+Tomcat的框架,具有搜索功能,基本就是依靠关键词使用ajax进行post请求,这样爬虫可以通过字典用httpclient等工具抓取数据。 我现在想防止数据被爬取,初步的想法是根据IP的访问次数来过滤,我

阅读全文