1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. Z>
  5. 脏字典过滤

当前主题:脏字典过滤

电商平台评论关键词提取|无监督/有监督方法

电商平台评论关键词提取 背景介绍 在电商业务中,用户评价是很重要的数据。如何合理的将其利用起来,提升用户购物体验是各大电商都会不断思考的问题。 用户评价信息一般包含以下三个方面: 正向,好等 中性,无意义等 负面,差等 ![0](https://yqfile

阅读全文

分分钟解决MySQL查询速度慢与性能差

分分钟解决MySQL查询速度慢与性能差 一、什么影响了数据库查询速度 1.1 影响数据库查询速度的四个因素 1.2 风险分析 QPS: QueriesPerSecond意思是“每秒查询率”,是一台服务器每秒能够相应的查询次数,是对一个特定的查询服务器在规定时间

阅读全文

LevelDB 入门 —— 全面了解 LevelDB 的功能特性

本节我们将全面了解一下 LevelDB 的各种特性。LevelDB 的开发语言是 C++,考虑到会使用 C++ 语言的同学不是很多,在本节我们将使用 Java 语言来描述 LevelDB 的特性。其它语言栈的同学也不必担心,因为不同语言操纵 LevelDB

阅读全文

关键字过滤(转载)

最近写了一个关键字过滤器,也就是脏字过滤,由于是新手,所以效率大家可能不敢恭维。 不过总算是实现了哈。 对于保存脏字的字典,用的是NameValueCollection,他的结构大概为下图: 一个键值组合, 一个键能对应多个值, 这就使得我们第一次 的匹配能

阅读全文

基于皮尔森相关系数的协同过滤算法

      刚看到一新闻说很多互联网公司尤其是草根北京的都缺少有针对性的CTO,看完我感觉我要努力学好算法,争取自己创业。 一、PearsonCorrelation       两个变量之间的相关系数越高,从一个变量去预测另一个变量的精确度就越高,这是因为相关

阅读全文

大型分布式系统中的缓存架构

本文主要介绍大型分布式系统中缓存的相关理论,常见的缓存组件以及应用场景。 缓存概述 缓存概述 缓存的分类 缓存主要分为四类,如下图: 缓存的分类 CDN 缓存 CDN(Content Delivery Network 内容分发网络)的基本原

阅读全文

python核心编程--笔记(不定时跟新)

的解释器options: 1.1 –d 提供调试输出 1.2 –O 生成优化的字节码(生成.pyo文件) 1.3 –S 不导入site模块以在启动时查找python路径 1.4 –v 冗余输出(导入语句详细追踪) 1.5 –m mod 将一个模块以脚本形式运行

阅读全文

快速掌握:大型分布式系统中的缓存架构

本文主要介绍大型分布式系统中缓存的相关理论,常见的缓存组件以及应用场景。 缓存概述 ![image](https://yqfile.alicdn.com/3fefa5547c8925e3072299d682525ba29f724d95.png) 缓存概述 缓

阅读全文