1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. Q>
  5. 去重复 python

当前主题:去重复 python

去重复 python相关的博客

什么是网络爬虫?有什么用?怎么爬?终于有人讲明白了

一、什么是网络爬虫 随着大数据时代的来临,网络爬虫在互联网中的地位将越来越重要。互联网中的数据是海量的,如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题,而爬虫技术就是为了解决这些问题而生的。 我们感兴趣的信息分为不同的类型:如果只是做

阅读全文

精选26个Python实用技巧,想秀技能先Get这份技术列表!

出品 | AI科技大本营 本文整理了 26 个 Python 有用的技巧,将按照首字母从 A~Z 的顺序分享其中一些内容。 all 或 any 人们经常开玩笑说 Python 是“可执行的伪代码”,但是当你可以这样编写代码时,你就很难反驳了。 1x = [T

阅读全文

Apache Flink 1.9.0版本新功能介绍

摘要:Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。目前,Apache Flink 1.9.0版本已经正式发布,该版本有什么样的里程碑意义,又具有哪

阅读全文

阿里云智能--基础产品技术月刊 2019年8月

一、商用产品技术 TOP1 智能接入网关SAG发布集中控制台配置功能,提升企业客户网络管理维护效率 在规模较大的企业用户场景,企业线下IDC之间以及访问云上资源,会在多地域部署阿里云智能接入网关SAG,传统的本地web配置,因为IT管理人员经验和技能水平参差

阅读全文

Java后端面经总结:拿下蚂蚁金服美团头条 offer 秘诀

笔者在面过 猿辅导,去哪儿,旷视, 陌陌,头条, 阿里, 快手, 美团, 腾讯之后,除了收获一大堆面试问题,还思考到如何成为面试官眼中的"爱技术,爱思考,靠谱,有潜力候选人的"一些"套路". 面试问题(Java 后端) 猿辅导 1.八皇后问题 2.求二叉树的

阅读全文

受用一生的高效 PyCharm 使用技巧(四)

大家好,这个系列到今天已经是第四篇了,按照惯例,本次还是分享 5 个。 16. 快速定位到错误行 前几天打开 PyCharm,发现在导航栏这里出现了很多红色波浪线,有过 PyCharm 使用经验的同学,这是代码出现了错误。 顺着波浪线,我一层一层地展开目录树

阅读全文

Apache Flink 1.9.0版本新功能介绍

摘要:Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。目前,Apache Flink 1.9.0版本已经正式发布,该版本有什么样的里程碑意义,又具有哪

阅读全文

1000行 MySQL 学习笔记,不怕你不会,就怕你不学!

Windows服务 -- 启动MySQL net start mysql -- 创建Windows服务 sc create mysql binPath= mysqld_bin_path(注意:等号与值之间有空格) 连接与断开服务器 mysql -h 地址 -

阅读全文

Coding and Paper Letter(七十)

资源整理。 1 Coding: 1.JupyterHub的流量模拟器。 hubtraf 2.前端面试手册。 front end interview handbook 3.Python学习课程。 learn python 4.从ArcGIS/ESRI格式中提取

阅读全文

Apache Flink 零基础入门(七):Table API 编程

作者:程鹤群(军长) 文章概述:本文主要包含三部分:第一部分,主要介绍什么是 Table API,从概念角度进行分析,让大家有一个感性的认识;第二部分,从代码的层面介绍怎么使用 Table API;第三部分,介绍 Table API 近期的动态。文章结构如下

阅读全文

Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

Virgin Hyperloop One(超级高铁公司)是一家从事超级高铁研究的公司,致力于能让高铁达到飞机的速度并且拥有更低的成本。为了能够制造一个商业的系统,我们需要收集并且分析非常大量的各种不同的数据,包括各种运行测试数据,多种模拟数据,技术设施数据,

阅读全文

Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

Virgin Hyperloop One(超级高铁公司)是一家从事超级高铁研究的公司,致力于能让高铁达到飞机的速度并且拥有更低的成本。为了能够制造一个商业的系统,我们需要收集并且分析非常大量的各种不同的数据,包括各种运行测试数据,多种模拟数据,技术设施数据,

阅读全文

独家 | 使用Python的OpenAI Gym对Deep Q-Learning的实操介绍(附学习资源)

作者:ANKIT CHOUDHARY 翻译:张睿毅 校对:吴金笛 文章来源:微信公众号 数据派THU 本文4300字,建议阅读10+分钟。 本文作者通过实战介绍了Deep Q-Learning的概念。 导言 我一直对游戏着迷。在紧凑的时间线下执行一个动作似乎

阅读全文

降云十八掌——阿里云运维架构最佳实践(下)

本文将阿里云运维实践汇总为十八招,从云时代下的资源自动化管理,到静态、动态缓存提升网站性能的方法,再到混合云架构、互联网监控解决方案,以及Devops和云安全实践等,都是比较经典的一些干货,让大家了解阿里云最热门的运维架构技术实践。 直播视频回放,戳这里 想

阅读全文

BAT程序员们常用的开发神器(附代码、教程)

来源:InfoQ 文章来源:微信公众号 数据派THU 本文约6400字,建议阅读10+分钟。 工欲善其事必先利其器,善于利用各种开发工具同样可以事半功倍。 工欲善其事必先利其器,一个优秀的程序员除了代码写得好,善于利用各种开发工具同样可以事半功倍。以 BAT

阅读全文

独家 | 关于数据湖架构、战略和分析的8大错误认知(附链接)

翻译:张玲 校对:丁楠雅 文章来源:微信公众号 数据派THU 本文打破有关数据湖的8个错误认知,错误认知包括3方面,还提出了5个小技巧,以构建一个灵活的、可交付业务价值的数据湖。 本文的目的是构建数据湖,并提供适应企业数据策略的背景信息。咨询公司和提供商提出

阅读全文

独家 | XGBoost介绍:用监督学习来预测期望寿命

作者:Luciano Strika 文章来源:微信公众号 数据派THU 翻译:吴振东 校对:车前子 本文约4000字,建议阅读14分钟。 本文将介绍XGBoost的定义,并利用这一模型对人类指数官方数据集进行回归预测。 一座漂亮的森林,是如此的随机!来源:P

阅读全文

修改代码150万行!与 Blink 合并后的 Apache Flink 1.9.0 究竟有哪些重大变更?

作者:杨克特(鲁尼) 8月22日,Apache Flink 1.9.0 正式发布,早在今年1月,阿里便宣布将内部过去几年打磨的大数据处理引擎Blink进行开源并向 Apache Flink 贡献代码。当前 Flink 1.9.0是阿里内部版本 Blink 合

阅读全文

独家 | 一文读懂统计学与机器学习的本质区别(附案例)

翻译:李海明 校对:丁楠雅 本文约4000字,建议阅读10+分钟。 文章来源:微信公众号 数据派THU 本文为你讲解了统计学与机器学习的本质区别。 两者之间并不一样。如果机器学习仅仅是统计学基础上的锦上添花,那么其结构只能像沙堡一样脆弱。 老实说,我已经厌倦

阅读全文

大数据学习路线分享函数+map映射+元祖

大数据学习路线分享函数+map映射+元祖,大数据各个平台上的语言实现 hadoop 由java实现,2003年至今,三大块:数据处理,数据存储,数据计算 存储: hbase --> 数据成表 处理: hive --> 数据仓库的工具 计算: mapreduc

阅读全文

113