Python爬虫工程师常见面试题汇总-阿里云开发者社区

Python爬虫工程师常见面试题汇总

2020-03-06 1999

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

　　爬虫是Python的重要应用方向之一，也是学习Python的学员求职的主要方向。为了帮助学员更快更好的通过企业面试，小编悉心整理了5道Python爬虫面试题及答案，希望能够给大家提供帮助!
　　1、简要介绍下scrapy框架及其优势
　　scrapy是一个快速(fast)、高层次(high-level)的基于Python的Web爬虫构架，用于抓取Web站点并从页面中提取结构化的数据。scrapy使用了Twisted异步网络库来处理网络通讯。
　　scrapy框架的优点：1)更容易构建大规模的抓取项目;2)异步处理请求速度非常快;3)可以使用自动调节机制自动调整爬行速度。
　　2、爬虫使用多线程好?还是多进程好?
　　对于IO密集型代码(文件处理，网络爬虫)，多线程能够有效提升效率(单线程下有IO操作会进行IO等待，会造成不必要的时间等待，而开启多线程后，A线程等待时，会自动切换到线程B，可以不浪费CPU的资源，从而提升程序执行效率)。在实际的采集过程中，既考虑网速和相应的问题，也需要考虑自身机器硬件的情况，来设置多进程或者多线程。
　　3、什么是栈溢出?怎么解决?
　　因为栈一般默认为1-2m，一旦出现死循环或者是大量的递归调用，在不断的压栈过程中，造成栈容量超过1m而导致溢出。
　　栈溢出的情况有两种：1)局部数组过大。当函数内部数组过大时，有可能导致堆栈溢出。2)递归调用层次太多。递归函数在运行时会执行压栈操作，当压栈次数太多时，也会导致堆栈溢出。
　　解决方法：1)用栈把递归转换成非递归。2)增大栈空间。
　　4、MySQL的索引在什么情况下失效?
　　1)如果条件中有or，即使其中有条件带索引也不会使用(这也是为什么尽量少用or的原因)
　　要想使用or，又想让索引生效，只能将or条件中的每个列都加上索引。
　　2)对于多列索引，不是使用的第一部分，则不会使用索引。
　　3)like查询以%开头。
　　4)如果列类型是字符串，那一定要在条件中将数据使用引号引用起来，否则不使用索引。
　　5)如果MySQL估计使用全表扫描要比使用索引快，则不使用索引。
　　5、HTTPS是如何实现安全传输数据的?
　　客户端(通常是浏览器)先向服务器发出加密通信的请求;
　　服务器收到请求,然后响应;
　　客户端收到证书之后会首先会进行验证;
　　服务器收到使用公钥加密的内容，在服务器端使用私钥解密之后获得随机数pre-master secret，然后根据radom1、radom2、pre-master secret通过一定的算法得出session Key和MAC算法秘钥，作为后面交互过程中使用对称秘钥。同时客户端也会使用radom1、radom2、pre-master secret，和同样的算法生成session Key和MAC算法的秘钥。
　　然后再后续的交互中就使用session Key和MAC算法的秘钥对传输的内容进行加密和解密。

Python爬虫工程师常见面试题汇总

热门文章

最新文章

相关课程

相关电子书

相关实验场景