python爬虫怎么做?
原创

python爬虫怎么做?

好文

热门回答:

大到各类搜索引擎。小到日常数据采集。都离不开网络爬虫。爬虫的基本原理很简单。遍历网络中网页。抓取感兴趣的数据内容。这篇文章会从零开始介绍如何编写一个网络爬虫抓取数据。然后会一步步逐渐完善爬虫的抓取功能。

工具安装

我们需要安装python。python的requests和BeautifulSoup库。我们用Requests库用抓取网页的内容。使用BeautifulSoup库来从网页中提取数据。

安装python

运行pip install requests

运行pip install BeautifulSoup

抓取网页

完成必要工具安装后。我们正式开始编写我们的爬虫。我们的第一个任务是要抓取所有豆瓣上的图书信息。我们以https://book.douban.com/subject/26986954/为例。首先看看开如何抓取网页的内容。

使用python的requests提供的get()方法我们可以非常简单的获取的指定网页的内容, 代码如下:

提取内容

抓取到网页的内容后。我们要做的就是提取出我们想要的内容。在我们的第一个例子中。我们只需要提取书名。首先我们导入BeautifulSoup库。使用BeautifulSoup我们可以非常简单的提取网页的特定内容。

连续抓取网页

到目前为止。我们已经可以抓取单个网页的内容了。现在让我们看看如何抓取整个网站的内容。我们知道网页之间是通过超链接互相连接在一起的。通过链接我们可以访问整个网络。所以我们可以从每个页面提取出包含指向其它网页的链接。然后重复的对新链接进行抓取。

通过以上几步我们就可以写出一个最原始的爬虫。在理解了爬虫原理的基础上。我们可以进一步对爬虫进行完善。

写过一个系列关于爬虫的文章:https://www.toutiao.com/i6567289381185389064/。感兴趣的可以前往查看。

Python基本环境的搭建。爬虫的基本原理以及爬虫的原型

Python爬虫入门(第1部分)

如何使用BeautifulSoup对网页内容进行提取

Python爬虫入门(第2部分)

爬虫运行时数据的存储数据。以SQLite和MySQL作为示例

Python爬虫入门(第3部分)

使用selenium webdriver对动态网页进行抓取

Python爬虫入门(第4部分)

讨论了如何处理网站的反爬虫策略

Python爬虫入门(第5部分)

对Python的Scrapy爬虫框架做了介绍。并简单的演示了如何在Scrapy下进行开发

Python爬虫入门(第6部分)

其他观点:

Python 爬虫怎么做?

这是一个长期学习的过程。这里有一个系列的教程。还在持续更新中。如果感兴趣的可以看看。

原文:https://github.com/TwoWater/Python

IT 行业相对于一般传统行业。发展更新速度更快。一旦停止了学习。很快就会被行业所淘汰。但是。我们要清楚:淘汰的永远只是那些初级水平的从业者。过硬技术的从业者永远都是稀缺的。因此对于学习。我们还是要踏踏实实的。

自学 Python 。也是一样。不要一开始因为头脑发热就不停地收藏各种资料网站。购买各种书籍。下载了大量的教学视频。过了几天。学习的热情开始褪去。再过几个星期。终于完成了学习课程 —— 《从入门到放弃》。所以。学习 Python 需要一步一个脚印。踏踏实实地学。

FQ

在讲 Python 如何入门之前。个人建议最好每个人都有自己的 FQ 工具。多使用 Google 搜索。多去看一下墙外的世界。多看 Github 上的开源项目。

至于如何 FQ 。这里提供一下我用过的工具:FQ工具集「https://github.com/TwoWater/Python/blob/master/Res/FQ.md」

Python 学习资源集

相信很多人学习某门编程语言的时候。都会找各种学习资料。说句实话。资料太多。反而没用。根据自己的学习习惯。个人能力选择一门资源坚持学就好了。

因为每个人的需求不同。这里整理了一批 Python 比较好的学习资料:

Python 博客网站资源「https://github.com/TwoWater/Python/blob/master/Res/Python%E5%8D%9A%E5%AE%A2%E7%BD%91%E7%AB%99%E8%B5%84%E6%BA%90.md」

Python 视频教程资源「https://github.com/TwoWater/Python/blob/master/Res/Python%E5%8D%9A%E5%AE%A2%E7%BD%91%E7%AB%99%E8%B5%84%E6%BA%90.md」

Python 入门

对于入门。主要是掌握基本的语法和熟悉编程规范。因此大部分的教程基本一致的。所以还是建议选好适合自己的一个教程。坚持学下去。

在 Python 入门中。本人自己编写了一系列的 《 草根学 Python 》 博客。 是基于 Python 3.6 写的 Python 入门系列教程。为了更好的阅读。把它整理在 GitBook 上;如果 GitBook 访问慢。也可以到个人博客查阅:草根学 Python。希望对各位入门 Python 有所帮助。

主要目录如下:

Python代码规范

简明概述

注释

命名规范

第一个Python程序

Python 简介

Python 的安装

第一个 Python 程序

集成开发环境(IDE): PyCharm

基本数据类型和变量

Python 语法的简要说明

Python 的基本数据类型

基本数据类型转换

Python 中的变量

List 和 Tuple

List(列表)

tuple(元组)

Dict 和 Set

字典(Dictionary)

set

条件语句和循环语句

条件语句

循环语句

条件语句和循环语句综合实例

函数

Python 自定义函数的基本步骤

函数传值问题

函数返回值

函数的参数

匿名函数

迭代器和生成器

迭代

Python 迭代器

lsit 生成式(列表生成式)

生成器

迭代器和生成器综合例子

模块与包

Python 模块简介

模块的使用

主模块和非主模块

作用域

面向对象

面向对象的概念

类的属性

类的方法

类的继承

类的多态

Python 的 Magic Method

Python 的 Magic Method

构造()和初始化()

属性的访问控制

对象的描述器

自定义容器(Container)

运算符相关的魔术方法

枚举类

枚举类的使用

Enum 的源码

自定义类型的枚举

枚举的比较

元类

Python 中类也是对象

使用 动态创建类

什么是元类

自定义元类

使用元类

线程与进程

线程与进程

多线程编程

进程

一步一步了解正则表达式

初识 Python 正则表达式

字符集

数量词

边界匹配符和组

re.sub

re.match 和 re.search

闭包

装饰器

知识点补漏

Python 关键字 yield

Python 进阶

使用Python虚拟环境

Mac中使用virtualenv和virtualenvwrapper

Django

Python 下有许多款不同的 Web 框架。Django 是重量级选手中最有代表性的一位。许多成功的网站和 APP 都基于 Django。

如果对自己的基础有点信息的童鞋。可以尝试通过国外进行入门。这个教程讲的非常的详细。而且还有很多有趣的配图。不过可能因为墙的原因。很多人会访问不到。就算访问到了。也因为是英语的。不会进行耐心的阅读学习。因此我打算翻译这个教程。

一个完整的初学者指南Django-part1

一个完整的初学者指南Django-part2

后面经一个朋友说。这个教程已经有人在翻译了。因此我也不翻译了。不过感觉我的翻译还是挺好的。因为不是直译的。是通过了解后。用自己的语言再次表达出来。

这里有上面这个教程翻译计划的 Github 以及 博客。觉得哪个看得舒服。就选哪个进行学习。

其他观点:


从获取的html页面中。或者api获取的json中。得到自己所需要的数据。然后存储到指定的数据库


用到的库主要为 :

http访问: requests模块、或urllib3库

多线程:Thread、threadpool线程池。或者concurrent包里的ThreadPoolExecutor、或urllib3自带的PoolManager()

文档处理: re 正则表达式、json模块

数据存储:MySQL-python存储或者pymongo mongodb存储等等

进一步的。如果爬取量大。可以进行些简单的封装。让各个功能各司其职

比较正式的爬虫系统。可以用python框架ScrapyScrapy已经提供了一整套的机制。来减少自己搭建爬虫系统的难度。

被封堵的网站网站封堵爬虫会有很多的不同的技术。并且这些技术都是在不断调整和完善的。网站有时也会修改界面或者接口。我们会经常会发现今天能爬取的网页。明天就不行了。这就需要经常检查和修复。

简单的js封堵。可以通过代码分析。模拟逻辑来绕过

复杂的验证码就需要用些图像识别库来进行识别了。如pytesser。然后填充和认证通过

如果需要登录的网站。还可能需要用到selenium工具进行模拟输入的方式登录






❤❤❤❤❤ 请任性点赞。谢谢关注  -- 我是 极迭代 。我为自己带盐 🙂

您还感兴趣的文章推荐

以上就是由互联网推广工程师 桔子生活网 整理编辑的,如果觉得有帮助欢迎收藏转发~

分享到 :
相关推荐

回复 北海茫月 取消回复

登录... 后才能评论

评论(2)

  • 北海茫月 永久VIP 2022年12月28日 15:23:25

    爬虫,入门,网页,内容,自己的,我们可以,模块,教程,语句,第一个

  • 滴蜡泪 永久VIP 2022年12月28日 15:23:25

    没想到大家都对python爬虫怎么做?感兴趣,不过这这篇解答确实也是太好了

  • 对不起是种借口 永久VIP 2022年12月28日 15:23:25

    大到各类搜索引擎。小到日常数据采集。都离不开网络爬虫。爬虫的基本原理很简单。遍历网络中网页。抓取感兴趣的数据内容。这篇文