李牝的主页_匠果

爬虫框架 Scrapy 安装配置

初级的爬虫我们利用 urllib 和 urllib2 库以及正则表达式就可以完成了，不过还有更加强大的工具，爬虫框架 Scrapy，这安装过程也是煞费苦心哪，在此整理如下。

2021年12月01日

Python 爬虫开发教程

模拟登录淘宝并获取所有订单

经过多次尝试，模拟登录淘宝终于成功了，实在是不容易，淘宝的登录加密和验证太复杂了，煞费苦心，在此写出来和大家一起分享，希望大家支持。

2021年12月01日

Python 爬虫开发教程

抓取淘宝 MM 照片

福利啊福利，本次为大家带来的项目是抓取淘宝 MM 照片并保存起来，大家有没有很激动呢？

2021年12月01日

Python 爬虫开发教程

计算大学本学期绩点

大家好，本次为大家带来的项目是计算大学本学期绩点。首先说明的是，博主来自山东大学，有属于个人的学生成绩管理系统，需要学号密码才可以登录，不过可能广大读者没有这个学号密码，不能实际进行操作，所以最主要的还是获取它的原理。最主要的是了解cookie的相关操作。

2021年12月01日

Python 爬虫开发教程

爬取百度贴吧帖子

大家好，上次我们实验了爬取了糗事百科的段子，那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是，这次我们需要用到文件的相关操作。

2021年12月01日

Python 爬虫开发教程

爬取糗事百科段子

大家好，前面入门已经说了那么多基础知识了，下面我们做几个实战项目来挑战一下吧。那么这次为大家带来，Python 爬取糗事百科的小段子的例子。

2021年12月01日

Python 爬虫开发教程

Beautiful Soup 的用法

上一节我们介绍了正则表达式，它的内容其实还是蛮多的，如果一个正则匹配稍有差池，那可能程序就处在永久的循环之中，而且有的小伙伴们也对写正则表达式的写法用得不熟练，没关系，我们还有一个更强大的工具，叫 Beautiful Soup，有了它我们可以很方便地提取出 HTML 或 XML标签中的内容，实在是方便，这一节就让我们一起来感受一下 Beautiful Soup 的强大吧。

2021年12月01日

Python 爬虫开发教程

正则表达式

在前面我们已经搞定了怎样获取页面的内容，不过还差一步，这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢？下面就开始介绍一个十分强大的工具，正则表达式！

2021年12月01日

Python 爬虫开发教程

Cookie 的使用

大家好哈，上一节我们研究了一下爬虫的异常处理问题，那么接下来我们一起来看一下 Cookie 的使用。

2021年12月01日

Python 爬虫开发教程

URLError 异常处理

本节在这里主要说的是 URLError 还有 HTTPError，以及对它们的一些处理。

2021年12月01日

Python 爬虫开发教程

爬虫框架 Scrapy 安装配置

模拟登录淘宝并获取所有订单

抓取淘宝 MM 照片

计算大学本学期绩点

爬取百度贴吧帖子

爬取糗事百科段子

Beautiful Soup 的用法

正则表达式

Cookie 的使用

URLError 异常处理

Urllib 库的高级用法

Urllib 库的基本使用

爬虫基础了解

第十章时序数据（参考答案）

第九章分类数据（参考答案）

第八章文本数据（参考答案）

第七章缺失数据（参考答案）

第六章连接（参考答案）

第五章变形（参考答案）

第四章分组（参考答案）