恭喜你,找到了《挖掘社交媒体》这本书的网络版!在这里,您可以学习如何使用Python编程语言以有意义的方式挖掘、处理和分析来自社交网络的数据。
你将学习如何使用技术工具从社交媒体收集和分析数据,以构建引人注目的、数据驱动的故事。
如何学习:
编写Python脚本并使用api从社交网络收集数据
下载数据档案并深入挖掘
检查从网站下载的HTML是否为有用的内容
使用谷歌Sheets格式化、聚合、排序和过滤收集的数据
创建数据可视化来说明您的发现
使用Python、Jupyter notebook和pandas库执行高级数据分析
将你所学到的应用到你自己的研究课题中去
我和我在No Starch的出版商真的想确保所有社会经济背景的人都能读到这本书,所以这是它的免费版本。但如果你有办法,愿意支持我们,你可以在无淀粉出版社买一本电子书或实体书。
你将学习如何使用技术工具从社交媒体收集和分析数据,以构建引人注目的、数据驱动的故事。
如何学习:
编写Python脚本并使用api从社交网络收集数据
下载数据档案并深入挖掘
检查从网站下载的HTML是否为有用的内容
使用谷歌Sheets格式化、聚合、排序和过滤收集的数据
创建数据可视化来说明您的发现
使用Python、Jupyter notebook和pandas库执行高级数据分析
将你所学到的应用到你自己的研究课题中去
我和我在No Starch的出版商真的想确保所有社会经济背景的人都能读到这本书,所以这是它的免费版本。但如果你有办法,愿意支持我们,你可以在无淀粉出版社买一本电子书或实体书。
2021年12月04日
2021年12月04日
本教程共有十章,可分为三大模块:基础知识、四类操作、四类数据,涵盖了pandas的所有核心操作与特性。
在第一个模块中,包含了python基础、numpy基础和pandas基础三大部分。其中,python基础将回顾列表推导式、匿名函数、map对象以及zip对象的概念与应用;numpy基础包含了常见的数组操作,如:数组构造、数组变形与合并、数组切片、数组函数以及广播机制。pandas基础中涵盖了文件IO、数据存储结构、滑窗对象、以及pandas中的所有基本函数。
在第二个模块中,包含了索引、分组、变形、连接四类操作的介绍。其中,第三章索引涵盖了单层索引、多层索引、索引设定以及索引运算的内容;第四章分组介绍了分组对象的基本概念、聚合函数的使用、变换函数与过滤函数的用法,以及跨列分组的相关内容;第五章变形将讨论长宽表的变形、索引间的变形,以及类变形函数;第六章连接将涉及关系连接与方向连接的区别于使用方法,以及类变形函数的相关内容。
在第三个模块中,包含了缺失数据、文本数据、分类数据和时序数据的介绍。其中,第七章缺失数据将涉及其四大操作————汇总、删除、填充、插值,以及Nullable类型的详细介绍;第八章文本数据中将涵盖str对象,正则基础,文本的五大操作————拆分、合并、匹配、替换、提取,以及常用字符串函数;第九章分类数据将涉及cat对象、有序类别以及区间类别;第十章时序数据将涵盖时间戳对象、时间差对象、日期偏置、时序滑窗以及时序分组的内容。
每一个章节内部有三种特殊记号,分别是Warning、Note以及练一练,它们分别表示对于某个特性使用的警告、对于某个知识点的补充或者注释、针对上文所述内容的即时练习。此外,每个章节还配有相关的习题练习,以供读者巩固所学知识或引导读者进行深入的思考与总结。基于完整性,所有的章末练习作者都给出了参考答案。
在第一个模块中,包含了python基础、numpy基础和pandas基础三大部分。其中,python基础将回顾列表推导式、匿名函数、map对象以及zip对象的概念与应用;numpy基础包含了常见的数组操作,如:数组构造、数组变形与合并、数组切片、数组函数以及广播机制。pandas基础中涵盖了文件IO、数据存储结构、滑窗对象、以及pandas中的所有基本函数。
在第二个模块中,包含了索引、分组、变形、连接四类操作的介绍。其中,第三章索引涵盖了单层索引、多层索引、索引设定以及索引运算的内容;第四章分组介绍了分组对象的基本概念、聚合函数的使用、变换函数与过滤函数的用法,以及跨列分组的相关内容;第五章变形将讨论长宽表的变形、索引间的变形,以及类变形函数;第六章连接将涉及关系连接与方向连接的区别于使用方法,以及类变形函数的相关内容。
在第三个模块中,包含了缺失数据、文本数据、分类数据和时序数据的介绍。其中,第七章缺失数据将涉及其四大操作————汇总、删除、填充、插值,以及Nullable类型的详细介绍;第八章文本数据中将涵盖str对象,正则基础,文本的五大操作————拆分、合并、匹配、替换、提取,以及常用字符串函数;第九章分类数据将涉及cat对象、有序类别以及区间类别;第十章时序数据将涵盖时间戳对象、时间差对象、日期偏置、时序滑窗以及时序分组的内容。
每一个章节内部有三种特殊记号,分别是Warning、Note以及练一练,它们分别表示对于某个特性使用的警告、对于某个知识点的补充或者注释、针对上文所述内容的即时练习。此外,每个章节还配有相关的习题练习,以供读者巩固所学知识或引导读者进行深入的思考与总结。基于完整性,所有的章末练习作者都给出了参考答案。
2021年10月22日
2021年10月22日
2021年10月22日
2021年10月22日
2021年10月22日
2021年10月22日
2021年10月22日
2021年10月22日
2021年10月22日
2021年10月22日
2021年10月22日
网络爬虫,即 Web Spider,是一个很形象的名字。目前爬虫开发的语言的主要是 Python,本教程是作者实际开发使用的心得总结,还附加几个小的爬虫案例,帮助读者更好的学习 Python 开发爬虫。
适用人群
适用于爬虫初学者,如果你对高效抓取数据有兴趣,那么本教程将会是你不错的选择。
学习前提
学习本教程前,你需要对 Python 语言有一定的了解。
本教程基于 Python 2.7
适用人群
适用于爬虫初学者,如果你对高效抓取数据有兴趣,那么本教程将会是你不错的选择。
学习前提
学习本教程前,你需要对 Python 语言有一定的了解。
本教程基于 Python 2.7
2021年12月01日 本节在这里主要说的是 URLError 还有 HTTPError,以及对它们的一些处理。
2021年12月01日
2021年12月01日
2021年12月01日 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。
比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。
比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。