王旁青头戋五一
王旁青头戋五一
2021年05月03日入驻 合计 2 个作品 累计 31.36 万字
  • 第十四章 多面技能

    数据科学需要很多其它工作都需要的一个重要技能-数据分析能力,但是这不是唯一需要的技能
    通过超市自动收款系统(POS)案例来展示数据科学的各种挑战
    数据科学家在数据架构,数据获取,数据分析,数据归档这四个与数据科学相关的设计与实施领域扮演积极角色
    案例中突出强调了沟通技能,数据分析技能,伦理推理技能
  • 第十三章 储存之战

    到目前为止,我们只使用了一些自己输入的小量的数据,或是从Twitter采集的较大量的数据。但是,我们的世界是由各种数据源构成的,我们需要了解如何把各种数据源的数据导入到R之中,或是如何在R中能够对其进行操作。在本章中,我们来看看数据的不同储存方式,以及如何使用这些数据。
  • 第十二章 Word Perfect 2

    在上一步中,我们用“tm”包将cleanText变量强制归入特定“Class”, 即语料库;并且将结果保存为一个新的数据对象”tweetCorpus“。这是我们第一次遇到一个”Class“。”Class“一词来源于计算机科学中的”面向对象编程“(OOP)。虽然R和面向对象编程语言(如Java)有很多不同,它仍然有很多基本功能来实现面向对象的编程。这里,我们介绍一些关于“Class”的基本知识。第一,“Class”只是一个关于数据结构的概念;第二,“Class”通过基本的数据形式来建立复杂的数据结构,例如数值型数据。例如,如果建立一个新的分类“Dashboard(数字仪表盘)”,我们可以引入“Miles Per Hour(小时里程数)“,”RPM“,以及“Fuel Level”来显示油位。由此,我们发现,R软件用户可以直接建立“类”。本例中,“tm”包的作者Ingo Feinerer,创建了一个新的门类,称之为语料库,成为了文本挖掘函数的核心数据结构(Feinerer,维也纳大学计算机科学教授,任职于数据库和人工智能研究组)。最后,本段讨论最重要的是,“类”不仅包含数据结构的概念,它还包含了函数的操作指南。换言之,“Class”是一个带有操作指引的数据对象,从简单操作,如添加、提取对象,到诸如画图之类的复杂操作过程。
  • 第十一章 Word Perfect 1

    在前面的章节中,我们掌握了一些测试和操作文本的最基本和最重要的函数。现在我们准备要做的是,分析出现在文本文档中实实在在的文字。关于互联网的一些最基本的函数,像关键字搜索,通过分析“内容”,例如文体中的文字,来完成的。
    本章开头的照片是所谓的“文字云”,它是通过测试在推特搜索中输入术语“数据科学”返回所有的文字生成的。(这个网页应用在http://www.jasondavies.com)。这些五颜六色的文字看起来挺有趣的,但是它们其实还隐含着一些有用的信息。图片上文字的几何排列一部分是随机的,一部分是为吸引眼球而精心设计的。文字的颜色也是。然而,字体的大小则是这个文字在这张众多文字组成的库中重要性的衡量。Corpus,拉丁语当中是“身体”的意思,它通常是文字分析者参考文本材料的文字,一般包含一个或多个文件。当我们考虑大量的文本数据,一组文档可以使任何东西:网页,你电脑上的文字处理文档,一组推文,或是政府报告。大多数情况下,文字分析者考虑文档集,每个文档集包含一些自然语言文本,这些自然语言文本就会被看做是一个语料库,如果他们打算集中分析所有的文档。
  • 第十章 推特,推特

    我们已在数据科学的道路上取得了很大进步:学习了基本的R技能,接触了R-studio,了解了管理第三方包的相关知识,有了创建函数,使用基本描述性统计以及采样分布与统计推论的的经验。本章,我们将使用推特这一社交媒体服务来获取并处理实时数据。
  • 第九章 开始R-Studio

    作为一个拥有活跃的用户社区的开源软件,R之所以能不断创新发展离不开社区志愿者无私贡献。其中一个非常重要的创新就能完美支持R语言副本的R-Studio框架。本章从R-Studio的安装开始,然后再详细介绍了“包”——扩展R的关键。
  • 第八章 大数据?了不起!

    在2012年,许多科技媒体的头条关注了大数据。是什么让数据变大,为什么“大”重要?在这一章,我们讨论这些问题后面的争议。掌握了前一章的知识后,对于数据的规模如何影响我们的数据工作,我们可以有更多的思考。
  • 第七章 罐子中的样本

    抽样分布是理解统计推断的关键概念。为了理解随机性在抽样时所产生的影响,很多讲解抽样分布的方法都提到了从罐子中抽取弹球或糖果这样的经典例子。通过前面提到的美国人口的例子,我们可以清楚的看到尽管总体的分布不是正态的,但其样本均值的分布却服从正态分布。
  • 第六章 啤酒,农场和豌豆

    很多最简单和最实用的统计方法都来自于出生于十九世纪工业革命时期的四个年轻人。他们大部分的工作都专注于使用收集到的数据来描述观察到的现象并且做出相应的推断,应用到工业和农业生产实际中去解决问题。
  • 第五章 行与列

    表现数据的最基础和应用最广的方法之一就是使用行与列,每一行是一个案例或是实例,每一列是一个变量或是属性。尽管电子表格并不常常提到案例或变量的概念,但是大部分电子表格依然用行与列的形式来组织数据。R语言中行与列的的形式可以通过数据框这种对象来表现出来。
  • 第四章 跟着数据走

    侦探这行有句谚语“跟着钱走。”在数据科学,成功的一个关键是“跟着数据走。”在多数情形,一个数据科学家不会去从无到有的设计一个信息系统。反而,在一些或者许多已有的系统中,就有数据;数据科学家面临的很大一部分挑战就是如何整合这些系统。
  • 第三章 R入门

    “R”是一个开源软件程序,由一群正在使用它的科学家,研究员和数据分析师们自愿服务来对它进行维护。“R”是免费下载和使用的,而且在线提供大量的建议和指导资源帮助用户学习R,这一点是非常好的,因为R是一个非常有力的和复杂的程序,现实中,它是一个专注于数据分析的功能全面的编程语言。
  • 第二章 识别数据问题

    数据科学与其他领域诸如数学或统计学完全不同。数据科学是一种实用的活动,数据科学家提供需求,并且帮助数据使用者解决问题。在解决一个问题之前,首先需要明确该问题,而这个过程却并不总是看起来那么明显。在这一章中,我们将要讨论如何识别数据问题。
  • 第一章 关于数据

    数据这个词来源于拉丁文“datum”,意思是“已知的东西”。虽然“数据”这个术语从1500年代就被使用了,但是现代的用法是在1940年代和1950年代随着电子计算机开始输入,处理和输出数据时才出现的。这一章讨论数据的本质,并对没有计算机科学背景的初学者介绍一些关键概念。
  • 关系

  • 地理坐标点

    地理坐标点(geo-point) 是指地球表面可以用经纬度描述的一个点。地理坐标点可以用来计算两个坐标位置间的距离,或者判断一个点是否在一个区域中。
  • 通过地理坐标点过滤

  • 地理坐标盒模型过滤器

  • 地理距离过滤器

  • 缓存地理位置过滤器

  • 前一页 后一页