五、练习

Ex1:公司员工数据集

现有一份公司员工数据集:

In [178]: df = pd.read_csv('data/company.csv')
In [179]: df.head(3)
Out[179]: 
   EmployeeID birthdate_key  age  city_name department      job_title gender
0        1318      1/3/1954   61  Vancouver  Executive            CEO      M
1        1319      1/3/1957   58  Vancouver  Executive      VP Stores      F
2        1320      1/2/1955   60  Vancouver  Executive  Legal Counsel      F
  1. 分别只使用 queryloc 选出年龄不超过四十岁且工作部门为 DairyBakery 的男性。
  2. 选出员工 ID 号 为奇数所在行的第1、第3和倒数第2列。
  3. 按照以下步骤进行索引操作:
  • 把后三列设为索引后交换内外两层
  • 恢复中间层索引
  • 修改外层索引名为 Gender
  • 用下划线合并两层行索引
  • 把行索引拆分为原状态
  • 修改索引名为原表名称
  • 恢复默认索引并将列保持为原表的相对位置

Ex2:巧克力数据集

现有一份关于巧克力评价的数据集:

In [180]: df = pd.read_csv('data/chocolate.csv')
In [181]: df.head(3)
Out[181]: 
    Company  Review\nDate Cocoa\nPercent Company\nLocation  Rating
0  A. Morin          2016            63%            France    3.75
1  A. Morin          2015            70%            France    2.75
2  A. Morin          2015            70%            France    3.00
  1. 把列索引名中的 \n 替换为空格。
  2. 巧克力 Rating 评分为1至5,每0.25分一档,请选出2.75分及以下且可可含量 Cocoa Percent 高于中位数的样本。
  3. Review DateCompany Location 设为索引后,选出 Review Date 在2012年之后且 Company Location 不属于 France, Canada, Amsterdam, Belgium 的样本。