五、练习

Ex1:房屋信息数据集

现有一份房屋信息数据集如下:

In [114]: df = pd.read_excel('data/house_info.xls', usecols=[
   .....:                 'floor','year','area','price'])
   .....: 
In [115]: df.head(3)
Out[115]: 
      floor    year    area price
0   高层(共6层)  1986年建  58.23㎡  155万
1  中层(共20层)  2020年建     88㎡  155万
2  低层(共28层)  2010年建  89.33㎡  365万
  1. year 列改为整数年份存储。
  2. floor 列替换为 Level, Highest 两列,其中的元素分别为 string 类型的层类别(高层、中层、低层)与整数类型的最高层数。
  3. 计算房屋每平米的均价 avg_price ,以 ***元/平米 的格式存储到表中,其中 *** 为整数。

Ex2:《权力的游戏》剧本数据集

现有一份权力的游戏剧本数据集如下:

In [116]: df = pd.read_csv('data/script.csv')
In [117]: df.head(3)
Out[117]: 
  Release Date    Season   Episode      Episode Title          Name                                           Sentence
0   2011-04-17  Season 1  Episode 1  Winter is Coming  waymar royce  What do you expect? They're savages. One lot s...
1   2011-04-17  Season 1  Episode 1  Winter is Coming          will  I've never seen wildlings do a thing like this...
2   2011-04-17  Season 1  Episode 1  Winter is Coming  waymar royce                             How close did you get?
  1. 计算每一个 Episode 的台词条数。
  2. 以空格为单词的分割符号,请求出单句台词平均单词量最多的前五个人。
  3. 若某人的台词中含有问号,那么下一个说台词的人即为回答者。若上一人台词中含有 nn 个问号,则认为回答者回答了 nn 个问题,请求出回答最多问题的前五个人。