程序代写案例-MAST30034

欢迎使用51辅导,51作业君孵化低价透明的学长辅导平台,服务保持优质,平均费用压低50%以上! 51fudao.top
CP
U
ED
UC
AT
IO
N
MAST30034 Applied Data Science
Project1
Echo
Semester 2 2021
1 Requirement
1.1 Data

• New York City
• 3 month
• 不同时间,数据有不同记录方式,尽量不选择横跨两种记录方式的数据。
• latitude longitude or aggregated zones
1.2 Report
• Latex Report
• 1500-2000
• 5-8 pages
1.3 其他
• Github Repo
• Bare minimum of three months without any sub-sampling
• 画图的时候可以 sampling,但是做模型的时候不可以。
2 获取数据
2.1 选择车型
Project 统一使用 TLC Trip Record Data,纽约出租车数据,从 09 年到 20 年。数
据按月分,每个月最多包含四种车。
CP
U
ED
UC
AT
IO
N
CPU Education MAST30034 Applied Data Science
• Yellow Taxi Trip Records,13 年前只有小黄车。
• Green Taxi Trip Records,只能再非市中心的地方 responseo street hails,数
据较少,同样电脑配置下可以选择更长的数据。
• FHV Trip Records 网约车,数据较少,同样电脑配置下可以选择更长的数据。
• High Volume For-Hire Vehicle Trip Records
2.2 数据 attribute
对车型有了大概认识之后我们打开 data dictionary 开始看。大致数据都包含
pickup、dropoff 的时间和地点。客人付款类型,Fare_amount(根据路程算出的价
格),小费,其他费用(如过路费高速费等其他费用),总费用。
2.3 Task Recommendations/Stakeholders
了解数据之后我们需要选一个合适的 task,选 task 之前我们可以考虑一下相应的
Stakeholders,也更方便我们后面在 report 里写 Recommendations。
常用的 stakeholder 可以从这几方面考虑:出租车司机,乘客,管理出租车的机构。
根据对应的 stakeholder 思考他们关心的是什么,从而得出来我们研究目标。
例如:
• 乘客会关心什么时候是打车高峰?(对比不同时间段 PICKUP 次数)车的不
同种类会不会价格不同(筛选同样路程的,看不同车价格是否一样)?
• 出租车司机会关心哪里可以接到更多的乘客?(哪里是热门 pickup 地点)怎
么能赚到更多的钱?
• 出租车管理机构可能会关心,网约车的出现会不会让黄车绿车的需求下
降?(看网约车出现前后黄车绿车 transaction 数量变化)
现在选择“如何提升出租车司机的收入”为 task,进行更深层次的挖掘。
出租车司机收入和每次接的客人有关系,如果一天可以接到更多的客人那么可
以有效提升司机收入,单个客人给的价格高也可以提高出租车司机收入。这里要注
意,出租车是按里程收费,长历程代表高收入,同时也会占用出租车司机的时间,
使接单数量更少,因此我们选择更加活性的小费来计算出租车司机收入。
现在问题被简化成为了,“什么会影响人们对出租车的需求”,和什么会影响
人们付小费的数量“。
Page 1
CP
U
ED
UC
AT
IO
N
CPU Education MAST30034 Applied Data Science
什么会影响人们对出租车的需求
例:
• 天气?人们在恶劣天气的时候会优先使用出租车吗
• 特殊事件?开演唱会、体育赛事的时候会提升出租车的需求吗
• 日期?周末、节日会提升人们对出租车的需求吗
• 时间?不同时间段(如早晚高峰)会提升人们对出租车的需求吗
什么会影响人们付小费的数量
例:
• 天气?人们在恶劣天气的时候会给出租车司机更多小费吗?
• 特殊事件?开演唱会、体育赛事的时候会给出租车司机更多小费吗
• 日期?周末、节日会给出租车司机更多小费吗
• 时间?不同时间段(如早晚高峰)会给出租车司机更多小费吗
• 富人区?
• 长距离旅行 or 一次 trip 乘客很多的时候?
思考完以上的框架就可以开始寻找 extra dataset 了,以上框架可以利用到的有
娱乐活动体育赛事的时间,天气数据等。
3 Preprocessing
需要做如下几个步骤:
• 选取合适的 data period
• 只留需要的 attribute (payment type 等不需要的信息)
• Remove missing data
• Remove 和 noisy data (看 data period 里是否存在不属于此 period 的数
据,有没有负数的 payment,有没有乘客为 0 的幽灵车,有没有 PICKUP 和
DROPOFF 中间时间为 0 的手抖按错的记录?如果是 Coordinates 的话还需
要额外清理 coordinates)
• Remove Outliers (可以使用 3 倍 IQR 的方法,也可以自行设置)
• feature engineering (是否需要额外数据?combine extra data 和我们数据到
一起。)
Page 2
CP
U
ED
UC
AT
IO
N
CPU Education MAST30034 Applied Data Science
4 Preliminary Analysis
根据上面列举出的 factor 分别出图分析,注意图像大小应当合理,颜色清楚,有标
题,xy 轴名字,有图例,图像类型合理。地图 libraries:
• folium.plugins -> Heatmap (需要 coordinate 数据)
• geopandas + plt(需要 shape 和频率数据)
• geopandas + folium(需要 shape 和频率数据)
注意 Geopandas 需要搭配 shape file 文件使用。
5 Statistical Modelling
根据 Task 设计模型,可以是 Statistical model,也可以是 machine learning model。
根据 Task 和自身熟练程度考虑用 R 还是用 python。做模型的时候要考虑 model
assumption,做完模型需要做 evaluation。我们依旧用 Tips 作为例子,分别建立
classification模型(Binary classification乘客是否会给小费)和 regression模型(乘
客会给多少小费, 以及预测乘客数量)。
6 Conclusion
最后在写结尾的时候一定要根据上面的发现来解释结果,解释为什么图像、模型产
生了这样的结果。这样的结果或许和我们一开始的假设不同,这个时候先回头捋一
下是不是自己哪里做错了,确定无误之后再继续写。最后的结论要跟着结果走。
Page 3

欢迎咨询51作业君
51作业君

Email:51zuoyejun

@gmail.com

添加客服微信: abby12468