CP U ED UC AT IO N MAST30034 Applied Data Science Project1 Echo Semester 2 2021 1 Requirement 1.1 Data • New York City • 3 month • 不同时间,数据有不同记录方式,尽量不选择横跨两种记录方式的数据。 • latitude longitude or aggregated zones 1.2 Report • Latex Report • 1500-2000 • 5-8 pages 1.3 其他 • Github Repo • Bare minimum of three months without any sub-sampling • 画图的时候可以 sampling,但是做模型的时候不可以。 2 获取数据 2.1 选择车型 Project 统一使用 TLC Trip Record Data,纽约出租车数据,从 09 年到 20 年。数 据按月分,每个月最多包含四种车。 CP U ED UC AT IO N CPU Education MAST30034 Applied Data Science • Yellow Taxi Trip Records,13 年前只有小黄车。 • Green Taxi Trip Records,只能再非市中心的地方 responseo street hails,数 据较少,同样电脑配置下可以选择更长的数据。 • FHV Trip Records 网约车,数据较少,同样电脑配置下可以选择更长的数据。 • High Volume For-Hire Vehicle Trip Records 2.2 数据 attribute 对车型有了大概认识之后我们打开 data dictionary 开始看。大致数据都包含 pickup、dropoff 的时间和地点。客人付款类型,Fare_amount(根据路程算出的价 格),小费,其他费用(如过路费高速费等其他费用),总费用。 2.3 Task Recommendations/Stakeholders 了解数据之后我们需要选一个合适的 task,选 task 之前我们可以考虑一下相应的 Stakeholders,也更方便我们后面在 report 里写 Recommendations。 常用的 stakeholder 可以从这几方面考虑:出租车司机,乘客,管理出租车的机构。 根据对应的 stakeholder 思考他们关心的是什么,从而得出来我们研究目标。 例如: • 乘客会关心什么时候是打车高峰?(对比不同时间段 PICKUP 次数)车的不 同种类会不会价格不同(筛选同样路程的,看不同车价格是否一样)? • 出租车司机会关心哪里可以接到更多的乘客?(哪里是热门 pickup 地点)怎 么能赚到更多的钱? • 出租车管理机构可能会关心,网约车的出现会不会让黄车绿车的需求下 降?(看网约车出现前后黄车绿车 transaction 数量变化) 现在选择“如何提升出租车司机的收入”为 task,进行更深层次的挖掘。 出租车司机收入和每次接的客人有关系,如果一天可以接到更多的客人那么可 以有效提升司机收入,单个客人给的价格高也可以提高出租车司机收入。这里要注 意,出租车是按里程收费,长历程代表高收入,同时也会占用出租车司机的时间, 使接单数量更少,因此我们选择更加活性的小费来计算出租车司机收入。 现在问题被简化成为了,“什么会影响人们对出租车的需求”,和什么会影响 人们付小费的数量“。 Page 1 CP U ED UC AT IO N CPU Education MAST30034 Applied Data Science 什么会影响人们对出租车的需求 例: • 天气?人们在恶劣天气的时候会优先使用出租车吗 • 特殊事件?开演唱会、体育赛事的时候会提升出租车的需求吗 • 日期?周末、节日会提升人们对出租车的需求吗 • 时间?不同时间段(如早晚高峰)会提升人们对出租车的需求吗 什么会影响人们付小费的数量 例: • 天气?人们在恶劣天气的时候会给出租车司机更多小费吗? • 特殊事件?开演唱会、体育赛事的时候会给出租车司机更多小费吗 • 日期?周末、节日会给出租车司机更多小费吗 • 时间?不同时间段(如早晚高峰)会给出租车司机更多小费吗 • 富人区? • 长距离旅行 or 一次 trip 乘客很多的时候? 思考完以上的框架就可以开始寻找 extra dataset 了,以上框架可以利用到的有 娱乐活动体育赛事的时间,天气数据等。 3 Preprocessing 需要做如下几个步骤: • 选取合适的 data period • 只留需要的 attribute (payment type 等不需要的信息) • Remove missing data • Remove 和 noisy data (看 data period 里是否存在不属于此 period 的数 据,有没有负数的 payment,有没有乘客为 0 的幽灵车,有没有 PICKUP 和 DROPOFF 中间时间为 0 的手抖按错的记录?如果是 Coordinates 的话还需 要额外清理 coordinates) • Remove Outliers (可以使用 3 倍 IQR 的方法,也可以自行设置) • feature engineering (是否需要额外数据?combine extra data 和我们数据到 一起。) Page 2 CP U ED UC AT IO N CPU Education MAST30034 Applied Data Science 4 Preliminary Analysis 根据上面列举出的 factor 分别出图分析,注意图像大小应当合理,颜色清楚,有标 题,xy 轴名字,有图例,图像类型合理。地图 libraries: • folium.plugins -> Heatmap (需要 coordinate 数据) • geopandas + plt(需要 shape 和频率数据) • geopandas + folium(需要 shape 和频率数据) 注意 Geopandas 需要搭配 shape file 文件使用。 5 Statistical Modelling 根据 Task 设计模型,可以是 Statistical model,也可以是 machine learning model。 根据 Task 和自身熟练程度考虑用 R 还是用 python。做模型的时候要考虑 model assumption,做完模型需要做 evaluation。我们依旧用 Tips 作为例子,分别建立 classification模型(Binary classification乘客是否会给小费)和 regression模型(乘 客会给多少小费, 以及预测乘客数量)。 6 Conclusion 最后在写结尾的时候一定要根据上面的发现来解释结果,解释为什么图像、模型产 生了这样的结果。这样的结果或许和我们一开始的假设不同,这个时候先回头捋一 下是不是自己哪里做错了,确定无误之后再继续写。最后的结论要跟着结果走。 Page 3
欢迎咨询51作业君