有时候我们需要导入超过百M的数据,这个时候Excel打开通常是无法响应的状态,大数据处理已经成为目前职场数据处理的一个难题,可以预见随着目前企业级业务的增长,后续的数据量会持续激增,这更加考验数据分析人员如何处理大文本数据 。
比如这里的淘宝用户购物行为数据包含1万用户量级的完整行为数据,共计469M大?。9娴卮蚩狤xcel的方式已经不适用 , 无法打开和响应 , 若强制打开,电脑会被“卡死”,无法响应 。
本节会用一种数据处理方法来处理这种大文本数据,如下的用户行为数据共包含用户标识、商品标识、用户对商品的行为、商品分类标识、行为时间共计五个字段,要研究每个用户对商品的行为转化情况 。
下面研究该大文本数据每个用户对商品的行为转化情况,首先,新建一个新的空Excel表,在数据选项卡下点击新建查询 , 选择从文件,点击从csv , 使用的是Excel中Power Query组件 。
找到需要导入的文件目录后,点击导入即可 。
会弹出如下界面,该界面就是我们熟悉的PQ 编辑界面,点击编辑可对数据进行清洗 。
如上我们知道,这里的用户行为数据是用数字代表用户的行为,手动将用户行为数据转化为文本格式 。
更改列类型点击下面的替换当前转化 。
数据类型转化后,可以将具体的用户行为数字标识替换为具体的用户行为,在数据选项卡下点击替换值 。
将用户行为数字标识1、2、3、4依次替换为浏览、收藏、加购物车、购买 。
将用户行为数字标识2替换为收藏 。
点击筛选按钮,如下已经替换完成,将数字标识转化为具体的用户行为 。
将处理好的数据在开始选项卡下点击关闭并上载至…
在加载到中勾选将此数据添加到数据模型 。
将数据加载到表格中后在设计里可点击通过数据透视表汇总,对数据进行数据透视 。
由于用户标识存在重复值数据,所以要分析每个用户行为需要去重处理 , 以此来统计每个淘宝用户的实际行为 。
数据透视完以后,右键点击降序排列 。
如下我们可以看到,一个淘宝用户从浏览、加购物车、购买、收藏呈漏斗形转化 , 与用户分析模型AARRR相似,符合用户行为理论,从浏览到加购物车这个行为转化率较低,需要优化浏览界面 , 提升加购物车的转化率 。
如上,使用Power Query完美解决大文本数据打开和处理问题 , 并借助案例数据研究淘宝用户商品行为,如果你也感兴趣数据分析,想提升Excel数据技能 , 提高个人技能和职场竞争力,不妨关注我,持续分享数据分析知识~
【500M的Excel表如何打开?大文本Excel数据处理方式】掌握一项技能 , 精进一个领域,成为更好的自己