鹤壁信息网
游戏
当前位置:首页 > 游戏

大数据挖掘风正起隐私边界仍不清晰

发布时间:2019-11-26 20:00:51 编辑:笔名

大数据挖掘风正起 隐私边界仍不清晰

导读:在当当上购买了经济类图书,再登录时,页面上就会主动跳出与经济金融投资相关的图书;在淘宝上买了几件童装,登录后,页面上就会出现各式的小孩衣服,而且价钱、样式都会与购买的类似;只要在某个购物站留下邮箱,邮箱里总会出现很多卖家的广告……上述经历,相信是很多人上时会遇到的情况:被推送,而且是根据个人的喜好被精确推送商品。这一切都与现在络科技的一个热门词相关:数据挖掘。

在当当上购买了经济类图书,再登录时,页面上就会主动跳出与经济金融投资相关的图书;在淘宝上买了几件童装,登录后,页面上就会出现各式的小孩衣服,而且价钱、样式都会与购买的类似;只要在某个购物站留下邮箱,邮箱里总会出现很多卖家的广告……上述经历,相信是很多人上时会遇到的情况:被推送,而且是根据个人的喜好被精确推送商品。这一切都与现在络科技的一个热门词相关:数据挖掘。

从去年开始,有关大数据的各种论坛此起彼伏,让人感觉大数据时代来临的紧迫性,这与前几年云计算、物联风起时情况类似,人人都在谈,但到底如何做、如何利用却只有少数人能够说得明白,谈得清楚。

不久前在北京举办的“中美创新链接大数据高端论坛”上,北京经济和信息化委员会副主任梁胜就直接点题:“我更关心的是,大数据到底能为城市安全运行提供什么?到底能为科研生产活动提供什么?我想,这是政府和市民,以及各行各业都需要的。”

阿里巴巴的数据科学家杨滔以阿里巴巴的实际案例,分享了一家数据生产巨头内部对数据的挖掘和运用。

杨滔先介绍了他们如何利用淘宝构建起超级数据集:“就是对消费者信息的提炼,通过购物记录、支付宝的记录等,提炼出用户性别、年龄,所在地的级别,比如是在城里还是乡村(可以提炼出几级城市),是在沿海还是内陆,是在南方还是北方,是不是结婚了,是不是有孩子这些信息都是从大量数据中提炼出来的。”

杨滔透露,他们通过支付宝和淘宝的数据,统计发现淘宝上的活跃用户中有近2000万名大学生。“大学生”这个标签是数据本身中没有的,但可以通过用户收货地址挖掘提取出来,并通过过滤手段把大学里的教职员工和其他人员排除在外。

杨滔还介绍了用户并不清楚的淘宝“微市场”:“我们给用户分成了很多群,这个群就是用到消费者超级数据集,再根据用户的购物行为作动态的分组,比如说一个"贵妇"也喜欢买便宜的东西,一个不是有钱的大学生也可能买奢侈品,不同的行业里面和不同类目里面,根据消费者的行为作购物的动态分析。”杨滔特别提到“达人推荐”:“达人就是在不同商品中善于发现好东西的买家。找到你所在的群体中比较活跃,善于发现淘宝商品的达人,用达人来给你做推荐。”

因为通过分析,杨滔他们发现,和某类消费者兴趣相似的达人,经常能搜到一些有品质的商品,在这些达人的引导下,可以拔高追求高品质的消费者的需求,而不是重复原来的需求。

他们在女装“微市场”测试了6个群体。消费者不知道自己的分类,但是默认看到的东西和别人看到的东西是不一样的。这6个群体用到了分群和达人推荐,购买的各项指标提升得都非常明显,花费平均提升20%以上。其中消费能力高的“贵妇群”支付宝交易额提升60%以上。而“贵妇群”以前在淘宝很难找到适合她们的商品,淘宝更照顾寻找便宜和性价比较高商品的人群。

杨滔最后还介绍了一个通过数据挖掘来进行商品销售预测的项目。他们在“聚划算”中选取少量商品,对比机器审核和原有的人工审核,结果是机器预测商品销售远高于人工审核的准确率。他认为,这个基础性的工具,对于未来淘宝精细化的运营,卖家合理的定价和库存管理,都会大有用处。

云计算和移动互联的高速发展正在推动和改变着企业的运营模式,很多巨头公司都已经开始自建大数据平台,越来越多的企业开始运用互联和移动平台进行市场营销和业务管理。针对这些新趋势,DCCI互联数据中心创始人胡延平认为移动端的数据价值更大。“但这个领域处于数据沉淀,基础数据监测阶段,距离真正的挖掘还比较远。”针对目前急骤上升的移动互联用户和数据,胡延平认为,“PC端和移动端的数据,从数据的质量、数据的结构、数据的获取方式、数据的量级等,都有很大差异。”

他解释说,在移动端本身应用和应用之间相对来说都是封闭的,所以移动端数据不是开放性的。现在有些大企业试图形成一个封闭的开放平台,把大家圈进来形成规模,有了规模之后才能形成发现数据体系。

同时,他也表示了对这个行业的忧虑:“(做数据挖掘)要尊重用户,不尊重用户数据很难做得很远。我们评测65%以上移动应用,也会抓取一些与评测功能无关的用户数据,甚至是涉及隐私的数据。”数据获得与数据利用的隐私边界都是问题。

机床配附件及维修
奇幻
情感