当前位置:首页 > 物联网 > 智能应用
[导读] 最近看新闻,发现数据科学专业已经是北京大学高考入学门槛较高的专业了,其实\"Data Science\" 这个词性感了快十年了,对互联网行业而言,相当于性感了一个世纪。

 最近看新闻,发现数据科学专业已经是北京大学高考入学门槛较高的专业了,其实"Data Science" 这个词性感了快十年了,对互联网行业而言,相当于性感了一个世纪。

从“数据说话”,”DT 时代”,到 “数据中台”,“数据驱动(Data Drive/Data Driven)”,数据体系的不断演进正在持续的改变大家的工作与决策方式;正在不断的革新大家的思维方式;同时也产生了新的商业逻辑,新的发展机会。

1976 年,Pascal 作者 Nikalus Wirth 曰:Algorithms + Data Structures = Programs.

就像之前的“SOA”,“云计算”等概念一样,目前数据科学自身的概念还在不断的变革,各家公司的实践者们一边摸索,一边获利;一边总结,一边布道;当然同时还参杂着很多凑热闹的同志把概念折腾的更加模糊。所以数据科学本身的能力边界,方法论体系,最佳实践等等还没有完善的建立起来,有很多问题没有办法很好的回答。由此就会产生一些迷信和误会,”强行数据“,”随意数据“,”政治正确数据“等等情况比较常见, 无论是实际的操作层面,还是方法层面,都存在着一些不小的误会。这也是我打算总结一下在数据科学实践中存在的陷阱与缺陷的缘由。

这篇分享是根据我自己的工作经验,和对相关资深同事的访谈总结而成。它的正确性受限于我个人的认知水平和目前行业的发展水平,它整理了一些目前可能存在的问题,但未必是长久的道理。希望大家读的时候批判性的看待。抛砖引玉,如果有不同想法欢迎大家跟我随时沟通与验证,结论本身也可以随时更新。

网易严选的很多业务,比如风控业务,核心驱动力是数据及算法。我们在风控业务起步的时候就建立了数据算法驱动风控的方法体系,所以能保证很小的团队(3 个人)来支撑严选几十个内外部风险场景,每天执行百万次风险决策。当然,这是数据驱动自动决策 / 智能决策带来的力量。成功的美好,或许会让你按耐不住的想把很多业务运转方式转型过来,但遗憾的是,数据质量保障的缺失会让这一切变成随时会倒塌的空中楼阁!事实上,绝大部分组织对数据质量的理解 支撑不了更加自动和智能的决策场景。强行转型与减员增效会让他们原本稳定的业务接近崩溃。

严选风控出现过几次大的故障都跟数据质量紧密相关。今年 8 月份的时候,风控在执行每周误判巡检的时候发现整体疑似误判率增加了 4 倍。最终定位原因是设备号相关的日志内容有些异常。从而导致了相当一部分用户的行为(签到操作)被错误的执行了拦截。

这是一个很有意思的案例。一些关键的决策:比如用户是不是坏人?某个商品要采购多少量?可能会依赖于很不被重视的某个线上日志的一小部分内容。我们的整个质量保障体系很难把视角投入到某个具体应用的某个日志字段在高压力下会不会出错?在传统的应用服务质量保障理念里,日志字段的某个偶尔的小错误,没人会把它当作 Bug,开发人员更不会去关注。但如果你一旦把 数据当作了生产资料,如果我们不对应用质量保障的理念和工具进行革新,你的大量的数据分析报告,训练好的算法模型,做出的决策可能很不可靠,因为你的生产资料本身就是垃圾,而古语有言:Garbage in , garbage out。

还有一个惊人的现状是,大量用于生产数据的复杂 SQL 并没有进行真正的测试,甚至,大量的数据系统并不存在一个所谓的测试环境。我们很难像测试线上服务(比如订单系统)那样去测试数据生产过程的正确性。那么这样通过几万行,甚至几十万行(严选)SQL 生产出来的数据到底能不能用?这个问题其实很难回答。

数据的可靠性是组织在转型数据驱动过程中一个非常大的陷阱。

大家都在讨论数据质量的重要性,但是内心又默默觉得这个事情比较低级。因此,我们很少见到有团队会把大量聪明的大脑投入到数据质量的保障上。

除了资源投入的缺失,很多数据团队对数据质量的认知也是各不相同。我曾经跟一位在数据行业从业 15 年,为某知名公司数据体系做出巨大贡献的前辈做过一次深入的沟通,聊起数据质量,”你觉得数据质量是什么?“ 他的回答是:“数据质量,真正需要考虑的是指标一致性。”。瞧瞧,就算是非常资深的同行,他的认知还是不够完整,按他对数据质量的理解,数据的支撑能做到报表给人看,这个层面就很完美了,要落地到战术层,落地到线上自动决策基本不可行(因为数据质量的故障难以像线上程序故障一样快速修复,它是一个持续污染的过程)。

数据做为智能决策的输入,是动态变化的。它没法像代码的依赖那样做静态分析,它的依赖层次动态而不稳定。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

随着科技的飞速发展,我们日常生活的方方面面都在逐渐被智能化、网络化所渗透。物联网(Internet of Things, IoT)作为一项将传统物品与互联网相结合的技术,正在引领着一个全新的技术革命。从家用电器到工业制造...

关键字: 物联网 互联网 IoT

Arm Neoverse 旨在为从云到边缘的全场景基础设施用例提供高性能和出色能效。针对需要更高性能的工作负载和用例,Arm 推出了 Neoverse V 系列。其中,Neoverse V2 核心已被行业先行者广泛部署于...

关键字: 云计算 人工智能 CPU

3月22日,OPPO与京东举行战略合作协议签约仪式,双方确立未来三年OPPO在京东全渠道实现销售额同比增长100%的目标。此次签约双方将基于多年良好的合作基础,聚焦产品、营销、服务、渠道四大维度深化战略合作,通过发挥各自...

关键字: 人工智能 云计算 AI大模型

3月12日是万维网(World Wide Web,互联网)创建35周年的日子,让我们来了解一下万维网发明者蒂姆·伯纳斯-李(Tim Berners-Lee)对网络和未来发展三点预测。

关键字: 互联网 伯纳斯李 AI助理 AI

随着互联网的迅猛发展,百度、阿里巴巴、腾讯等互联网巨头逐渐崭露头角,成为了行业的领军者。这些公司在云计算、大数据、人工智能等领域积累了丰富的经验和技术实力,为开发者提供了丰富的服务和工具。在这样的背景下,BAT模块应运而...

关键字: 互联网 云计算 大数据

科技点亮未来,创新驱动发展。随着科技创新的步伐日益加快,2024年将迎来新一轮的突破,有望从根本上重塑整个世界的生活、互动和交流方式。是德科技紧跟技术创新与行业发展动向,于近期发布了2024主要技术趋势预测,内容涵盖云计...

关键字: 云计算 6G AI

科技点亮未来,创新驱动发展。随着科技创新的步伐日益加快,2024年将迎来新一轮的突破,有望从根本上重塑整个世界的生活、互动和交流方式。是德科技紧跟技术创新与行业发展动向,于近期发布了2024主要技术趋势预测,内容涵盖云计...

关键字: 云计算 6G AI

北京——2024年2月26日 日前,领先的IT市场研究和咨询公司IDC发布《IDC MarketScape:全球云计算和以应用为中心的市场供应商评估》1报告,亚马逊位列“领导者”类别。报告指出,“亚马逊云科技Market...

关键字: 云计算 数据库 存储

近日,国际知名调研机构弗若斯特沙利文(Frost & Sullivan)联合头豹研究院发布的《2023年中国AI开发平台市场报告》(以下简称“报告”)显示,商汤科技市场综合竞争表现位列国内第一。同时,在硬件基础设...

关键字: AI 云计算 大模型

随着大数据时代的来临,机器学习作为人工智能的核心技术之一,已经深入到各个领域并展现出强大的潜力和价值。机器学习通过对大量数据的分析、学习和预测,为各个行业提供了前所未有的机遇。本文将详细介绍机器学习的常见任务,并探讨这些...

关键字: 机器学习 大数据
关闭
关闭