当前位置:首页 > 数据
  • 京东3C数码家电就易观报告发布声明:数据来源不清,遭遇黑公关

    京东3C数码家电就易观报告发布声明:数据来源不清,遭遇黑公关

    6月18日讯,今日早间,京东电脑数码微信公众号发布了一则声明。声明表示,易观近期发布了《618主流电商平台3C数码家电品类销量监测》的报告,声称某平台3C家电销量超越京东,同时大量营销号围绕此内容对京东及京东员工进行诋毁谩骂,带有明显操控舆论的黑公关痕迹。 京东方面认为,易观的这份报告数据维度完全违背行业常识,数据来源不清,且并未与京东进行数据真实性核验,缺乏公正性。京东将向主管部门反馈,并恳请相关机构调查:是否存在金钱雇佣第三方机构打击竞争对手、发动水军营销号抹黑,蓄意控制舆论的黑公关产业链。 附京东电脑数码声明全文: 今天,我们注意到易观发布了所谓《618主流电商平台3C数码家电品类销量监测》的报告。声称某平台3c家电销量超越京东,与此同时,我们在社交平台上发现大量营销号整齐划一地围绕此内容对京东及京东员工进行诋毁谩骂,带有明显操控舆论的黑公关痕迹!对此我们特声明如下: 1、 易观的这份报告数据维度完全违背行业常识,数据来源不清,且并未与京东进行数据真实性核验。我们不承认该报告的公正性及结论,并请易观诚实说明该报告 A、该报告是否有人支付费用并预设结论? B、该报告数据来源是否真实合法? 2、 该报告一经发布立刻有大量营销号跟进抹黑京东(如图所示)。在该报告原文阅读量还不到100的时候,外界已经产生了数千条诋毁京东的链接,明显有外力有组织在京东的618店庆日之时蓄意抹黑。 3、 鉴于易观的报告缺乏基本的公正性,以及在报告发布后一系列不正常的舆情,我们将向主管部门反馈,并恳请相关机构调查:是否存在金钱雇佣第三方机构打击竞争对手、发动水军营销号抹黑,蓄意控制舆论的黑公关产业链。 京东电脑数码 2020年6月18日

    时间:2020-07-02 关键词: 数据 京东 易观 黑公关 3c数码家电

  • 美国中情局遭“史上最大”数据失窃,一年后才从媒体得知

    美国中情局遭“史上最大”数据失窃,一年后才从媒体得知

    6月18日消息 据新华社报道,美国国会参议院情报委员会成员罗恩·怀登16日公布的美国中央情报局一份内部调查报告显示,中情局对用于网络攻击的黑客工具失窃浑然不知,直到约一年后由维基揭秘网站曝光后才知晓。这份内部调查报告是美国中情局于2017年10月完成。报告中指出,网络“武器库”2016年失窃造成“中情局历史上最大数据损失”,失窃信息量范围在180吉字节至34太字节之间,相当于1160万至22亿页微软WORD文档的信息。了解到,公开资料显示,维基揭秘(WikiLeaks)网站成立于2006年12月,是通过协助知情人让组织、企业、政府在阳光下运作的、无国界、非盈利的互联网媒体,专门公开来自匿名来源和网络泄露的文件。

    时间:2020-07-01 关键词: 数据

  • 这份AI算法岗面经很干货:亚马逊分享实战经验,履历到面试全都有

    这份AI算法岗面经很干货:亚马逊分享实战经验,履历到面试全都有

    本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 亚马逊,全球首富贝佐斯之下的巨头,全球市值最高的科技公司。 也是目前技术人才发展前景最被看好的组织。 那么问题来了:如果你是算法工程师,加入亚马逊这样的公司,会经历一个怎样的面试过程? 最近这则详实面经,获得高赞,或许可能给你一些参考和借鉴。 满满干货,建议先收藏后看~ 岗位要求 首先,我们先来看看最刺激的—;—;岗位要求。 数学、统计学、计算机科学或类似专业的本科学位以上 5年以上相关领域的工作经验 具有丰富的预测和决策模型和数据挖掘技术的工作经验,以及能够使用开发此类模型的工具。 是不是觉得还好?那我们再来看看优先条件: 构建以及操作高可行性的分布式数据提取、收集和处理大型数据集的系统的经验 使用Linux/UNIX处理大型数据集的经验 熟悉AWS技术,如Redshift、S3、EC2、Data Pipeline和EMR等。 具备深厚的技术能力和足够的业务知识,能够与客户组织内的各个层面和各个领域的人员进行沟通。 有哪些岗位可以选择? 看完岗位要求,是不是深吸一口气 别急,我们再来看看在亚马逊,算法工程师们有哪些岗位可以选择。 就目前来看,主要有4种,分别是数据科学家、机器学习工程师、研究科学家以及应用科学家。 这些岗位大体上相似,都是使用大量数据来为各种客户构建机器学习(ML)和深度学习(DL)模型。 但还是有些区别的。 首先在亚马逊,数据科学家要有对数据驱动的洞察力。 他们是连接业务和技术的纽带,负责分析大数据集,并对其进行建模。 机器学习工程师则是构建机器学习和深度学习模型的专家。 不仅需要为亚马逊本司构建模型,也为AWS上的其他大型企业构建模型。 除了构建模型之外,还有实现模型,然后将其投入生产。 研究科学家呢,顾名思义,就是要搞研究。 这个岗位通常是具有较高的教育水平,往往是硕士或博士。 研究型科学家需要突破知识技术的局限,扩展可能的极限。简单来说,就是对新旧技术进行研究,以确定这些技术在实践中是否有益。 应用科学家也需要较高的教育水平,这是比亚马逊的研究型科学家略高的角色。 这个岗位专注于提升亚马逊客户体验的项目,如亚马逊的自动语音识别(ASR)、自然语言理解(NLU)、音频信号处理、文本到语音(TTS)和对话管理等。 看到这里,你觉得OK吗? 不管OK不OK,先投着简历试试呗~ 投之前,先来看看基本的面试流程。 面试流程 亚马逊的面试流程有2步到3步不等。 但是对于算法工程师,主要有电话面试、技术面试、以及现场面试3个步骤。 首先,第一步,电话面试。 跟大多数公司的第一次面试差不多,这一步骤主要是由公司的HR负责。 主要是了解应聘者的基本情况,例如简历、过去的经历,希望看到你想要加入亚马逊的兴趣以及职位匹配的能力。 这一步只要你保持谦虚真诚,实事求是就好,就能够安稳度过。 那么就来到第二步—;—;技术面试,这一面试是由来自公司的算法工程师来负责。 首先,询问一些专业知识,包括ML的一些基本概念,比如不同ML模型的解释、偏置-方差取舍、过拟合等。 主要是你对这块知识的了解情况。 接着,就会是一些编码问题,你可以使用任何语言来解答。 当然根据你所应聘的岗位,问题也会有所不同。 要不先来提前了解一下有哪些问题? 举几个例子: (Coding) Given an Array of numbers & a target value, return indexes of two numbers such that their Absolute difference is equal to the target.(给出一个数组和一个目标值,返回两个数字的索引,使其绝对值与目标值的绝对差值相等) (Coding) Given two dates D1 & D2. count number of days, months?(给定两个日期,算出天数、月数?) (Machine Learning) How do to find thresholds for a classifier?(如何为分类器找到阈值?) (Machine Learning) What’s the difference between logistic regression and support vector machines? What’s an example of a situation where you would use one over the other?(逻辑回归和支持向量机有什么区别?在什么情况下,您会使用其中一种而不是另一种?) (Modeling) What is the interpretation of an ROC area under the curve as an integral?(如何解释曲线下的ROC面积的积分?) 如果你前面两轮面试都过了,那么恭喜你,来到了现场面试。 现场面试大概会有5轮到6轮,主要是技术面试和行为面试。 首先,技术面试不多言,就是刷题。大概会有几轮,主要是关于ML和编程这两个方面,面试官喜欢询问面向对象的设计问题,所以一定要好好刷题! 举一个例子: Let’s say you have a categorical variable with thousands of distinct values, how would you encode it?(假设你有一个有成千上万个不同值的分类变量,你会如何编码?) 行为面试,就需要你提前去了解一下亚马逊的14条领导力原则、岗位的具体职能、以及公司文化等一些知识。 据了解,Amazon的问题喜欢围绕着Customer为中心来提问,需要你提前准备好经历故事,整理好话术,结合着那14条的原则来答就可以啦。 好了,以上就是亚马逊的面经指南,希望能够对你有所帮助。 或许对于其他大厂的相似岗位,也有可用之处。

    时间:2020-06-29 关键词: 数据 人工智能 AI

  • 将数据库迁移到云平台的优秀实践

    将数据库迁移到云平台的优秀实践

    云计算行业专家指出,未使用的数据(在内部部署的数据数量可以忽略不计)可能会严重影响企业采用云平台的预算。 数字化转型正在导致很多企业面临前所未有的海量数据。许多人认为,面对不断增长的数据量和更复杂的分析要求,从Microsoft Azure或AWS云平台运行SQL Server数据库是确保IT性能的优秀方法。但是,对于某些人而言,最初的希望是通过切换到云平台能够以更高的成本效益进行工作。一个重要的原因可能是尚未针对新的云计算环境预先优化数据资产。因此,只有在充分准备之后才能完成迁移。 迁移到云端就像搬入新家:当在家中查看所有物品时,很可能出现自己都不知道拥有的东西。不可避免地出现的问题是:家中的每一件物品都与新房子相关吗?或者是时候彻底清理一下杂物了? 这种方法也可以应用于将SQL Server数据库迁移到云平台中。由于云计算环境的规则与内部部署环境不同,因此在顺利进行迁移之前,应先对数据库进行适当的清理工作。为此,数据库管理员(DBA)首先必须获得所有数据库如何与连接的应用程序进行交互的概述。这使他们可以清除数据集中不必要的混乱数据,并在必要时修改代码。因此在迁移之前,应先进行包含评估和审查阶段的两步过程。 评估阶段:迁移的数据选择 云迁移失败的比较常见的原因之一是成本过高。在许多情况下,这可以归因于以下事实:尚未充分考虑新的云计算收费模式。未使用的数据量(在内部部署运营中可忽略不计)会给云平台中的预算带来极大压力,因为云计算服务的价格由CPU、存储和IOPs决定。与其相反,提前完成全面评估有助于确保尽可能高效地使用新环境。为此,需要确定所有库存数据记录,并将它们依次分配到三个类别:清理、存档、迁移。 清理 大量不再有用的垃圾数据或数据集适合在云迁移之前进行清理。这种类别的数据包括过去创建的数据,但数据质量可能很差,只是出于法律原因才需要进行存储。如果超过法律要求的时限,则可以将其删除。如果是个人数据,则还应根据GDPR法规和其他数据保护法规来考虑数据库存。 存档 在调查过程中,数据库可能还会遇到相反的情况:某些数据集虽然过时了,但其质量适合当前和未来的趋势分析。在此建议继续以只读模式使用数据。例如,如果计划迁移到Microsoft Azure,则可以使用SQL Stretch数据库将数据简单地移动到成本相对较低的存储级别。在那里,数据仍然以只读模式可用,并且可以根据需要进行检索,以用于商业智能操作,用于人工智能或机器学习功能的应用以及用于创建预测分析。 迁移 确定了需要清除和存档的数据后,便自动形成了适合迁移的数据量。尽管这些数据来自内部部署生产系统,但这并不意味着可以将其直接传输到基于云计算的生产系统。为了防止用户可能抱怨他们的报告自从迁移以来不再有意义,下一步是对这些数据进行彻底的质量检查。 检查阶段:数据库质量检查 由于在迁移过程中不应对应用程序和数据库进行任何更改,因此必须消除任何妨碍可靠性能的功能。必须进行额外的质量检查,以确保应用程序和数据库级别之间的平滑交互。因此,应该确保以下几点: 诸如表格、视图、触发器、存储过程和用户定义的函数(UDF)之类的对象的一致命名标准。 如果所包含的值均不超过32个字符,则不要使用超大的列,例如CHAR(500)。 GUID(全局唯一标识符)不用作聚集索引。这仅适用于未扩展的小型表格。还必须检查是否将GUID用作集群主键,因为这会导致许多性能问题。 没有定义为最大大小的数据类型,例如NVARCHAR(MAX)。 没有隐式转换,因为它们会导致严重的代码问题。特别是,当使用对象关系映射(ORM)工具时,更容易发生转换问题,因为对象关系映射(ORM)通常默认情况下使用GUID作为集群索引。 此外,应再次检查查询超时的编码。如果某些查询在内部部署环境中已经发生服务器超时,则这些超时将在云中增加。为避免这种情况,应修改代码,以便与查询超时相比,它在云平台中更具弹性,并且相应地优化了关联的查询。 另一个必要但在某些情况下可能很痛苦的任务是对流行功能的评估和测试,例如创建临时表。尽管通常使用这些功能来改进编码的逻辑,但是只有少数几个功能会对性能产生积极的影响。为了避免在云平台中出现任何意外情况,最好安排对最常用的数据库功能进行测试。 可靠的文档有助于切换到云平台 总体而言,进入云平台只需要根据数据目录创建全面的文档即可。为了避免在迁移后发现应用程序和用户已经迁移进来,必须进行下一个步骤:记录哪些应用程序访问目录中记录的数据。 对于数据库来说,这似乎有些不愉快,就像搬家时必须处理长期遗忘的物品一样。为了简化文档编制过程,需要使用适当的管理工具,这些工具可以自动创建数据源的详细概述。通过这种方式,可以创建合适的条件以实现平稳迁移并有效使用云计算服务。

    时间:2020-06-29 关键词: 数据 云计算 工具

  • 印度移动支付应用程序的数据通过S3泄露

    印度移动支付应用程序的数据通过S3泄露

    属于数百万印度公民的数据已经签约使用了名为BHIM的移动支付应用程序,在暴露于未配置加密的Amazon S3存储中,可能会面临滥用的风险。 研究人员最近发现,S3存储连接到一个网站,该网站被用来推广支付应用程序 在一份报告中,研究人员表示存储中包含409GB的数据,有约726万条记录,其中包含开设BHIM帐户所需的信息。数据包括国民身份证的扫描;用作居住证明的照片;专业证书,学位和文凭;以及姓名,出生日期和宗教信仰。数据集中还包括政府计划的ID号和生物特征识别符,例如指纹扫描。 数据中包含的个人用户数据提供了“个人,其财务状况和银行记录的完整档案”。它指出:“在公共领域拥有如此敏感的财务数据或犯罪黑客的手中,将使欺骗,欺诈和从被暴露的人们那里窃取变得异常容易。” 除了个人数据外,S3存储还包含“大量CSV列表”,其中包含已注册BHIM的商家信息以及企业主用于通过该应用进行付款转帐的ID。属于超过100万个人的类似ID也可能已通过错误配置的S3存储桶而被暴露。研究人员表明,这样的ID使黑客更容易非法访问属于受影响个人的银行帐户。

    时间:2020-06-24 关键词: 数据 云计算 支付

  • 物联网加上5G,是2019年的投资重点

    物联网加上5G,是2019年的投资重点

      时序即将进入2019年,台湾中信银研究团队指出,2019年对于投资人将是风险与机会并存的一年,其中,物联网加上5G,有望成为引领2019年的投资亮点。   中信银研究团队指出,物联网就是万物皆可联网,加上5G将使网络流量大增,以零售业、制造业和健康护理业为首的产业,对巨量数据服务可望浮现较多需求,相关半导体、设备产业在5G结合物联网的创新服务带动下,有望成为引领2019年商机的投资亮点。   2019年将是投资人风险与机会并存的一年。中信银表示,2019年头号风险为美国联准会(Fed)坚定升息,将带动2019年全球资金紧缩。主流意见普遍认为,联邦基准利率可能升至3%之上,为了不让利差扩大,欧元区、俄罗斯及巴西预料亦将升息,日本、大陆却维持低息,大陆除降低存款准备率,亦有财政策略配合宽松政策,各国央行货币政策不同调,将加剧市场动荡。   此外,2008年金融海啸后,美、中、欧、日四大央行联手大举印钞,使其资产负债表规模膨胀至2017年的15万亿美元,但如今美国联准会带头收紧资金,预估每年将让美国联准会资产负债表减少6千亿美元,资金逐渐紧绷,也将加大资本市场波动。   除了资金紧缩问题,中信银提醒,2019年欧洲议会与欧洲央行主席都将改选,若民粹主义大行其道,选出单边保护主义色彩的领袖,对欧洲事务恐将带来难以预料的后果。   风险之外,2019年仍有值得关注的投资机会浮现。中信银认为,尽管中美贸易战无法在短期内缓解,欧洲、拉丁美洲国家反而有望因此得利,因为大陆对美国需求最殷切的物资、设备,在欧洲和拉丁美洲都有替代选择。以原油为例,大陆一度是美国最大原油买家,如今全面转向俄罗斯采购

    时间:2020-06-18 关键词: 数据 物联网 5G

  • 通信技术对物联网的发展影响

    通信技术对物联网的发展影响

      每年行业都会有流行词,今年热度最高、被提起最频繁的应该就是“IoT”和“物联网”了。这种热度体现了行业近期对物联网的高度重视和大力发展。但物联网并不是什么新诞生的概念,它的历史比大多数人想象的要早。   无线通信的发展是物联网幕后推手   IoT是“Internet of Things”的缩写,中文叫物联网,指若干内置传感器(Sensor)和执行器(Actuator)的物体通过网络相连进行数据交换。物联网中的“物”是基础,但“联”才是关键。有了某种形式的连接才是物体间数据交换的前提。连接可以是有线,也可以是无线。但有线连接天生不适合复杂的大规模物联网,所以无线连接才是物联网的关键。我们也认为无线通信技术的发展一直是物联网的幕后推手。   1880年,Alexander Bell(电话之父、美国运营商AT&T创始人)和Charles Tainter进行了人类历史上第一个无线通话。使用的设备被称为“光电话(Photophone)”。光电话虽然没有任何实际应用价值,但它还是给无线通信起了个头。   之后,无线通信的相关发明陆续出现,比如通过水或陆地进行无线通信的技术,但这些也不具备什么实用价值。直到1895年,意大利发明家Guglielmo Marconi成功通过无线电发送了电报,开启了无线通信时代。   一次世界大战(1914-1918)加速了无线通信的发展,民用AM调频广播开始在1920年后被大规模使用,FM调频广播则在二次世界大战(1939-1945)的刺激下诞生。   二战之后,美苏冷战局势逐渐形成,美国军方在“压力”下开发了阿帕网(APRANet)。之后就是军用技术下放民用,因特网诞生。   随后到了1973年,世界首部手机摩托罗拉DynaTAC 8000X诞生。1979年,日本电信电话株式会社启用了首个商用1G网络;1991年,芬兰Radiolinja启用了首个商用2G网络,基于GSM;2001年,日本NTT DoCoMo启用了首个3G商用网络,基于WCDMA;2009年,首个LTE商用网络被启用;2018年12月,5G商用网络被首次启用。   在通信技术发展的这138年之中,“物”的发展也毫不示弱。手机、电脑、智能汽车、智能家电、医疗器械、教育设备、工业装置等各种装置层出不穷。19世纪就有工厂在生产过程中利用了机器之间的信息交流,可以被称为物联网的雏形。再往后推,规模化物联网开始出现(主要是工业)。现在,随着5G和终端设备的发展,更大规模、甚至是万物互联的物联网变成了可能,这也就是为什么这两年大家都“突然”开始聚焦物联网。   “IoT”这一名词的诞生   虽然物联网是100多年以来技术酝酿的成果,但“IoT”这个词直到1999年才被Kevin Ashton提出。   1999年,负责供应链优化的Kevin Ashton在对RFID(射频识别技术)的宣传中提出了“Internet of Things”一词,简称就是IoT。RFID是一种通过无线信号识别目标并读取数据的通信技术,在工业、领域被广泛应用,也算是物联网正式诞生前把物联网这个概念贯彻最彻底的技术之一。   2000年初:物联网的概念逐渐传开   2000年初,行业对“Internet of Things”逐渐有了兴趣,诸如《卫报》(The Guardian)、《波士顿环球报》(Boston Globe)和《科学美国人》(Scientific American)等影响力媒体开始逐渐提及物联网,甚至有些文章直接以“Internet of Things”为标题。   2005年,隶属于联合国的国际电信联盟(ITU)发布了报告,称物联网将会成为“世界信息交流的新维度”,“我们将能在任何地点任何时间和任何物体进行连接”。   2008年3月26日至28日,首个国际性IoT大会在苏黎世召开,物联网受到的关注到了空前的高度。同年,美国国家情报委员会(NIC)把物联网列为了6个“具冲击力民用技术”之一。   2010年开始:物联网开始实质性发展   2010年开始,随着4G和电子化、自动化的成熟,各大巨头企业、商业组织和国家开始对物联网进行实质性的人力、物力、财力投资,物联网行业热闹了起来。   2014年1月,CES 2014召开,物联网成为了最大主题。一个月之后,世界最大互联网公司之一谷歌完成了对当时火的一塌糊涂的智能家居公司Nest的收购,是传统巨头把物联网高调推向家庭、个人用户市场的代表事件。   随着时间的推进,越来越多来自世界各地、大大小小的公司开始从事物联网业务,对行业和个人都造成了不小的影响。小米初步成形的物联网生态就是最为大家所熟知的例子。   2019年开始:5G给物联网“氮气加速”   前面提到了通信技术的发展对物联网发达程度起着决定性作用。5G是近些年通信技术的最大飞跃,这会对物联网产生极强的促进作用。结合4G和其它无线通信方式,有了5G的物联网能够容纳更多物体,更快地传输更多数据,进而实现万物互联的目标。而我们,则有幸活在人类又一次“工业革命”期间,感受并见证物联网对生活、行业和社会的改变。

    时间:2020-06-17 关键词: 无线通信 数据 物联网

  • 构建基于密码的物联网安全系统秩序

    上证报讯 据工业和信息化部消息,2019年1月23日,IMT-2020(5G)推进组在北京召开5G技术研发试验第三阶段总结暨第二届“绽放杯”5G应用征集大赛启动会。来自国内外的系统、芯片、终端、仪表领域主要企业、运营企业、重点垂直行业的代表参会。工业和信息化部信息通信发展司、国家卫生健康委员会规划发展与信息化司有关负责同志出席会议。 工信部信息通信发展司副司长陈立东为大会致辞。陈立东指出,5G作为新一代信息通信技术发展的主要方向之一,是构筑经济数字化转型的重要基础设施。我国积极启动5G技术研发试验,对加快5G技术和产业成熟起到了重要的推动作用。目前,第三阶段测试工作基本完成,5G基站与核心网设备已达到预商用要求。针对后续5G发展,陈立东提出,要加快推进5G网络建设进程,积极探索5G融合应用,加强国际合作交流,打造开放共赢的产业生态。   在本次大会上,IMT-2020(5G)推进组发布了5G技术研发试验第三阶段测试结果。测试结果表明,5G基站与核心网设备均可支持非独立组网和独立组网模式,主要功能符合预期,达到预商用水平。并向参加测试的华为、中兴、大唐、爱立信、上海诺基亚贝尔等系统企业,高通、英特尔、紫光展锐、海思等芯片企业,以及是德、罗德与施瓦茨等仪表企业颁发证书。推进组表示2019年将启动5G增强及毫米波技术研发试验等工作。 此外,在工信部信息通信发展司和国家卫生健康委规划发展与信息化司共同指导下,中国信息通信研究院牵头成立了“医疗健康大数据和网络创新研究中心”,推动信息通信行业和医疗卫生行业融合协同创新。

    时间:2020-06-12 关键词: 通信系统 数据 物联网

  • 数据分析实战:互联网数据分析最常见的12个指标

    数据分析实战:互联网数据分析最常见的12个指标

    互联网行业的分析师,做指标体系搭建的时候,最常遇到两个问题,一是不知道关注哪些指标,毫无头绪;二是找到了一些指标,但不知道哪些重要,迷失方向。那么我们今天就聊聊互联网分析常用的数据指标,给大家详细讲解最常用的12个。 互联网的本质之一,就是把线下的活动搬到了线上,然后通过技术和运营手段,让用户有更好的体验。比如原来商场卖货,现在变成了淘宝;原来现金支付,现在变成了支付宝;原来路上招手打车,现在变成了滴滴。 既然线下业务搬到了线上,我们应该分析哪些指标呢? 线下的业务更好理解,我们就拿线下的场景,举个例子,假如张三开了一家服装店,他怎么才能知道,这个店经营的好不好呢? 要想做这个分析,我们首先要了解业务分析的三段论 所有有用户参加的活动,一定离不开下面三个步骤,也就是业务分析的三段论 用户数据:谁? 行为数据:干了什么? 业务数据:结果怎样? 张三需要搞明白的是:谁来到了他的店?在里面干了什么?结果怎么样? 只有弄明白这三点之后,才能分析判断,经营状况怎么样?未来还有哪些改善空间 用户数据 那么我们先看第一部分-用户数据(指标1~指标4) 用户数据有4个重要指标: 1 存量:DAU/MAU(日活/月活);比如张三开个小店,他需要知道大概每天有多少用户来到店里,每个月大概有多少用户来到店里。这些是判断用户的最基本的指标。对于线下业务,一般通过店里的人流量就能判断个七八。有了互联网后,这个数据会更加准确 2 新增用户:特别是在业务的起步阶段,这个指标尤为重要;这个代表公司的潜力。比如拼多多,一年比一年亏损多,但股价却越来越高,主要原因就是资本市场看好拼多多用户的增速。比如张三刚开店,就需要非常重视这个指标,要记录来店的用户是否越来越多了,如果没有的话,是不是需要做一些推广活动来拉动用户 3 健康程度:怎么反应用户的状况是不是健康呢?最好的指标就是留存率。也就是我们线下常说的回头客。留存率又分次日留存率,次周留存率,次月留存率等等。客户能留下来,才能说明他们对你的服务满意,满意才能养成惯性,持续消费。比如张三的小店,就要关心回头客是不是够多,考虑怎么刺激客户再次购买 4 渠道来源:指的是这些人变成用户之前,来自哪里;这样才能知道在哪个渠道做推广会更有效果;比如张三的小店,就可以做一个用户调查,收集一下每位用户在哪里知道的店铺信息(当然要给一些小的奖励,否则大家参加调查的意愿会不高)。比如通过调查发现,很多人都是通过抖音来到的店铺,那么他就可以在抖音上大力推广 行为数据 接着我们再看第二部分-行为数据(指标5~指标8) 行为数据也有4个重要指标: 5、次数/频率:PV、UV、访问深度等。PV,页面浏览量;UV,用户浏览量;访问深度,也就是指用户的访问深度。当然希望这三个指标都越来越大。再拿张三的衣服店举例子,他一定希望每天有很多“人”来逛,每个人逛很多次,同时每次逛的深度越深越好,比如从第一个柜台逛到第二个柜台,从一楼逛到二楼。这三个指标越大,交易次数就可能越多 6、转化率:怎么理解转化率呢?可以把用户分为“只逛不买”的用户,还有“逛了就买”的用户,还有“逛了买买买”的用户。我们肯定希望第三种用户越多越好,问题就是怎么把第一种用户转化成第三种用户。假设张三的小店,一楼卖的是低端服饰,二楼是高端服饰,那么张三肯定希望尽可能的把一楼的用户转化为二楼的用户,这怎么做呢?比如可以宣传,凡是在二楼购物的用户,都可以免费领取一杯咖啡等等,这样就可以有效的刺激用户的转化 7、做了多久:这个指用户停留的时长;举个例子,为什么现在抖音这么牛,就在于用户的黏性太大。你想想,是不是每次刷抖音,很快一个小时就过去了。这里的商业逻辑是,用户停留的时间越长,购买的可能性就越大。比如张三的小店,就可以布置的更有特点一些,让用户不知不觉就逛了很长时间,流连忘返,不知不觉就产生了购买的欲望 8、质量:互联网行业经常用“弹出率”来衡量质量。这个指标稍微有些抽象,指的就是有多少用户,刚逛没多久,扭头就走。这就说明了你的小店不符合这些用户的期望。也许是自己的小店需要调整,也许是这种用户就不是我们的目标群体(不可能一个小店满足所有人的需求,剔除非目标群体也是专注运营的好办法) 业务数据 接着我们再看第三部分-业务数据(指标9~指标12) 和业务数据相关的指标,基本都和财务相关,或者说和钱相关: 9、总量:GMV,这个词太常见了;大公司在发布财报的时候,这个数每次必提。特别是大的互联网公司,重点就是强调GMV,让资本市场看清楚自己的体量是不可撼动的 10、人均:ARPU(Average Revenue Per User,每用户平均收入),光总数高还不行,我们还要关心平均每个用户的贡献是否够多,是否在增长,所以就要关心人均的指标。比如一些奢侈品行业,就非常关心这个指标,用户数虽然不多,但是个体消费能力极强 11、健康程度:整个业务也要有一个健康度的指标来衡量。付费率是一个不错的选择。到底有多少比例用户是付费用户,这是一个关键点。比如爱奇艺的财报,每次必提会员用户数量,用来彰显有多少用户愿意付费购买他们的服务。反之,一些工具类的APP就比较尴尬,苦于找不到收费模式,或者现有的收费模式用户不买账,自然付费率就很低。比如墨迹天气和万能钥匙,虽然用户量巨大,但付费用户却要少的多 12、被消费对象:这是另一个角度看业务,从SKU的角度看健康度。通过分析,发现某些商品,就特别的受欢迎。那么我们就应该大力的引进这种产品来满足需求,刺激消费 以上就是互联网行业常用的12个分析指标,总结如下

    时间:2020-06-12 关键词: 互联网 数据 云计算 数据分析

  • 戴尔和谷歌云合作推出OneFS简化大规模数据迁移

    在12年前的2006年8月9号,谷歌的CEO,Eric Schmidt在硅谷的搜索引擎大会上,首次提出了Cloud Computing,也就是云计算这个概念。随后经过一年多的准备,谷歌在2008年4月发布了著名的谷歌程序引擎Google App Engine,简称GAE。但对比谷歌,戴尔在2010年才推出Virtual Integrated System(VIS,虚拟集成系统)架构体系,2015年EMC与戴尔合并,被EMC收购的VirtuStream成为戴尔旗下事业部,在2017年全球十大云计算平台市场占有率排行榜中排名第九位。 一直以来戴尔的云计算市场占有率都排名不靠前,需要充分和行业巨头合作来快速提升自身的竞争力,为了加强合作戴尔技术公司和谷歌云平台合作推出了针对谷歌云的OneFS,以允许客户在私有云和谷歌云之间保持大量数据的流动。 Dell OneFS for Google Cloud为客户提供了一个混合云存储系统,可以在云环境之间无缝地移动多达50 PB的数据,而无需对其应用程序进行调整。 该系统提供原生云体验,将戴尔的可扩展性和性能与谷歌云的分析服务结合起来。这些改进将允许客户以更大的灵活性跨公共和私有云移动工作负载,同时采用一种适合其特定需求的混合方法。 戴尔技术公司云平台和解决方案高级副总裁兼总经理Deepak Patil说“在边缘计算和公共云中数据和工作负载无处不在,虽然数据和应用程序在不断增长,但IT资源和预算却没有增长。 “公司要想将其数据转变为具有竞争力的独特优势,就需要一种无缝、一致地管理数据的方法,无论数据位于何处。戴尔技术云为数据中心带来了最好的公共云,为公共云带来了最好的数据中心,消除了复杂性,使公司能够花更少的时间管理其基础设施,花更多的时间为客户提供价值。” 该系统旨在鼓励将占组织内部数据至少一半的文件数据移动到公共云。由于性能和规模限制,这些数据很少存储在公共云中。 一个明显的例子是媒体和娱乐行业的企业可以从谷歌云的OneFS中获益,这些企业通常处理4K分辨率的海量视频文件。这些文件需要万亿字节的存储和高吞吐量以及低延迟的文件存储,这意味着生产公司很难在公共云中管理大型文件工作负载。 戴尔声称,通过这种联合的混合系统,这些公司可以跨私有和公有云进行一致的操作,并在需要时增加了扩展的灵活性。 谷歌云Rich Sanzi工程副总裁表示:“我们很荣幸能与戴尔技术合作,通过OneFS for Google cloud为我们的客户提供高性能、可扩展的云存储服务。通过这种合作关系,客户可以通过谷歌云更快、更有效地利用戴尔技术存储解决方案,并可以跨混合云环境访问同类最佳的文件存储解决方案”。 戴尔借了goog的大船 是否能一帆风顺,就看戴尔把理想化的技术方案变成现实的速度和能力了。

    时间:2020-06-12 关键词: 戴尔 数据 云计算 谷歌云 onefs

  • 760308EMP-WPT-200W的200瓦无线电源传输开发系统,你知道吗?

    760308EMP-WPT-200W的200瓦无线电源传输开发系统,你知道吗?

    什么是760308EMP-WPT-200W的200瓦无线电源传输开发系统?它有什么作用?2018年3月22日,德国慕尼黑和Waldenburg讯 – Würth Elektronik eiSos与英飞凌科技股份公司(FSE:IFX/OTCQX:IFNNY)联手发布一款名为760308EMP-WPT-200W的200瓦无线电源传输开发系统。该开发套件的独特之处在于,发射和接收线圈之间的链路,可以用来同时传送功率和数据。 760308EMP-WPT-200W开发套件包含一个电源、一个发射单元和一个接收单元。得益于采用Würth Elektronik和英飞凌的产品(MOSFET、驱动器、单片机、调压器),它是一种创新而强大的解决方案。 发射单元包含一个全桥和谐振电路,后者由WPT线圈和谐振电容串联组成。由于谐振电路中电压和电流之间存在相移,系统能以零电压开关(ZVS)模式工作。这大大提高了系统的整体效率。 接收单元包含一个同步整流器和下游的滤波和筛分元件。由于发射器和接收器之间的交变场采用调幅机制,接收器可向发射器发送任何数据。应用例子之一是手机可在充电期间将传感数据发送至基站。实现这种专有系统所需的各种数据均可免费下载。 譬如用于医疗和物联网设备 Würth Elektronik eiSos公司无线功率传输事业部经理Cem Som指出:“多年来,客户总是在问,如何操作额定功率超出Qi标准的设备。电路功率小至10瓦,高至数千瓦。穿过谐振电路的电流是正弦波,具备出色的电磁兼容特性。改变开关频率能够改变输出电压,并从接收器向发射器传送数据。我们希望解决输出功率比Qi标准高出200瓦的应用所面临的问题。这些应用主要包括医疗设备、工业4.0设备、物联网设备,以及在恶劣环境下工作其他多种设备。 来自英飞凌的半导体元件可带来理想的附加值,满足无线功率传输的不同要求。英飞凌无线充电全球应用营销经理Verena Lackner表示:“得益于我们广泛的产品组合,我们作为全球领先的半导体制造商,能够在高效创新无线电源解决方案的开发上发挥重要作用。无线充电是英飞凌的一个重要课题,携手Würth Elektronik,我们能够利用该系统解决方案,有效支持客户应对不同设计挑战。”以上就是760308EMP-WPT-200W的200瓦无线电源传输开发系统解析,希望能给大家帮助。

    时间:2020-06-11 关键词: 数据 传输 无线电源

  • 200G光模块中的两种并行方案的区别与选择

    200G光模块中的两种并行方案的区别与选择

    根据Google, Facebook等披露的数据,这些互联网巨头数据中心内部流量每年增长幅度接近100%, 当前一些较早部署100G的互联网巨头已经开始谋求更高速率的解决方案,下一代数据中心的方案选择成为了大家所热心关注的话题。 400G以太网的标准先于200G以太网标准完成,这或许反映了业界的心态——更看好400G, 或者说, 200G仅仅是400G的一个过渡方案。 但是直接从100G跨越到400G实际上是不太科学的。 首先从数据中心方面,我们需要重建超大规模的数据中心,定义新的规范架构, 400G时代交换机对机架电力的要求会相当高,传统的风冷散热也更为困难; 再者, 400G数据中心会使用到PAM4技术,而采用PAM4技术会使系统变得不够透明且难以管理,传统的NRZ技术+并行技术可以使数据中心易于管理。 为更灵活地适应未来数据中心的需求,向400G数据中心实现完美过渡,易飞扬(Gigalight)于近日完成了基于200G NRZ传输的低成本数据中心内部平行光互连方案,本文主要比较了200G NRZ方案中的两种并行技术,并且以两款产品作为实例进行简单的分析。 光纤并行方案—选用单模还是多模? 传统的并行光模块产品主要基于多模光纤的光互连技术,具有高带宽、低损耗、无串扰和匹配及电磁兼容问题等优势,已逐渐取代基于铜线的电互联产品而应用于机柜间、板架间的高速互联,连接距离在OM3光纤下长达300米。 同时为了应用于更长距离的传输解决方案, PSM并行光模块也应运而生,主要使用FP激光器在单模光纤传输2km, DFB传输10km应用,这比多模互连技术更加具有难度。 数据中心布线是一个很复杂的问题,选择多模光纤还是单模光纤也一直是业界热烈讨论的对象,各大数据中心也有选择,比如100G时代, Facebook选择单模, Google选择多模和单模同时部署, BAT则选择多模。从成本角度,多模光纤价格昂贵而多模光模块便宜,单模光纤价格便宜而单模光模块较贵,因此很容易将光纤和光模块成本进行组合评估,得出距离和成本的关系。以100G方案为例,光纤距离在100米以内时多模解决方案的成本优势非常明显。并行技术路线的特点是每一对多模光纤分别承载一路光信号。目前IEEE的400G SR16标准是16*25G并行方案,需要16对多模光纤,远远超过100G时代广泛使用的12芯MPO, 会导致成本的大幅提升;更重要的是,多模光模块所依赖的低成本VCSEL光芯片方案, 2020年很可能仍然需要超过12芯MPO的8对多模光纤。现有的12芯MPO能够容纳的400G SR4看上去遥遥无期。因此在2020年,如果没有开放且标准化的多模波长复用技术(比如SWDM技术)出现,低成本VCSEL 100G技术也不能取得突破, 400G多模光纤解决方案成本优势将不再明显,单模光纤在大规模数据中心也许将成为主流,而中短距的单模并行解决方案将会是替代多模并行解决方案的高性价比选择。——杨志华《2020年数据中心网络技术 十大热点排行榜》2200G PSM8对比200G SR8 基于易飞扬(Gigalight)独有的PSM系列产品线,近日易飞扬(Gigalight)发布了200G QSFP-DD PSM8的新产品, 200G QSFP-DD PSM8是单模并行技术的高速率产物。 要实现长距离传输必须使用色散损耗小的单模光纤,单模光纤与半导体要实现高的耦合效率,需要对半导体激光器发出的光场进行整形,使入射光场与光纤本征光场达到最大可能的匹配。 而200G QSFP-DD SR8采用8通道的850nm VCSEL阵列,符合100GBASE-SR4协议标准。200G QSFP-DD SR8是多模并行的产品,借助传统的VCSEL优势平台,易飞扬(Gigalight)采用了简单高效且可靠的光纤耦合工艺技术,在激光器和光纤之间增加45°棱镜,同时经过对光纤面的特殊材质处理,使得光纤耦合效率提升到了80%以上。 这两款产品的相同点在于都属于200G数据中心解决方案里的光模块,并且都采用了QSFP-DD的封装,都可使用16芯的MTP。 QSFP-DD的优势在于1U面板可以做到36*200G/400G的密度,并且对QSFP前向和后向兼容,可兼容现有的QSFP28光模块及AOC/DAC等。 主要不同在于200G QSFP-DD PSM8采用的是8路1310nm单模光纤并行的方案,传输距离可达10km; 而200G QSFP-DD SR8采用多模光纤并行的方案,在OM4光纤链路上传播距离可达100m。 总结 多模并行方案是当前数据中心发展的核心,交换机与核心交换机之间的传输距离正好在多模光纤的适用范围之内。 康宁公司于前几年就已经推出了OM5光纤,却并未引起预期的市场反响, SWDM短距离波分复用方案仅仅为为数不多的几个厂商所推广——可见它的确缺少市场。 在不久的将来,如果一般企业级数据中心希望继续使用经过标准认证的解决方案,并降低光学器件成本,则可以选择多模并行光学器件——毕竟中小企业不需要400G这样大的容量。 但是如果是在超大规模数据中心的建设部署过程,尤其是考虑到系统的可升级性、系统的灵活性,我们或许更应该考虑单模并行方案。 在一些有识之士的眼里,单模并行方案虽然增加了光纤芯数,但是从整体来讲,减少了维护复杂度,更易管理,且更容易从100G升级到之后的400G(要知道在不增加光纤资源的前提下,当前基于波分复用的100G CWDM4最多只能演进至200G FR4,而100G PSM4可以升级至400G DR4)。 一般来说,主要交换机和收发器供应商的技术路线图为部署并行光学器件的客户显示了非常清晰和简单的迁移路径。所以当光学器件可用,并且从100G迁移到200G或者400G时,它们的光纤基础设施依然存在,无需升级。 可靠性、产品寿命和维护成本等都是相互关联的,在总成本上以200G QSFP-DD PSM8为代表的单模并行方案或许应该成为未来大规模数据中心的布线指南。

    时间:2020-06-10 关键词: 以太网 数据

  • 京东家电的规划,成为双线王者

    京东家电的规划,成为双线王者

    据消息报道,京东集团日前签署了投资江苏五星电器有限公司的正式协议。根据协议,在交割条件满足的情况下,京东将从五星电器现有股东佳源创盛控股集团有限公司购买五星电器46%的股权,对价为12.7亿元,将以现金和承继债务的方式支付。 12.7亿入股五星电器背后,京东要在线下“再造”一个京东家电 在消息公布前的4月15日,2019年度京东家电行业峰会在北京举行。京东集团高级副总裁、京东零售集团3C电子及消费品零售事业群总裁闫小兵表示,京东家电将坚持“以信赖为基础,以客户为中心的价值创造”的经营理念,通过即将在大中城市新开的超级体验店和县镇市场的一万多个家电专卖店组成完整的线下商业版图,在线下“再造”一个京东家电。 为了完成“再造”一个京东家电的目标,今年京东将在一二线城市建立超级体验店,以5万平米起步,以体验为主题;在三四线城市,则进行一城一店的规划。 闫小兵指出,目前的传统家电卖场,已经陷入了“无促销、不卖货”的销售怪圈。层出不穷的传统营销套路,效果越来越差、用户也日渐厌烦。而京东家电将要以主打“体验”的策略,打破家电销售领域的这种固有模式,带来新的增长空间。 在京东家电2019年的下沉策略中,“京东超级体验店”是重点。这种体验店是京东家电的全新尝试,是家电行业的新探索。以选中在重庆的首家“超级体验店”为例:该店总面积近5万平米,共有三层。一楼是科技潮品体验馆,二楼是娱乐、亲子、电竞等场景体验馆,三楼是品牌馆。基于5G技术的京东人工智能科技在这里得到应用,支持智能电器互动,以及扫码下单。京东家电将以“没有进场费,三年不重装”的口号,吸引知名品牌入驻,为广大用户带来全新的家电消费体验。 在三四线及以下市场,京东家电的新战略分为两个层面:首先,京东大力推进在三线城市的“一城一店”建设。而在四到六线乡镇的农村市场方面,京东会大力拓展适合当地消费习惯的家电专卖店。 目前,京东家电专卖店已经覆盖到了全国2.5万个乡镇、60多万个行政村,向整个四到六线市场拓展的势头非常良好。随着新战略的实施,京东家电的发展空间将更加广阔。 按照京东的规划,京东家电2019年将通过超级体验店、一城一店和家电专卖店的多形态渠协同,在线下“再造”一个与线上体量相当的京东家电。 入股五星电器后,京东家电下沉市场战力飙升 入股五星电器,显然是京东家电战略升级的重要着力点。 在京东集团与五星电器投资协议的签约现场,京东方面表示,今后将进一步向五星电器开放供应链、物流仓储、金融和技术等方面的领先能力,致力于双方携手共同发挥优势,推动线上线下无缝融合。 据悉,五星电器1998年创立于南京,是一家聚焦二到四线市场的家电连锁营销企业,在华东市场拥有相当的品牌影响力,目前在江苏、浙江等七个省份,运营着超过220家线下连锁卖场,年销售额超180亿元。而且,五星电器还特别擅长经营乡镇市场。据五星电器2018年对外披露的信息显示,其旗下“万镇通”平台仅在江苏就有300余家门店,覆盖61%的乡镇,2018年全年销售额超过20亿元。 京东入股五星电器,看重的就是其在下沉市场的渠道能力。 事实上,京东家电与五星电器早有合作。2017年,京东发布了以"再造一个京东家电"为目标的开放平台战略。3个月后,拥有覆盖全国多个省份优质实体店网络的五星电器品牌旗舰店全面入驻京东家电开放平台。 彼时,五星品牌旗舰店将五星电器实体店所销售的大量线下专供产品,通过京东平台销售到全国各地,由此五星电器将从一个区域性渠道升级为全国性渠道。此外,京东还和五星电器合作在重点城市开设能提供全景沉浸式体验的超大型"京东家电体验店",让消费者真正感受到完全有别于传统家电门店的"无界零售"前卫便捷体验。 此次合作,是双方在过去基础之上的进一步深化。这也说明,京东家电和五星电器在过去一年多的合作是富有成效的。京东入股五星电器后,京东家电在华东线下市场的战力无疑将会得到大幅提升。京东家电的野心,想成为线上线下“王者”战力飙升的京东家电,不止是要做好下沉市场,更想成为线上线下的“王者”。 据今年2月中国家用电器工业信息中心发布的《2018年中国家电行业年度报告》显示,2018年线上市场分渠道零售额份额排名,京东、苏宁和天猫分别占比38.9%、30.1%和24.9%。从排名可以看出,在线上京东还线上占有优势,但与第二名的差距并不明显。 同时,《2018年中国家电行业年度报告》还显示,2018全年,中国家电市场全渠道销售规模达8104亿元。其中,苏宁占比22.1%,持续领跑全渠道第一。京东份额为14.1%,位列第二位。从渠道布局看,线下渠道作为家电市场主流渠道,苏宁占比达到17.5%,贡献了家电线下市场的最大份额。 也就是说,虽然京东家电在线上渠道占优势,但在全渠道市场份额占比上,还需要加强。京东家电一边加强渠道建设,一边入股五星电器提升下沉渠道竞争力的同时,还通过大数据和技术的应用,加强线上线下融合。 在4月15日的2019年度京东家电行业峰会上,京东列举了大数据在C2M反向定制模式上的应用,以及通过AIoT科技加持,打造智能交互服务标杆的例子。 在C2M反向定制中,京东通过“京品计划”,与厂家分享用户个性化需求的大数据,推动C2M反向定制业务。通过京品计划的推行,京东家电常年积累的大量用户数据得到了充分应用。京东家电熟知消费者对产品功能、设计等各方面的升级需求,通过将这些需求数据整合、反馈给厂商,为生产研发带来了巨大帮助、也令消费者享受到了定制化的个性设计。推行一年来,京东家电C2M定制已涉及100多个品牌、300多个SKU的产品。据了解,目前京东已经与美的、TCL等家电品牌签订了C2M反向定制的合作协议。 在技术上,京东家电全面推进AIoT应用。在5G、人工智能技术的驱动下,京东家电已经通过机器人Alpha小智的应用,实现了客服人效30%的显著提升;而通过京准雷达的应用,京东家电已经可以根据消费者过往的消费数据,为每一位购买者提供最适合的个性化产品匹配。 人工智能+物联网的AIoT技术,已经在京东家电售前、售中、直到售后的全流程中得到全面实施和应用,为京东家电在行业中树立了强大的服务优势、塑造了服务品牌。从线下“再造”一个京东家电到入股五星电器,从大数据到技术,京东家电的野心不止是要做好下沉市场,更是要成为线上线下的“王者”。

    时间:2020-06-10 关键词: 电器 数据

  • 得数据者得AI的天下

    得数据者得AI的天下

    在接触数据采标行业过程中,黑智听到一个陆奇和河南标注工厂的故事。 据悉,大部分河南标注工厂用的是百度的标注工具,干的是百度的活。陆奇掌旗百度时,放出了大量采标需求。当时,活不难(准确率只有90%),标注的利润空间可以达到60%—70%。有些企业盲目扩张,一下子招了几百人;陆奇离开后,百度需求恰也减少。2018年下半年,准确率又普遍提高至95%-96%,活难干了。这些工厂只会百度的标注工具,很难接别家的业务,因此死了一批。没有死的工厂不得不裁员,目前处于艰难转型中。 当河南标注工厂艰难转型时,张三的标注公司却正式营业。公司初建,百事繁杂,前几天,黑智才在中午空闲时间,联系上他。他告诉黑智,两个年前的单子需要返工,一直在忙。对于初建公司,忙比闲好。如果有一天空闲下来,张三说他晚上都会睡不着觉,“一天没活干,几千块钱就打水漂了。一个月得支出15万(注:目前,公司有65名员工)。” 在他看来,标注行业是一个苦行业,“前半年,一定会赔钱的,你要做好一个人赔一万块钱的准备。”他笑着告诉黑智,“如果你和谁有仇,就劝他干标注吧。”这是标注圈有名的段子。 标注圈说大不大,说小也不小,分了四个梯队。张三说,他的公司属于第三梯队。第一梯队,比如百度众测、京东众智等。第二梯队,比如龙猫数据、Testin云测、倍赛 BasicFinder、数据堂等。他将第二梯队和第三梯队的关系,比做小房地产开放商和搬砖工人。第三梯队之下,是数量巨大的小作坊,团队规模在3-5人之间。 标注行业又是一个有前景的新生行业。 新生意味着不确定与无限可能,“干标注就像将水倒进一个水桶里,每拉一个框就是添一碗水。目前,谁也不知道还能添多久,只有水溢出来时,才知道。”这并不妨碍张三设计未来,“第一步,现阶段先服务好第二梯队,以后搞一个平台,把公司做成第二梯队。” 300亿市场与转折点 数据采集、标注市场有多大?300亿元。 1984年前后,这个市场就出现了。欣博友的公司是众多公司中的一家。当时,这些公司更像一个“录入公司”——将纸质内容电子化,而不是标注公司。“录入”是一个劳动密集型的工作,一家公司需要雇佣很多人来做这件事。智联招聘显示,欣博友在公司人数项上,勾选的是“1000—9999”。 和欣博友不同,海天瑞声成立于1998年,做的是语音标注,自建了很多语音库,业内人士告诉i黑马&黑智,重复销售以前做的语音库是海天瑞声比较大一块业务。数据堂成立于2011年,通常外界对其最深印象是“它是国内最大的数据交易平台”。这和其起家业务相关。 2015年前后,随着以榜单中的人工智能公司TOP50的强势崛起,数据标注和采集需求逐渐多了起来。这个市场才真正意义上形成,也即前面提到的四个梯队。他们作为乙方,进入到这个日益扩大的市场,为估值超10亿美金的AI独角兽服务,教能够改变世界的人工智能产品学习。 01 得数据者得AI的天下 数据是AI公司的必需品。就像人每天需要一日三餐,而AI模型也每天需要数据的喂养。数据和AI模型的关系,倍赛 BasicFinder创始人兼CEO杜霖理解深刻。高中期间,他开始研究计算机视觉,高三发表了论文。大学期间,他也一直在做相关的研究。他知道数据对于AI模型的重要性,并得出“AI建模没有门槛,数据才是门槛”的结论。 在他看来,现阶段的人工智能是简单的认知智能。“认知智能就是帮你去识别、分类这个世界。分类器的构造是个数学问题,就是由数据堆起来的。”“深度学习本质上是个数学问题,是由大量的样本空间数据反向构造分类器的系数空间的过程。你要有很多样本,什么叫样本?知道正确答案的才叫样本。这跟我们小时候求多样式、求系数式是一个道理。我们要有很多空间中的已知点,才能拟合成一个多样式。同理,深度学习也是这个模式,也需要大量样本,也即标定好的数据。” 于是,杜霖认准了“在现阶段工业界的AI应用研发,标数据是一定跳不过去的,可能10年之内都要依赖于标数据。”数据对于AI的重要性如斯,但数据的标注和采集公司并没有学界、业界、资本甚至是媒体的认可,光环一开始便属于那些做模型研发的AI公司,比如商汤科技、旷视科技等。 “一个公司做成了很好的人工智能产品,大家都会说人工智能算法牛或者科学家牛,但从没见人说数据收集得好的。”TesTIn云测VP贾宇航说。贾宇航告诉i黑马&黑智,不但镁光灯照不到,数据采标还是个“苦活”。苦到没有人想去做。它很像移动互联网,产品好,没人想到军功章有APP测试者一份。一旦出了问题,第一个被责备的一定是做测试的部门。 02 300亿元数据采标市场 数据对于AI公司的重要性不言而喻。据悉,AI公司投入10%—15%的经费用于数据采标。也有人提到,这一比例为20%—30%。 2018年,中国AI公司的总融资规模达到千亿元以上,数据采标的市场约为100亿元—300亿元。其中,有三分之一是AI公司内部的标注部门之间消化的,有一些会被商务流程外包公司瓜分,剩下的25%—33%流向专门做数据采标的第三方公司。目前,AI融资规模约以每年25%的速度在增长。 随着AI技术门槛的降低,越来越多的公司开源了自己的框架,把数据喂进去就能出来一个模型。越来越多的头部垂直公司开始建立AI部门,之前它们多会把业务交给做AI模型的公司来做,这两年,龙猫数据、TesTIn云测、倍赛 BasicFinder的很多客户不是来自AI行业的客户,而是传统公司的AI业务部门。龙猫数据创始人兼CEO昝智认为从这个角度来看,市场规模并不好算,BAT、小米、京东、TMD等互联网公司和传统行业里的传统企业,它们会拿出多少预算做AI,不得而知。唯一可以肯定的是,这两三年,数据采标的市场规模越来越大。 这两三年,AI模型对数据采标的复杂度和精细度要求也越来越高了。比如说,现在,做一个人脸拉框,人脸的拉框精度要求在五像素以内或者三像素以内;又或是,整批数据精确度需在97%或者99%以上。贾宇航认为,精度的提高是AI行业发展的必然结果。对于AI行业,有一句话叫 Garbage in, Garbage out,低精度的标注数据对于算法没有任何意义。只有能持续输出高精度采标数据,才是一个能持续保持竞争优势的服务商。 第二,更庞大、更多样的数据规模。庞大在于数据量会更大,以传感器为例,随着传感器成本下降,并被大量应用,将有更多大量的数据需要被标记;更多样指的是更丰富的数据维度,在今年的CES展上,松下推出的智能家居解决方案,不仅仅通过电视上的摄像头观测人脸的疲劳度,还通过椅子上的电容传感器,去检测人的心跳。而之前,疲劳检测只是通过摄像头捕捉人脸。将来,更多维度的数据将被收集,不单单是2D的图象、声音,3D的激光雷达以及心跳数据等也将被纳入到采标的范围内。 03 转折点 需求侧的变化,不可避免地在供给侧引起不小的地震。供给侧开始从密集劳动型行业向新产业、新模式——工具+众包转型。洗牌开始了,数据采标迎来了下半场。 受负面影响最大的第四梯队。无论是采标的复杂还是要求愈高的精度,对于它们来说都不是好消息。去年中旬以来,每天十几、二十几家小作坊要求挂靠在倍赛 BasicFinder旗下,这说明小作坊已经失去业务的来源。“他们靠低质量数据和低价抢市场的模式,已经不能持续了。因为AI工程师不能接受低质量的数据,也不能接受不靠谱的交期。”杜霖说。 张三认为,第四梯队坏了规矩。他们先靠低价四处抢单子,而后内测什么样的项目能够在单位时间内产出最多,再去做这个项目。其它项目,则被分包给更小的团队去做。质量难以保证。“他们不算房租、管理等,只核算人工费用。他们的逻辑是一个人一天50块钱,高于这个价就是赚的。于是他们就报100元的单价。而第三梯队需要承担房租,税收、管理费用以及每天的喝水吃饭等乱七八糟的消耗,至少报200元的单价,才可以做。” 早期,第四梯队靠着这种方式,赚了一些钱,回收了硬件成本,并有结余。但2018年初,第二梯队开始做店测,“看看你有多少人,看看你的场地。你不专业,行业正在慢慢把你淘汰掉。”淘汰,意味着没有业务来源,那么多人需要吃饭、拿工资,不专业的第四梯队危机便出现了。即便能够找到项目,采标项目的要求提高,比如准确度要达到95%甚至是99%以上,小作坊必须从团队中抽出一部分人脱产质检和最后的抽检,成本也会上升。 压力,对于行业中的每一个参与者都是同样的。对于龙猫数据、TesTIn云测、倍赛 BasicFinder等第二梯队公司来说,他们需要创业迭代,他们需要想清楚在这个过程中如何突破自我,不断创新,走出自己的舒适区。他们找到了一个抓手起步,需要思考的是未来怎么才能取得全胜。 业界认为,第四梯队危机的出现,有利于实力强大的第二梯队靠着服务质量与效率抢占退出的小作坊留下的市场空白。 新阶段与新竞争 数据标注和采集是一个技术活。 需求来到,采标公司做两个方面的工作,一,调配和研发模块,二,进行试标,并尝试总结规则,并培训。做完了这两方面的工作,公司会向需求方报价,报价过程中,采标公司回去准备相关应标材料或者应答材料。 中标之后,采标公司开始传输数据,上传到平台上,并开始配置生产和标注业务。据悉,数据标注业务的配置是一个复杂的数学模型。比如,有些任务需要串并联的工作流,并联的工作流是多人协同的工作。串联的工作流是后一个结果是基于前一个结果进行处理的,串并联的工作流需要平台来实现业务工作流的配置。比如一些NLP型的文本标注作业,需要多个人来标,最后N选一或者投票。串并联配置涉及到底层数据流的分发等。 标注过程中,质量的协同管理和绩效的统计非常关键。平台需及时统计到每个人的准确率、稳定性以及效率。标注完了之后,客户验收前,采标公司还需要抽检。最后,公司按照与客户约定的格式进行交付,这又涉及到格式转化的问题。 以上过程包含了整个标注系统所有的技术核心点。标注和采集服务并不是堆人就能够干出来的。对于依靠人力的第三、第四梯队来说,贾宇航认为,如果它们想转型众包+工具的新生产方式,“局限性比较大”。理由有二: 一、数据行业的领头者会通过这3年的持续服务,在客户圈赢得口碑,品牌效应会给其带来一定的商业积累。一些更在意质量、更在意投入产出比的公司会逐渐向领头者们倾斜。 二、技术优势。头部标记公司有资金去优化自己的工具和应对客户的定制化需求,并通过管理经验优化对应的服务体系和流程。而对于小团队想要快速建立已有工具和流程化体系去覆盖一个或多个行业是有局限性的。有两条路可供它们选择,第一,精简团队,专营一个或几个AI公司的业务,做一个小而美的生意;第二,与精英合作,使用精英提供的工具,做平台分配过来的任务。 对于尚未入场的后来者来说,如果后来者一开始便立志做一个众包+工具的平台,除了克服商务壁垒外,在众包方面,众包平台需要强运营能力,需要足够多的人在平台上。平台方需要考虑如何拉新,如何保留日活、月活等。在工具方面,只有一个可采标的APP也是不够的,没有便捷的沟通方式减少误差的传递,也是很难做成的。这就像木桶理论一样,缺一块板都装不了水。换言之,留给新进入者的窗口期逐渐关闭。 业内人士认为,采标市场将进入战国争霸期。实力强大的第二梯队之间不可避免地面临着一场混战。数据采标市场开始趋于统一。第一梯队注定不会成为争霸期的主角。因为行业竞争等方面的考量,采标需求方不会将数据交给百度、京东的众包平台来做。做人力资源外包的上市公司会在下半场拿到一定比例的市场份额,会对五家标采公司造成一定的威胁,但该威胁不大。 下半场,第二梯队将如何竞争?通过与第二梯队中的三家公司深入交流,黑智发现它们对未来和竞争理解各异,布局也不尽相同。这些差异在它们诞生的那一刻起,便被注定。 01 做轻还是做重? 在回答“做轻还是做重”这个问题上,龙猫数据、TesTIn云测、倍赛 BasicFinder给出了不同的答案。Testin云测、倍赛 BasicFinder都建有自己的标注团队,而龙猫数据则坚持用众包的形式来做标注。 不同选择的背后,是各家不同的基因。Testin云测成立于2011年,以App兼容性测试作为切入点,进入企业服务,后衍生出功能测试、自动化测试、安全测试、性能测试等服务,成为一站式测试平台。2017年,Testin云测积累了大量客户。一些AI公司找到云测,希望通过云测的众测平台做数据采集。这是Testin云测采标业务的起点。 Testin云测的采标业务做得很重,比如除了众包采集外,它还会做定制化场景采集,甚至和横店影视基地合作,利用横店群演资源,搭建专属场景,完成客户的定制化场景采集。在标注方面,Testin云测又自建标注基地,与房山市政府合作用于数据标注。贾宇航表示,Testin云测所做的一切都是为了客户需求,“通过工具研发驱动保障标注的效率、精度,以及安全性。并通过项目管理、风控管理等方式,确保标注精度达到客户标准,以满足客户对于准确度的要求。” 从倍赛BasicFinder的产品基因上来看,倍赛的工具偏向于团队模式的管理工具,而不是众包模式。2018年12月,倍赛并购了欣博友,前面提到欣博友是一家运营了30年的北京数据处理公司。该公司提需求,倍赛做技术支持。“我们迭代了很多次,每个工具、快捷键、每个设置的优化,都是我们在数据生产中磨合起来的。倍赛接业务比别的公司都晚,2016年基本没接业务,2017年才开始接。我们的工具做得很扎实。” 除了欣博友,倍赛BasicFinder一直在积极拓展产能,杜霖说,目前,倍赛BasicFinder又拓展了将近3000多个人的子工厂。“通过拓展自有产能,实现最专业的服务。”2018年9月,倍赛BasicFinder收购丁火智能100%股权。丁火智能旗下“荟萃APP”已积累数十万活跃众包用户。“我们搭建了一套自主采集系统,再搭配荟萃APP实现数据采集,完成更多样性的任务。” 和Testin云测、倍赛BasicFinder不同,龙猫数据没有自己的标注团队,工具偏向众包模式。昝智和联创,出身于互联网公司,他们更希望用互联网平台化的方式去做采标,而不是“做一个纯的数据工厂”。昝智既往经验告诉他,应该让系统做这些复杂的数据处理,而不是靠人对人的管理。因为人对人的管理非常低效。 据昝智介绍,龙猫数据是较早使用众包模式做数据采标的,“我们用众包把事情做成了,很多跟进者也开始用众包去做。”昝智认为,龙猫数据打造出了“倚天剑”。他不觉得学龙猫数据的人能够做好众包,“早进入这个行业的玩家,有一把宝刀,他们用这把宝刀获得了利益,然后看到别人拿了倚天剑获得了更大利益,为了造倚天剑,他不可能把宝刀丢了。刀丢了,他们可能啥都没了。但不丢刀,他们又很难造出倚天剑。因为人的精力是有限的,思维是局限的,他们不可能一边把精力放在宝刀上,又一边造倚天剑,而且造倚天剑还比我们造得好,这不科学。” 昝智认为,龙猫数据没有宝刀,“接到客户需求,我们只能优化系统,才能保证准确产出数据。对于他们来说,接到客户需求,他们还有退一步的路可以走,那就当场监督大家认真去干。他们是有退路的,我们也没有退路,我们必须把它搞定。有退路的时候,人一急了,就容易选退路了。”据了解,目前,龙猫众包平台有400多万用户,其中只有一千多是做标注的。龙猫数据的标注业务主要由一千多个渠道商团队承担。 02 建模还是不建模? 贾宇航提到数据标注的产业链可分为三个部分:人员、工具以及算法。而Testin云测坚持做好人员+工具,不做算法。“数据具有可复制性这一特点,如果采集标注公司会算法,这有点像一个算法公司找另一个算法公司做标注,这一份数据到底是否用于乙方的提升,这中间存在一定的争议。”“我们是在数据领域服务的企业,而不是卖算法的公司。我们只负责完成企业的数据采标需求就可以了,完成了交付,我们将彻底清除客户数据。” 杜霖或许不会同意贾宇航的观点,因为倍赛 BasicFinder正在打造一款傻瓜式建模系统——用户只需要输入数据,便可以得到一个AI模型。“如果客户想成立AI部门,只需要部署上倍赛的系统上,然后再找两三个AI工程师调参,就可以自己出模型了。如此,标注、采集、建模就会变成一个大闭环了,因为客户懂业务,他知道业务数据应该是什么样子。”杜霖说。 现在,倍赛BasicFinder避免直接建模,杜霖强调,“我们将我们自主研发的私有化标注系统及主流的深度学习框架,统一封装进倍赛的AI基础系统BasicAI,实现AI数据及模型的整个生命周期管理。倍赛不建模,我们只给客户提供一套底层工具,让客户自己去建模。”杜霖解释说,“Tensorflow、Keras及Pytorch这些深度学习库的出现,让建模没有门槛,未来甚至高中生都能够建模。” 如果一个汽车公司让倍赛BasicFinder帮忙做一个自动驾驶系统,杜霖表示做不了。但他也说,“我们的BasicAI实现从标注到建模的高效流程管理。客户在倍赛标数据,数据流到建模平台,客户在Tensorflow里调点参数,模型就出来了。” 今年,倍赛将推出3.0新版本,同时提供SaaS化标注工具服务,帮助客户实现数据标注管理。杜霖提到,为团队打造的采标及建模流程化工具,可以提高倍赛的业务延展性,提高竞争中的优势。 选择无优劣,但市场会给所有选择一个清晰的答案。而战国混战,或在接下来的几年见分晓。不过,客户并不希望一家独大,大树之下,寸草不生的局面。未来,数强并立的局面或将长期存在。 走向终局 一个场景,一个市场,一个产业,一个江湖。 熙熙攘攘被裹挟着进场的人,有的主动选择,有的则是被动,但一旦进入,市场和资本的逻辑发挥作用,他们你我都变成生产链上的生产要素,被挑选,被进步,亦或被淘汰。 各个产业参与者的位置,从诞生起或已被注定。从产生的那一刻起,它按着既有逻辑在走,从不以个人意志转移。上半场,草根英雄辈出,拼价格,下半场拼品牌、服务与效率。精英开始清场,草根离场或者重新站队。而资本,加速整个产业迭代。 现在,下半场刚开启,谈终局似乎有些为时过早。有太多的不确定将在接下来几年的竞争中,变得确定。但更多的不确定性,可能又会出现。城头变幻大王旗,只在一瞬之间。 黑智认为接下来几年,不确定性虽是主流,但仍有几件事是确定的: 1. 下半场仍将是性价比之争。客户永远希望用最小的成本获得更高质量的数据。为了生存和在竞争中脱颖而出,供给侧不得不迎合性价比需求,他们不得不通过技术来获得降价空间和利润空间。贾宇航觉得,技术永远是最重要的。“通过技术的方式倒逼自己不要赚太多钱。如此,价格才能降下来,竞争力则提了上去。” 2. 不要忽视传统公司的AI需求。毫无疑问,接下来几年,传统企业的AI需求将会出现井喷,如何抓住他们,并服务好他们,这是所有采标公司亟需思考的。当然,也不能忽视AI行业的新数据,比如3D的激光雷达以及心跳数据等。 3. 不能忽视商务能力。不强的商务能力,或将成为采标公司的新短板。现阶段,它们的产品和商业模式已基本经过市场的验证。他们需要通过放大商务杠杆扩大产品的覆盖范围。 4. 建立第二条增长曲线。接下来几年,有人离开,有人留下。每个人都有所归属,在产业链上,支配或者被支配。所有留下的公司都应该寻找第二条增长曲线,如此才能突破现有成本收益的限制。另外,张三的梦仍需要做,仍需要努力实现。梦想总是要有的,万一实现了呢。

    时间:2020-06-09 关键词: 数据 AI

  • 罗克韦尔自动化推出FLEXI/O-XT模块

    罗克韦尔自动化推出FLEXI/O-XT模块

    罗克韦尔自动化推出支持HART的Allen-BradleyFLEXI/O-XT模块。这一经过工业级强化的I/O平台可帮助OEM和最终用户减少接线、缩短安装时间并节省机柜成本。 随着工业应用不断向偏远、极端的环境延伸,市场需要更多经过特殊设计的控制设备,以承受极端环境的考验。支持HART的全新I/O模块能够连接恶劣环境中原本独立的各个智能现场设备,获取其中的数据,从而更好地为资产管理软件提供性能数据,帮助您更加全面地掌握运营及维护需求。 “现在,FLEXI/O模块一直是最畅销的分布式I/O平台”,罗克韦尔自动化产品经理ChanWai介绍,“支持HART的FLEXI/O-XT模块将进一步增强我们的产品组合,是在极端环境下配合罗克韦尔自动化集成架构以及PlantPAx应用的理想之选。” FLEXI/O-XT模块拥有涂层防护,具备防腐蚀、防尘、防气体、防盐、防冷凝、防潮以及防真菌的特性。借助工业级的强化,该模块无需使用外壳,也无需安装辅助加热和冷却系统,节省了相关的设备和能源成本。 工业级涂层可保护其免受空气污染物和湿气的影响,加上-20°C到70°C(-4°F到185°F)的大温度范围,这些特性都让FLEXI/O-XT模块能够完美胜任能源发电、水/污水处理、船上应用等各类要求苛刻的环境。

    时间:2020-06-09 关键词: 数据 自动化 能源

  • AI伦理还有很长的路要走,我们应该更多关于数据隐私和道德的讨论

    AI伦理还有很长的路要走,我们应该更多关于数据隐私和道德的讨论

    2018年可以认为是人工智能(AI)大爆发的一年。你只需看看那些标语中带AI一词数量,宣称自己 AI 创业公司的数量,大公司提到 AI 战略的次数,以及技术顶会中爆满的 AI 专场,你就知道人工智能已经无处不在。但是,即使是这样,AI 也只是称为了一个流行语而已,但实际上 AI 的本质是什么,我相信很多人都不知道。 图 1: 这些年来大肆宣传的概念 回顾这些年宣传过的各种概念,多少人曾为之疯狂。但是浪潮退去,裸泳者将会即刻出现。我们不应该跟随风潮进行概念炒作,相反的,我们应该反思,这些技术都解决了什么问题? 对数据科学行业来说,也是如此。让我们回顾一下单单“数据科学”一词在谷歌搜索中的趋势: 图 2: 自2013年12月以来对“数据科学”术语的搜索(来源:谷歌趋势) 可以看到,数据科学的趋势一直在稳步上升。接下来,让我们回顾2018曾发生的事情,再来看看2019年的热门话题。 2018 回顾 去年的这个时候,我也发表一篇关于2018年数据科学趋势展望的文章。在那篇文章中,我主要提到的关键词有:工程自动化,模型可解释性和公平性,数据科学应用商业化,以及特征工程工具的构建和改进。 自动化:一般来说,数据科学家的工作就是使他们的工作自动化,这句话可能有点绕口,但你认真思考以下,数据科学出现的意义就是解决大规模数据情况的分析和挖掘。而我们使用的各种模型,都是致力于提供某种较为通用的方案让机器能够自动从数据中学习知识。并且在过去的一年里,很多大公司开源了自己的模型算法,以及整个机器学习流水线的自动化,甚至连机器学习算法的建模都能自动化,参见 Google/Amazon/阿里/腾讯 等一大批公司提出的 AutoML。 商业化:正是有了这么多可用的开源工具,数据科学领域内的商业化竞争也越来越残酷。不过幸运的是,数据科学是一种横向学科,你可以只对模型进行一些微调,就可以在农业应用和医疗场景中使用相同的算法。因此,你也会发现,在2018年有很多宣称自己是 AI 公司的,如果在某个垂直方向上失败了,他们会迅速适应另一个领域。 同样也是由于这么多的开源工具,有一些公司直接对开源工具进行某种适配和修改,然后卖给其它公司。这也是2018里常常出现的一个现象。 可解释性和公平性:2018年这个领域也取得了巨大进展。现在有很多开源工具帮助解释机器学习模型学习到的知识,例如 Python 中会用到的 SHAP。 此外,还有很多书籍也在探讨这个问题,其中比较著名就有:Christoph Molnar 发表的《可解释的机器学习模型》一书(获取本书资源,请在本公众号发消息:可解释,即可获取全书)。除此之外,Google 提供的 “What-If” 工具系列,也可以帮助初学者降低学习门槛,了解机器学习复杂模型的运行原理。感谢 Google。 特征工程:虽然深度学习全面席卷整个行业,但是特征工程仍然是数据科学行业提升模型性能的主要秘诀之一。经常参加比赛的同学就会知道,在各类比赛的获胜方案中,没有哪个是单单靠模型取胜的,这些参赛者都花了很多时间在特征工程上,即便是深度模型也是如此。 因此,特征工程仍旧是一个大话题,但是在2018年,也有越来越多的通用特征处理工具和算法提了出来。 最后,根据 Stack Overflow 的统计,Python 已经成为连续两年增长最快的编程语言和最受欢迎的语言。按照这个速度,Python 应该会在不久之后成为最常用的编程语言。 2019 展望 2018年的飞速发展让我们能更广泛更轻松的应用数据科学,在2019年,数据科学家们关注的焦点是: 1. 如何最大限度地减少数据科学家花在数据清理和特征工程上的时间? 2. 如何解决机器学习模型的偏见问题? 3. 机器学习模型真的都可信吗? 抛开这些难以回答的问题,数据科学还有很多现实的问题需要解决。 强化学习在2018年可谓是如坐过山车一般,从火爆到寒冬。但是今年强化学习的春天可能要到来了,比如应用强化学习玩 Dota2 就是一个很好的例子。但是由于强化学习对于设备计算能力的要求较高,想要普及强化学习仍旧有很长的路要走。但是,无论如何,强化学习是数据科学领域目前学习方式最拟人化的模型,如果强化学习一旦广泛应用,将会是革命性的进展。 如果你对强化学习感兴趣,可以关注由 OpenAI 开发并开源的 Gym,里面有很多游戏示例可以练手。 隐私问题:2018年 facebook 由于隐私被起诉,国内也有很多公司相继爆出隐私问题。国际上,欧盟于2018年5月25日起,将要求数据科学履行他们制定的通用数据保护法规(GDPR),这些对全球的数据科学公司来说,都会有极大的影响。 目前,GDPR 主要关注以下两个方面: - 数据隐私:任何公司如果未经用户授权,擅自使用或者超过用户的授权范围使用用户数据,会收到欧盟的巨额罚款。这带来的问题是:以后想要获取用户数据,是否会越来越困难,或者,如果我们使用匿名数据,那么这些匿名数据是否真的可信? - 向用户解释:对于任何完全自动化的算法形成的决策,平台必须要能够向用户解释任何发生在用户身上的事情。在完全自动化的决策必须是可解释的。欧盟没有对“可解释”下更多明确的定义,但是无论如何,迄今为止有很多机器学习模型仍旧还是不容易被解释的,尤其是某些先进的高级模型。那么是否意味着:一旦我们使用前沿的高级模型,是否就代表着有巨大的罚款等着我们? 值得信赖的人工智能至少要满足这两个条件: (1)它应该尊重人的基本权利,社会的法规、原则和价值观,并且是道德的; (2)在技术上它应该强大可靠,避免对用户造成意外伤害 随着人工智能对社会的影响越来越大,我们有权要求这些 AI 减少偏见。幸运的是,在国外我们已经看到了很多公司和机构在努力解决这个问题,比如欧盟提出了AI道德草案,谷歌重申了AI应用的原则。AI 伦理学还有很长的路要走,希望在国内我们也能有更多关于数据隐私和道德的讨论。 图 3:欧盟 AI 道德草案 基于云的解决方案:随着人工智能算法变得越来越复杂,数据量越来越大,对计算机的要求越来越高。现在已经很少有大公司用个人电脑来进行数据科学的研究。国内如腾讯和阿里都相继提出云上的机器学习解决方案,在未来,这一定是数据科学开发、运行和部署的基本趋势。 行业细分:现在如果你搜索一个传统行业的工程师,你看到的职位名称将会非常细化,比如机械工程师吗、航天工程师、软件工程师等等。 数据科学也是如此。2018年很多公司会将数据科学职位定义为“数据科学家”,但是在未来,随着行业细分专业细分,数据科学家必定也会细分下去。国外 Netflix 公司已经开了一个好头,下图中展示了 Netflix 的九个数据科学家角色: 图 4: Netflix 的数据科学家职位 这给我们的启示是:深耕一个领域。在数据科学刚开始的时候,肯定不存在许多专业化的细分领域。但随着数据科学的发展,不同领域的细分越来越明显,今年能够明显看到的就是 NLP 内部也对 NLG / NER 等工程师进行了细分。所以如果你还没有确定自己的方向的话,是时候好好思考一下了。 2019年仍将是数据科学高速发展的一年,它可能不如2018疯狂,但让我们更理性的对待数据科学本身就是一个好事。请记住,时间是你最大的资产。你浪费的每一秒都是你错失的机会。行动起来,为数据科学更理性的明天做好准备。

    时间:2020-06-08 关键词: 数据 人工智能 伦理学

  • 微软Outlook遭黑客入侵 受影响人数约占6%

    微软Outlook遭黑客入侵 受影响人数约占6%

    今年早些时候,黑客攻击了微软客户支持门户网站,并获得使用微软Outlook服务注册的一些电子邮件账户的访问权限。他们不仅可以访问客户账户的信息,而且还包括与之通信的人。 微软通知其部分用户存在安全漏洞,并通过电子邮件确认:黑客在2019年1月至2019年3月28日期间访问了其Outlook账户的信息,包括使用Outlook和Hotmail的用户。 据外媒披露,一些Reddit用户确认收到微软数据泄露通知邮件,其中一人还发布了该邮件的图片。 在周末确认黑客攻击时,微软声称攻击者访问了受影响用户的电子邮件地址、文件夹名称、电子邮件主题行以及用户与之通信的其他电子邮件地址名称。 微软承认,黑客已经获得了一些客户电子邮件的内容,约占受影响人数的6%。据悉,由于被破坏的客户服务账户的访问级别有限,只有消费者账户受到影响,而不是付费企业账户。 在给受影响用户的电子邮件中,微软指出它“对此问题造成的任何不便感到遗憾,”并且应该“微软应该非常重视数据保护,并让其内部安全和隐私团队参与调查和解决问题。” 目前,微软并未提供有关黑客破坏员工账户方式的其他详细信息,包括受影响账户的数量。 微软在邮件中表示:“我们通过禁用受到破坏的凭据,并阻止肇事者的访问来解决这个影响有限的消费者账户的计划。” 微软还建议所有用户,甚至包括不是受影响的用户重置其微软账户的密码作为预防措施。 虽然对微软来说,数据泄露是一个问题,但更大的挑战可能是欧盟的参与。众所周知,在没有提供受影响人数的情况下,其中至少有些人在欧盟,这意味着数据泄露将属于欧盟《GDPR》(一般数据保护条例)。 因为《GDPR》规定:GDPR不仅适用于位于欧盟境内的企业组织机构,也适用于位于欧盟以外的企业组织机构,无论机构所在地位于哪里,只要其向欧盟数据主体提供产品、服务或者监控相关行为,或处理和持有居住在欧盟境内的数据主体的个人数据,都将受到GDPR法案的监管。 说人话就是,一个欧盟公民不管在内,你只要存储其数据,你的公司或企业就适用于《GDPR》。 因此,欧盟可能会调查微软是否遵守该规定,以及是否尽力防止黑客入侵。如果微软没遵守规定,那么可能会遭遇重罚。 《GDPR》规定,对于一般性的违法,罚款上限是1000万欧元,或者在承诺的情况下,最高为上一个财政年度全球全年营业收入的2%(两者中取数额大者); 对于严重的违法,罚款上限是2000万欧元,或者在承诺的情况下,最高为上一个财政年度全球全年营业收入的4%(两者中取数额大者)。 附:邮件截图

    时间:2020-06-07 关键词: 微软 数据

  •  我国无人机产业实现腾飞需做到那三点

    我国无人机产业实现腾飞需做到那三点

    近年来,无人机的发展受到了世界各国的广泛关注,不管是美国等西方发达国家,还是中国等发展中国家,都在积极促进无人机产业的快速壮大。作为一项全新的智能技术,无人机之所以受到国外的青睐,是因为其对于各国的经济、军事、环境等发展具有重要推动作用;对于我国来说,无人机的作用则需在此之上增加是建设“智慧城市”和“数字中国”的物质载体。因此,无人机产业的发展对我国来说意义重大。 而目前,全球无人机的市场发展正呈现出明显的扩张姿态。据最新数据显示,过去一年全球无人机产量已超过400万架,同比增长近35%,发展态势异常迅猛。同时,各国对于无人机的领域应用也在不断拓展,从农业植保、地理测绘、休闲娱乐,到交通巡查、消防救援、军事科研,无人机基本实现了在工业级和消费级市场的全面开花。 鉴于此,我国的无人机发展由于研发起步晚等现实原因,在规模和应用上虽然无法与国际市场相聘美,但受到人口基数和国家政策的积极推动,国内无人机的发展需求和潜力却展现得十分强劲。有关研究机构就曾预测,从2014年至2023年,我国民用无人机销售规模将连年递增,同时在植保无人机的强力带动之下,各领域的实际应用也将不断扩大和深化。 这表明,我国无人机拥有庞大的市场基础和强有力的消费潜力,基本上具备了飞得更“高”的良好条件。在这样的情况之下,只要一方面不断加强无人机应用领域的细化和普及,另一方面持续推进传感、定位、避障等技术的突破与发展,从横纵两方面不断加快无人机的应用进程,促进无人机市场的快速壮大,未来我国无人机产业发展便将逐步走向成熟! 不过,虽然深化领域应用、壮大规模市场,让无人机飞得更“高”很重要,但完善产业链、迈向中高端,让无人机飞得更稳更持久,才能最终飞得更“远”。因此,推动国内无人机飞得更“高”和更“远”,是当前我国无人机产业发展实现“腾飞”的关键所在!而要达成这个目标,还需要做到以下三点: 首先是加强法律监管。目前,我国无人机的发展在法律方面极度不完善。销售方面的法律欠缺,导致无人机和上游材料、传感器等产品的质量、产权和销售把控不过关,容易导致国产无人机品质和功能的低下;而应用方面的法律缺失,则导致应用界限的划分不明确,飞行领域的管控不严格,最终导致无人机使用的合法性与合理性无法保障。因此,在市场销售和应用使用两方面的法律监管工作,未来还需做到尽善尽美。 其次是增强配套建设。无人机的研发制造不仅仅需要传统实验室来保证技术与质量,还需要试飞场地保障飞行实用性。而当前,国内无人机生产商普遍面临着试飞空间不足、专业人才不够、科研资金不足等问题,科研应用配套的不足正制约着我国无人机的快速进步。因此,未来产业发展还需以政府为主导,不断增强产业所需的设施、场地、人才、资金等相关配套。 最后是促进技术突破。国内无人机的发展壮大,既需要横向的领域拓展,又需要纵向的功能延伸,而不管是哪个方向的发展,都离不开技术的加持。在这样的情况下,未来我国无人机的发展要结合飞行实际的环境、气候、地域等条件,并考虑用户的不同需要,推动技术的不断突破于进步,以新材料、新技术来助推行业的新发展。 总而言之,我国无人机的发展已经吹响了冲锋的号角,在具备飞向更远和更高的条件基础上,我国只要满足上述三点要求,便有望实现本土企业的崛起、行业市场的赶超,以及产业发展的腾飞。

    时间:2020-06-07 关键词: 数据 无人机

  • 新型防爆巡检机器人在高危行业的应用与发展

    新型防爆巡检机器人在高危行业的应用与发展

    随着公众安全意识的增强,以消防机器人、防爆巡检机器人为代表的特种机器人应用越来越多。在全国各地的消防演练中频频出现特种机器人的身影,各地纷纷出台相关政策推广特种机器人,在高危行业实行“机器代人”政策。这当中,新型防爆巡检机器人正在石化等行业逐步推广。 “近年来危化品领域发生的一些重大事故让人痛心,我们希望防爆巡检机器人可以在减少类似事故中发挥作用。”中信重工开诚智能装备有限公司总工程师裴文良表示,“其实类似这种灾难是可以尽力去避免的,防爆巡检机器人就可以在其中发挥作用。” 将巡检工人从高危环境中解放出来 为加强高危场所的巡检工作,一般都专门设置巡检工人,定时对设备、高危场所进行巡检。例如,输油场站作为石化企业中一个必不可少的重要环节,承载着成品油的运输及终端销售供给的作用。为确保成品油的运输安全,每天安排大量的专业人员对输油场站内的管路及设备进行定时巡视。由于受巡检工个人工作能力的限制,巡检质量参差不齐。同时石化企业本身属于高危行业,巡检工人随时可能会遇到危险。如何采用高科技手段实现节能增效的目标、提升危化企业的本质安全管理水平是个亟待解决的课题。 “机器人是我们重点关注的领域。”裴文良表示,机器人在越来越多的领域接替了人类的工作。巡检机器人搭载一系列传感器,可代替巡检人员进入易燃易爆、有毒、缺氧、浓烟等现场进行巡检、探测,有效解决巡检人员在上述场所面临的人身安全、现场数据信息采集不足等问题。机器人巡检,既具有人工巡检的灵活性、智能性,同时也克服和弥补了人工巡检存在的一些缺陷和不足,更适应智能场站和无人值守场站发展的实际需求,是智能场站和无人值守场站巡检技术的发展方向。 此次,中信重工开诚智能装备有限公司在国内首次研制成功一款用于石化企业等易燃易爆高危环境下的防爆巡检机器人。“这款防爆巡检机器人对降低人工巡检的安全风险,提升危化企业的本质安全管理,具有十分重要的意义。”裴文良表示。 让巡检机器人变得越来越聪明 裴文良介绍道,这款防爆巡检机器人采用计算机、无线通讯、多传感器融合、防爆设计、自动充电、自主导航、智能识别等关键技术,以应用于石化企业、输油场站等高危环境下设备的巡检与监控,实现场站的无人值守,以达到减员增效、安全生产的目的,“防爆轮式巡检机器人系统由防爆轮式巡检机器人本体、自动充电装置、无线基站和上位机远程控制站组成。防爆轮式巡检机器人本体、无线基站和上位机远程控制站(服务器)通过无线方式进行通信。”裴文良说。 防爆轮式巡检机器人本体为数据采集端,通过现场确定被巡检设备并规划最优路径,使机器人能够按照巡检要求进行点检作业。巡检机器人本体上携带自动旋转云台,用于采集巡检设备和环境图像信息。并且采用智能双视云台,上面搭载高清摄像机与热成像仪,可对现场设备进行高效巡视,镜头装有雨刷,能够清理镜头保护玻璃上的水渍和浮土等,使监控画面维持在较清晰的状态。在无线基站之间通过光纤进行连接,可实现数据传输。 “巡检机器人的工作区域被无线网络覆盖,实现与远程控制站的连接通讯。远程控制站通过访问巡检机器人本体采集的信息,可进行分析处理,如有异常自动报警。”裴文良表示,同时,通过网络转接发送短信给用户及上传给上级部门,供专家团队决策。客户端可以对巡检机器人进行远程操控,如关键点复查等操作。另外巡检机器人还可以进行自身状态识别,实现自诊断功能,如检测到电量低后,自动返回充电。 该防爆轮式巡检机器人研制成功后,已在中石化华南销售公司斗门站应用。斗门站是珠三角成品管道南沙—中山—斗门段的一个末站,设有泄压罐、污油罐、密度计、过滤器、减压阀、质量流量计等输油设备,原来采用SCADA(数据采集与监视控制)系统进行控制。“改用防爆轮式巡检机器人进行巡检后,安全性、实用性、可靠性等都有极大提升,带来了显著的经济效益。”裴文良说,巡检机器人24小时不间断运行,根据现场巡检工艺流程,进行巡检作业工作。

    时间:2020-06-07 关键词: 数据 传感器 机器人

  • 如何恢复硬盘内数据?

    如何恢复硬盘内数据?

    硬盘坏了怎么恢复数据?误删电脑数据以及其他重要的文件,是我们经常遇到的情况,但对于硬盘格式化等原因造成文件丢失来说,是可以进行恢复的!在删除文件时,一般也都是将删除的文件标记为”空闲“的形式,并没有真正的删除,而是使用另外一种形式进行文件的存储。 对于这种情况所格式化的文件来说,我们又该如何恢复呢?如何利用数据恢复软件找回丢失的文件,以及电脑相关的小知识小技巧: 双击硬盘没有反映,只有C盘也就是系统盘可以打开,其它的盘都打不开,只有右键点击才有反应,针对这种情况,下面小编就为大家分享下具体的解决办法,希望额可以帮到大家! 1、打开电脑左下角开始菜单,找到【运行】选项,点击打开。 2、在弹出的运行对话框中输入【gpedit.msc】,点击确定打开【本地组策略】。 3、进入本地组策略界面,依次点击【计算机配置---管理模版---所有设置】。 4、在所有配置右方找到【关闭自动播放】,双击打开此项。 5、进入关闭自动播放属性对话框,点击上方的【已启用】。 6、然后将下方的配置项,选择【所有驱动器】,点击保存重启电脑即可。 我们都知道技术有价,数据无价。那么日常生活中,我们不小心删除了U盘挥着硬盘数据该怎么找回呢?小嗨推荐下面这个数据恢复软件适用于一些永久删除,或者清空回收站文件,硬盘格式化,U判文件恢复等覆盖等多种类型文件数据的修复。 具体操作教程如下: 1.下载安装并嗨格式数据恢复大师,打开软件,根据自己的需要,选择软件界面上相对应的恢复功能; 2.选择原数据文件所存储的位置。 3.当原文件丢失位置选择完成后,点击下方开始扫描,对磁盘丢失的文件进行扫描。 4.扫描结束后,选中我们所需要恢复的文件,并双击文件进行预览,确定完成后点击恢复,选择恢复文件存储的路径,并点击“恢复”即可找回丢失文件。

    时间:2020-06-05 关键词: 数据 硬盘

首页  上一页  1 2 3 4 5 6 7 8 9 10 下一页 尾页
发布文章

技术子站

更多

项目外包