当前位置:首页 > 机器学习
  • 人工智能可以引领现代农业的未来吗

    人工智能可以引领现代农业的未来吗

    机器学习可以揭示最佳的生长条件,以便尽可能的展现口感和其他特征。 使植物味道好的原因是什么?对于麻省理工学院媒体实验室的科学家来说,这需要植物学、人工智能算法和一些老式的化学知识的结合。 利用以上这些知识,媒体实验室开放农业项目的研究人员报告说,他们已经在不涉及基因编译的情况下种植出了你从未吃过的美味罗勒(一种西餐调味植物)。研究人员使用计算机算法来确定最佳的生长条件,以最大限度地提高被称为挥发性化合物的风味分子的浓度。 但这仅仅是“网络农业”新领域的开始,麻省理工学院媒体实验室的首席研究科学家、开放农业集团的董事卡莱布·哈珀说。他的小组目前正在致力于提高草药治疗人类疾病的特性,他们还希望通过研究作物在不同条件下的生长方式,帮助种植者适应变化的气候。 哈珀说:“我们的目标是在数据采集、传感和机器学习的交叉领域设计开源技术,并以一种前所未有的方式将其应用到农业研究中。”“我们真的对构建网络化工具很感兴趣,这些工具可以利用植物的生长过程信息、表型生物特征、所遇到的外界环境刺激及其遗传学特性,并数字化,使我们能够理解植物与环境的相互作用。” 研究人员在4月3日出版的《公共科学图书馆》期刊中,描述了对罗勒植物的研究新发现,让他们吃惊的是,每天24小时将植物暴露在光照下能产生最好的味道。开放农业集团的研究负责人、该研究的作者约翰•德拉帕拉说,传统的农业技术永远不会产生这种见解。 “你不可能以任何其他方式发现这一点。除非你在南极洲,否则没有一个24小时的光周期可以在现实世界中进行测试,”他说。“你必须有人为的环境才能发现这一点。” 本文的高级作者是哈珀和奥斯汀德克,以及萨斯大学计算机科学教授里斯托·米库莱恩。媒体实验室的主任研究员阿里尔·约翰逊和认知技术解决方案的艾略特·梅尔森是主要作者,开放农业项目的特别项目助理蒂莫西·萨瓦斯也是作者之一。 最大化风味 在麻省理工学院贝茨实验室的一个仓库中,开放农业集团的工厂是在经过改装的船运集装箱中种植的,因此可以小心地控制环境条件,包括光照、温度和湿度。 哈珀说,这种农业有很多名字——环境控制农业、垂直农业、城市农业——仍然是一个利基市场,但发展迅速。在日本,这样的“植物工厂”每周生产数十万棵生菜。然而,也有许多失败的案例,而且在致力于开发这类设施的公司之间很少有信息共享。 麻省理工学院倡议的一个目标是通过让所有的开放农业集团硬件、软件和数据自由共用,来克服这种信息隔绝。 哈珀说:“目前农业领域存在一个大问题,即缺乏公开数据、缺乏数据收集标准以及缺乏数据共享。”“因此,尽管机器学习、人工智能和先进的算法技术进展如此之快,但收集质量良好、有意义的农业数据却远远落后。我们的工具是开放源代码的,希望它们能够更快地传播,并创造共享科研的能力。” 在《公共科学图书馆》刊载的一项研究中,麻省理工学院的研究小组着手证明其方法的可行性,即在他们称之为“食品计算机”的水培环境中,在不同条件下种植植物。这种方法允许他们改变光照持续时间和紫外线照射持续时间。一旦植物长满了,研究人员就用传统的分析化学技术,如气相色谱法和质谱法,通过测量叶子中挥发性化合物的浓度来评估罗勒的味道。这些分子包括有价值的营养素和抗氧化剂,因此增强风味也对健康有益。 然后,所有来自植物实验的信息被输入到麻省理工学院认知团队开发的机器学习算法中。这些算法评估了数以百万计的光照和紫外线持续时间的可能组合,并生成了一组可以最大限度地增加味道的条件,包括24小时日光制度。 除了口味之外,研究人员现在正致力于开发含有更多化合物的罗勒植物,这些化合物有助于防治糖尿病等疾病。众所周知,罗勒和其他植物含有有助于控制血糖的化合物,在之前的研究中,德拉帕拉的实验已经表明,这些化合物可以通过不同的环境条件得到增强。 研究人员目前正在研究调整其他环境变量的影响,如温度、湿度和光的波长,以及添加植物激素或营养素的影响。在一项研究中,他们将植物暴露在壳聚糖(一种存在于昆虫壳中的聚合物)中,壳聚糖使植物产生不同的化合物来抵御昆虫的攻击。 他们也有兴趣使用他们的方法来增加药用植物的产量,如马达加斯加长春花,这是抗癌化合物长春新碱和长春花碱的唯一来源。 “你可以把这篇论文看作是许多可以应用的不同场景的开场白,它展示了我们迄今为止所构建的工具的强大功能,”德拉帕拉说。“这是我们现在可以在更大范围内做的事情的原型。” 东北大学网络科学教授Albert-László Barabási说,这种方法为并非每个人都能接受的作物基因改造提供了一种替代方法。 本文运用现代数字农业的思想,通过改变植物生长的环境条件,系统地改变我们所食用植物的化学成分。这表明,我们可以利用机器学习和良好的控制条件来找到最佳条件组合,也就是说,设计最大化味道和产量的条件,”未参与研究的Barabási说。 气候适应 研究人员说,网络农业的另一个重要应用是适应气候变化。虽然研究不同条件对作物的影响通常需要数年或数十年的时间,但在一个受控的农业环境中,许多试验可以在短时间内完成。 德拉帕拉说:“当你在田里种东西时,你必须依靠天气和其他因素来合作,你必须等待下一个生长季节的到来。”“有了我们这样的系统,我们可以更快地获得更多的知识量。” 开放农业集团(OpenAg)团队目前正在为糖果制造商费列罗(Ferrero)进行一项有关榛子树的研究,该公司的榛子树消费量约占世界榛子总消费量的25%。 作为他们培训任务的一部分,研究人员还开发了小型“个人食品计算机”,可以在受控条件下种植植物,并将数据发送回MIT团队。现在,美国的许多高中学生都在使用这些工具,这些工具由分布在65个国家的不同用户组成,他们可以通过在线论坛分享自己的想法和结果。 哈珀说:“对我们来说,每一个盒子都是我们非常感兴趣的数据点,但它也是一个实验平台,可以用新的方式教授环境科学、编程、化学和数学。”

    时间:2020-05-31 关键词: 人工智能 机器学习

  • 10大热门人工智能技术

    10大热门人工智能技术

    1、机器学习平台:提供算法、API、开发和培训工具包、数据以及计算能力,来设计、训练模型并将其部署到应用程序或其他机器中。目前广泛用于企业级应用,主要涉及预测或分类。 2、人工智能优化硬件:图形处理单元(GPU)和专门设计制造的设备,用于高效运行面向人工智能的计算作业。目前已经在深度学习应用程序方面发生重大影响。 3、决策管理:引擎将规则和逻辑架构插入人工智能系统,并用于初始设置/培训和持续维护和调整相关决策。它是一种成熟的技术,广泛应用于各种企业应用程序中,帮助或执行自动化决策。 4、机器人流程自动化:使用脚本和其他方法自动化人工操作,以支持高效的业务流程。目前用于人类执行任务或流程成本过高或效率低下的情况。 5、文本分析和自然语言处理:自然语言处理(NLP)使用和支持文本分析,为此它借助统计方法和机器学习方法,为理解句子结构及意义、情感和意图提供方便。目前应用于欺诈检测和安全等广泛的自动化辅助以及挖掘非结构化数据等领域。 6、自然语言生成:从计算机数据生成文本。目前用于客户服务、报告生成和商业智能汇总分析。 7、语音识别:将人类的语音转录并转换成对计算机应用有用的格式。目前用于交互式语音响应系统和移动应用程序。 8、虚拟人物:从简单的聊天机器人到可以与人类连接的高级系统。目前用于客户支持和服务,并担任智能家居管理。 9、深度学习平台:一种特殊类型的机器学习,由多个抽象层的人工神经网络组成。目前主要用于大数据技术支持的模式识别和分类应用程序。 10、生物特征识别:使人类和机器之间的互动更加自然,包括但不限于图像和触摸识别、语言和身体语言。目前主要用于对市场的研究。

    时间:2020-05-31 关键词: 人工智能 机器学习

  • 人工智能大大减少了全球贸易中的什么问题

    人工智能大大减少了全球贸易中的什么问题

    近年来,机器学习和人工智能迅速出现,为提高商业效率带来了希望。与此同时,研究人员几乎没有发现任何证据支持劳动生产率和经济活动因此取得的进展。 直到现在最近,华盛顿大学奥林商学院的研究人员即将发表的一篇论文指出,人工智能推动的语言翻译与国际贸易的增长之间有着直接的联系。这篇论文分析了电子商务网站eBay的数据,首次表明人工智能和机器学习正在实现他们的价值。 “有大量的事实证据表明人工智能在许多领域已经超过人类,但之前没有太多的因果证据,”奥林商学院营销专业客座助理教授刘梦(音译)说,“有证据表明人工智能与经济增长有关,我们直觉中的人工智能发挥的作用和实际观察到的结果之间似乎存在差异。” 例如,自2000年代以来,总生产率增长率一直停滞不前。 刘梦与合著者,奥林商学院市场营销专业副教授向辉(音译),引用了麻省理工学院和芝加哥大学2017年的研究结果,指出了人工智能的高期望和低生产率之间的矛盾。这篇论文,解释了经济活动放缓的原因,引用了生产率和收入中位数停滞或下降的数字,这时候新技术才突然出现。 “针对总体增长的统计数据,人工智能悲观主义者表示,这并没有真正帮助我们提高生产率,”向辉补充道,“问题是,企业需要时间来进行创新,无论是组织创新还是技术创新,才能获得人工智能的红利,这就是我们论文的着眼点。让我们在一个无摩擦的平台上来研究这个问题,在这个平台上,人们使用基于人工智能的翻译系统。” 他们的论文《机器翻译会影响国际贸易吗?来自大型数字平台的证据》于4月被发表在《管理科学》杂志上。 刘梦与向辉利用2014年eBay在200多个国家超过140亿美元的交易额的数据证明,语言翻译质量的提高使在eBay平台上的交易量增加了10.9%。 本文将美国的买卖双方的贸易结果与主要不讲英语的国家(包括拉丁美洲、欧洲和亚洲国家)的贸易结果进行了对比。他们研究了eBay在2014年实施新的人工智能翻译服务前后的贸易情况,新版本翻译服务的质量提高了大约10%。 研究人员还将他们的研究结果与向辉在早期研究中探索贸易成本的数据进行了比较。随着eBay上贸易伙伴之间距离的拉近,贸易成本也会下降。”我们的研究表明,引进机器翻译相当于拉近了26.1%的距离。” 研究小组采用了两种方法来分析贸易数据。首先,他们对比了美国对有高级翻译的国家和没有高级翻译的国家的出口。上图显示了该技术引进后的结果,并且使用后出口明显增长。 接下来,研究团队通过研究机器翻译如何影响更长的产品名称而不是更短的产品名称,减轻了其他可能增加贸易(例如更多营销)的因素的影响。 接下来,研究团队过滤掉了其他可能导致贸易量增长的因素(例如更多的营销),仅仅通过产品标题长短来分析。理论上,翻译较长的标题需要更大的成本和精力,但会产生更大的回报,这意味着引入机器翻译的好处会非常理想。同时,如果在ebay增加营销,它将像影响较短的标题一样,影响更长的标题。而且对较长产品标题的影响更大。 研究人员写道:“这些比较表明,语言障碍对贸易阻碍效应非常大,改进的机器翻译使ebay贸易双方的联系更加紧密。” 作者指出,自从他们的研究完成后,谷歌推出了一个更强大的语言翻译工具,大大提高了翻译质量,基于他们的研究,这款谷歌软件对跨境贸易的促进作用可能会非常大。 作者认为,在eBay上引入机器翻译提供了一个理想的实验环境,他们可以在这里测量影响。但归根结底,人工智能的影响迟早可以在所有经济领域看到。随着新系统的上线,作者写道:“它将提供一个新的机会来评估人工智能对经济影响,正如本文所描述的实验一样。”

    时间:2020-05-31 关键词: 人工智能 机器学习

  • 人工智能和机器学习还有深度学习是什么关系

    人工智能和机器学习还有深度学习是什么关系

    “人工智能”这个术语大家都比较熟悉。毕竟,它一直是电影中的热门焦点,例如“终结者”、“黑客帝国”等等。 但您最近可能还听说过其他术语,如“机器学习”和“深度学习”,有时它们与“人工智能”交替使用。结果,人工智能、机器学习和深度学习之间的区别可能非常不明确。 接下来,我将简单介绍人工智能(AI)、机器学习(ML)和深度学习(DL)的实际意义以及它们的不同之处。 那么AI、ML和DL有什么区别? AI于1956年首先由John McCarthy创造,它涉及能够执行人类智能特征任务的机器。 虽然这有点笼统,但它包括规划、理解语言、识别物体和声音、学习和解决问题等内容。 我们可以将人工智能分为两大类:广义和狭义。广义AI将具有人类智能的所有特征,包括上面提到的能力。 狭义的AI则展现人类智慧的一些方面,并且可以很好地完成这一特征,但在其他领域缺乏相关能力。一台非常擅长识别图像的机器,但别无他用,这是狭义AI的一个例子。 本质上机器学习只是实现人工智能的一种途径。 亚瑟。塞缪尔(Arthur Samuel)在1959年创造人工智能后不久就创造了这个短语,将其定义为“无需明确编程就能具备的学习能力”。你可以在不使用机器学习的情况下获得人工智能,但是这需要建立数百万行具有复杂规则和决策树的代码。 因此,机器学习不是硬编码特定指令来完成特定任务的软件程序,而是一种“训练”算法的方式,以便学习如何做。 “训练”涉及向算法提供大量数据,并允许算法自行调整并改进。 举个例子,机器学习已经被用来大幅改进计算机视觉(机器识别图像或视频中的物体的能力)。 你收集数十万甚至数百万张图片,然后让人类给他们加标签。例如,人类可能会标记其中有猫的图片。然后,该算法试图建立一个模型,可以像人类那样准确地将图片标记为包含猫或不包含猫。 一旦准确度足够高,我们可以认为机器现在已经“学习”了猫的样子。 深度学习是机器学习的众多方法之一。其他方法包括决策树学习、归纳逻辑编程、聚类、强化学习和贝叶斯网络等。 深度学习受到大脑结构和功能的启发,即许多神经元的相互连接。人工神经网络(ANN)是模拟大脑生物结构的算法。 在人工神经网络中,有“神经元”,它们与其他“神经元”具有不连续的层和连接。每个图层挑选一个特定的要学习的特征,例如图像识别中的曲线/边缘。正是这种层次才给了深度学习这个名字,深度是通过使用多层而不是单层创建的。

    时间:2020-05-31 关键词: 人工智能 机器学习

  • 人工智能的非技术使用说明书

    人工智能的非技术使用说明书

    据麦肯锡估计,从现在到2030年,人工智能将创造约13万亿美元的美国国内生产总值。相比之下,2017年整个美国的国内生产总值约为19万亿。人工智能已经成为第四次工业革命, 人工智能无疑是数字化转型的核心,它在整个行业中的应用将极大地改变我们的世界以及工业生产方式。 越来越多的人希望投入这场人工智能革命,但他们不知道AI能做什么,AI是一种什么样的技术。 因此本文将介绍什么是AI。 关于人工智能的误解 关于人工智能的炒作从未停止过,许多人对人工智能存在一定的误解。人工智能可分为两部分: 人工窄智能(ANI) 人工窄智能是指擅长一项特定任务的AI ,它们是经过训练和开发的。 例如一个人工智能系统可根据历史数据向您推荐YouTube视频的算法或者预测未来房屋价格。ANI是一个非常强大的工具,它将在未来几年为我们的社会增加许多额外的价值。 我们近年来所看到的所有人工智能进展其实都是人工窄智能。 人工智能(AGI) 人工智能的最终目标是一个比人类聪明或聪明的计算机系统 。 AGI可以成功地完成人类可以做的任何智力任务。 这也是AI引起人们最大恐惧的一部分。 他们想象一个计算机比人类聪明得多的世界,几乎每个工作都是自动化的,甚至是类似终结者的场景。而实际上, 我们仍远远未达到真正的AGI技术水平 。 人工智能相关术语 人工智能是一个非常复杂的领域,里面包括很多术语可能会让你很混乱。 你可能听说过神经网络,深度学习或数据科学。 但并不清楚其中具体的含义以及相互间的关系。 人工智能 人工智能是一个计算机科学领域 ,它强调智能机器的创造,拥有像人类一样工作和反应 。 就像我已经提到的那样,当人们谈论AI时,他们主要是人工智能(AGI)。机器学习和深度学习都是用于使计算机智能操作的技术。 机器学习 机器学习是AI的一个子领域 。 通过一定的算法使计算机能够从数据中学习并执行某项任务。 机器学习项目示例: 想象一下,你是一家房地产公司,你有很多关于房屋的数据。 您与机器学习公司合作,建立机器学习系统,以预测房屋的未来价格。 这样的系统使您能够更好地决定您想要投资的房屋,并找出清算投资的合适时机。 深度学习 深度学习是机器学习的一个子部分,它与机器学习基本相同:你给算法标记数据,然后算法从数据中学习数据规律并进行预测。 与机器学习的不同之处在于深度学习具有更现代,更复杂的算法,而机器学习使用更简单的传统算法。由于它们的复杂性以及足够的数据和计算能力,深度学习算法在准确度上有了重大突破,甚至在其中一些任务上超过人类(例如:组织病理学图像分析,或在Netflix上推荐电影)。 数据科学 数据科学项目的输出通常是一组见解,可帮助您做出更好的业务决策,例如决定是否投资某些东西,是否应该购买某些设备,或者是否应重新构建您的网站。 数据科学是通过统计方法 ,可视化等分析数据来提取数据知识和洞察力的科学 。输出通常是演示文稿或幻灯片帮助管理者做出某些决策的结论。 人工智能术语还包括强化学习,生成性对抗网络(Gans)等。这些都是使AI系统智能化的工具。 数据 数据可以采用多种形式:电子表格,图像,音频,传感器数据等。这些可分为两大类:结构化和非结构化数据。 结构化数据是按照预定义模式以结构化格式存储的数据 。 它指的是驻留在记录或文件中的固定字段中的任何数据。可以是文本的也可以是非文本。 例如泰坦尼克号数据集就是一种结构化数据。 非结构化数据本质上是未通过预定义模式构建的其他所有内容。 它可以是文本的或非文本的, 主要包括图像,视频,音频文件,文档等。 监督学习是最常用的机器学习类型,当人们说“数据”时,它们主要是指标记数据 。例如您有一个数据集,其中包含100,000只狗和猫的照片,其中每张照片都有一个标签,“Cat”或“Dog”。还比如一个包含房价信息的数据集。 每个房屋对应的价格就是标签。 数据获取 您可以在互联网上找到许多问题的数据集(一些是免费的,一些是花钱的),但大多数时候您需要创建自己的数据集,获取数据有三种主要方式: 1.手动创建 假如你想要建立一个分类器检测给定图片上是否有男人或女人。 要训练这样的分类器,你需要搜集一些男女图片。 然后,您需要为每个图像指定一个标签:men(标签1)或女人(标签2)。 2.用户行为 假如您经营一家电子商务公司并希望预测客户何时会进行购买,您可以通过观察用户在您网站上的行为来创建数据集。 3.使用免费数据源 像Kaggle上有许多免费的数据集资源。 还可以使用Google数据搜索 ,如果没有找到任何内容,还可以在数据市场上购买数据集。

    时间:2020-05-31 关键词: 人工智能 机器学习

  • 关于机器学习的一点

    关于机器学习的一点

    统计学习理论是机器学习的重要基础,为许多机器学习算法提供理论支持,通过一些统计学的角度我们试图找出从经验数据中得出有效结论这一过程的数学解释。 简单来说,机器学习主要是将来自输入域的数据经过未知的目标函数映射到输出域的相应数据上。 如果目标函数是已知的,那么我们根本不需要学习,我们只需要按照函数直接计算就好了。 机器学习的基本前提就是使用一组数据来观察和揭示数据中的潜在规律。 机器学习的目标就是从有限的样本数据集中找到一个近似于目标函数的函数。 以机器学习中的监督学习为例,监督学习是从一组带有标记的数据中学习。 训练集中的每个点都是输入 - 输出对的形式,将输入映射到已知输出。 学习目标即为能够找到未知控制规则的最佳算法,这些规则通过对样本数据分布的规律探索,构建一个近似于目标函数的假设函数,来根据输入预测未知的输出。 学习模型的性能或泛化性能是根据其对独立测试数据的预测精度来衡量的。 目前机器学习分为监督学习、无监督学习,其中监督学习又分为分类问题和回归问题,无监督学习则为降维和聚类。每一个分支都包括多种算法,不同算法的思想以及适用范围为我们构建高性能模型提供多种选择。 为了选择最佳模型然后评估其泛化性能,对用于训练算法的样本数据集通常随机分为2组:即训练集、测试集。其中训练集用于算法训练,让算法学习数据中的潜在数据规律,并且通过调整算法的超参数,获得更加准确的算法模型。测试集用于评估不同模型的学习效果,反映模型的性能。 预测误差或泛化误差用来优化模型,在机器学习中,对于任何问题我们建立模型的最终目标都是最小化误差,其中误差主要可以从三个方面来解释:偏差、方差和噪声。噪声也称为“不可避免的误差”,对于噪声我们无能为,因为它仅取决于我们用于训练的数据,我们只能从偏差和方差来改进我们的模型,即寻求偏差-方差的平衡。 如果训练数据集中的数据是由一个固有的随机过程,一个错误的问题,或者特征集是错误的或不完整的,那么任何算法都不会有好的准确率,所以用机器学习算法来解决问题的一个条件就是这个问题是能够解决的,不能是一个未解之谜。这就是为什么数据科学家花费大约19%的时间来寻找好的数据,另外60%的时间用于清理他们收集的数据:数据的质量直接决定机器学习模型准确性, 假设我们正在尝试根据年龄等多个特征的训练数据集来预测人体重量。 年龄可能是预测体重时要考虑的特征之一,但还有许多其他因素表征体重,包括身高,性别,地理位置等。如果仅考虑年龄,那么很可能最终得到一个弱预测器或者一个具有很大泛化误差的学习器。因此,对于给定的一组特征,噪声在真实分布中可能不是真正的噪声。 我们可能根本没有从数据集中选择足够的特征以便能够对真实分布进行建模。 如果算法非常精确地映射给定训练分布的所有数据点,则肯定会对该特定训练数据产生非常小的误差。 然而在对测试数据进行预测时则会有很差的效果,那么你的模型就过拟合了。换句话说,该模型学习能力太强,受到数据中噪声的影响就越大,一般来说,方差可以表示算法对特定训练数据集的敏感性。 高方差表明该算法非常适合数据,并且对于数据分布建立了过于复杂的模型,因此表示模型过度拟合。 另一方面,我们既不能选择过于简单且不够表达的模型来反映事件的数据分布,这时就会出现欠拟合的问题。想象一下,使用线性回归来映射具有非线性模式的训练数据集:线性回归只是一条线而且对于非线性数据集来说太过单一。 通常我们使用偏差来表示机器学习算法无法拟合或不能足够好地表示训练集中数据的分布。 换句话说,偏差给模型所做的简化假设提供了一个维度,使目标函数更容易学习,如果偏差值过大则说明模型欠拟合。因此我们用方差表示过度拟合,偏差表示欠拟合。 从统计学的角度来看,这是一个非常著名的偏差 - 方差平衡问题。能够找到一个能够很好地平衡偏差和方差的算法,我们才能通过最简单的近似模型来获得最佳的泛化性能。为了提高性能,我们可能需要选择不同的算法来得到更大的假设空间和覆盖更广的区域,但是请记住,我们试图接近的目标函数仅来自一组有限的样本数据。 不是来自真实的、完整的。 虽然样本数据是我们学习的全部内容,但有限的数据集只能代表对描述整个现象的实际函数的估计。如果我们非常接近描述样本分布的函数,产生较低的偏差,则风险是当我们使用新建的函数模型预测新的数据就会出现较高的方差。正如我们刚才所说的那样,我们模型的复杂性会影响其性能,我们需要找到一种以定量的方式定义复杂性的方法,其中,Vapnik-Chervonenkis维度是一种广泛使用的方法,可以在偏差和方差两者之间找到适当的平衡点。 VC维与每个模型的参数数量相关,而参数的数量又与模型可以处理的数据点的数量相关联。其主要思想是模型想要近似的数据点数量越多,模型映射它们所需的参数数量就越多,这就增加了复杂性并使模型非常特定于该数据集。 在测量算法复杂度时,VC维度可以帮助我们估计预测误差,为我们提供关于算法是否可以在给定样本数据集的情况下学习和推广的概率评估:与可用训练数据的数量相比较低的VC维度将建议测试错误不会远离训练错误。 总体来说,机器学习就是通过处理得到好的数据,用数据来训练一个能达到我们预期目标的模型,且模型越简单越好。具体算法的选择则可根据我们的日常喜好,能决定模型效果的还是数据的质量,因此锻炼一个很强的数据分析能力是很重要的。

    时间:2020-05-31 关键词: 人工智能 机器学习

  • 人工智能的黑暗秘密该怎样解释

    人工智能的黑暗秘密该怎样解释

    人工智能正渗透到我们现代生活的每一个角落,人工智能可以在Facebook上给你发布的图片上的朋友贴上名字的标签,或者帮你选择在Instagram上看到的图片,而材料科学家和NASA研究人员也开始使用人工智能来帮助发现新科学和太空探索。 但这一技术存在一个核心问题,无论是在社交媒体上还是在火星漫游车中使用过程中,因为建造它的程序员都不知道人工智能做出每一个决定的原因。 现代人工智能仍是一种新事物,在过去的5年,大型科技公司对于人工智能的投资和研究才刚刚开始。而在此之前,已有几十年历史的关于人工智能的理论最终在2012年得到了证实。受人脑的启发,一个人工神经网络依赖于“神经元”之间的成千上万个微小的连接,或者是小范围一串串的数学计算,这类似于大脑中神经元的连接系统。但这种软件架构给我们带来了一种新的权衡:由于数百万个连接的变化如此复杂和微小,研究人员无法准确地确定正在发生的连接结果,他们只会得到一个输出的结果。 “随着机器学习在社会变得越来越普遍而且风险越来越高,人们开始意识到我们不能把这些系统当作可靠和公正的保险箱,”Hanna Wallach在一封电子邮件中告诉Quartz,他是微软的高级研究员,也是会议的发言人。“我们需要了解它们内部发生了什么,以及它们是如何被使用的。” 执行关键任务的人工智能 在美国国家航空航天局的喷气推进实验室中,人工智能能够让火星探测器在探索未知行星表面时能够半自主地运行。人工智能还被用于进行梳理探测器在传回地球时拍摄的数千张照片的过程中。 Kiri Wagstaff是JPL的一名人工智能研究人员和发言人,他说,由于每一个决定都带来了巨大的风险,在使用人工智能之前,我们需要完全理解它的每个决定。 “如果在火星轨道上有一艘宇宙飞船,这代表说它就在2亿英里之外,并且需要数亿美元的费用,甚至可能是十亿美元。如果出了什么问题,一切都难以挽救了。”Wagstaff说:“不花费大量的金钱的话是没有办法修复、访问、或者替换这些东西的。因此,如果我们想让机器学习发挥作用,那么让机器执行这些任务的人需要了解它需要做什么,为什么要去做这个行为,因为如果机器人不知道自己为什么要做出选择,人们为什么会信任它来控制他们昂贵的火星探测器或轨道飞行器呢?” Wagstaff正致力于通过NASA的各种航天器在太空中捕捉到的图像建造人工智能对它们进行分类,由于这些图片的数量可以达到数百万,所以如果人工智能在这庞大的数据库中识别出有趣的照片,那么我们可以节省很多时间来找到我们想要看到的这些照片——但前提是人工智能知道一个“有趣”的图像是什么样的。 对Wagstaf而言,他觉得理解人工智能的目的是实现特定算法的关键。如果执行机器学习过程中在如何使用图像方面存在计算错误,那就意味着数据转移的任务成本价值数百万美元以上。 Wagstaff说:“当你看到一个电脑说‘这很有趣,让我看一看这张图片’时,你就会处于不确定的状态,因为你自己没有完整的看过这百万张照片,你不知道这些哪些是有趣的,或者为什么这是有趣的。”“图片有趣是因为它的颜色,因为它的形状,或者因为场景中物体的空间排列顺序吗?” 隐藏的知识 2007年,康奈尔大学的人工智能教授安德鲁·戈登·威尔逊与一个团队合作开发了一种新型PET扫描机。由于某些粒子在这台机器上与像其他一般的粒子表现的不一样,他的任务是追踪某个粒子穿过一盒氙气的过程。 他的顾问建议尝试使用神经网络来进行监测,而神经网络在当时还是一种比较模糊的概念。利用这种技术,威尔逊能够利用粒子发出的光将其定位在该盒氙气中。 当他得到了他想要的答案之后,威尔逊表示利用该算法用来理解光如何表示粒子位置的内部规则之后,可能将会为接下来的研究开辟了一条新的道路。 威尔逊说:“在某种程度上,一个模型是我们观察得出的理论,我们不仅可以利用模型进行预测,还可以更好地理解为什么这种预测方向是正确的,以及这些自然过程是如何运作的。” 解读能力 不过微软研究人员Wallach说,要在解释性语言能力上开辟新领域,最大的挑战之一就是怎样简单地定义它。 解读能力是否意味着人工智能专家知道为什么Facebook数据的算法会向每个人展示一个特定的帖子,或者说,这是一种能让你了解自己的方式?使用人工智能治疗推荐系统的医生是否需要知道为什么采用特定的建议治疗方案,或者说我们还需要在医院里创建另一个角色——人工智能监测人员? Wallach称解读能力是一种潜在的构想:一种无法察觉的东西,但却被测试了真实的人们如何正确或错误地使用人工智能系统。这不仅仅是提升算法观察以及引擎运行的方式。 了解一种算法并不仅仅是为了防止局限性或确保你的火星漫游者不会从太空悬崖上掉下来,而是可能可以帮助人工智能研究人员建立更精确的系统。 优步公司的Yosinski说:“如果你不知道这个系统不工作的原因,要提高它的性能是相当困难的。”“通常情况下,如果你知道它为什么会工作失败的话,最后必然会找到一个解决方案。” 为了弄清楚其中一种算法是如何思考的,谷歌正试图对每次通过算法处理图像时进行的数百万次计算过程进行层层筛选研究。在NIPS大会上发表的一篇论文中,通过观察树皮和鸟的互动联系,谷歌研究人员Maithra Raghu展示了她修复的之前有问题的哑铃与机器人手臂之间的联系。 当人工智能研究鸟类的图像时,我们可以观察到人工智能网络中哪些神经元被激活,而Raghu能够通过这些数据确定哪些神经元专注于鸟的叫声或者集中在树皮上,最后再把树皮神经元关掉看看会有什么结果。取得这一成功意味着尽管人工智能是一个复杂的产物,但将神经网络的工作转化为人类所理解的东西并非是不可能的事情。 Wagstaff说:“在学校里,我们要求学生用自己的理解来证明他们学到的东西,并展示这些来证明他们的理解是正确的。”“现在我们希望机器也能做同样的事情。”

    时间:2020-05-31 关键词: 人工智能 AI 机器学习

  • 10种机器学习的工具和框架

    10种机器学习的工具和框架

    10种机器学习的工具和框架。 1.亚马逊Sagemaker AWS re:Invent 2017上宣布的一款重大产品就是正式发布的亚马逊Sagemaker,这种新的框架简化了构建机器学习模型并部署到云端的任务。 这项服务对于并不深入了解机器学习的开发人员来说非常有用,因为它为开发人员提供了一系列预先构建的开发环境,基于流行的Jupyter笔记本格式。如果数据科学家不希望花费大量时间,就可以在AWS上构建有效的机器学习系统,并对性能进行微调,就会发现这项服务大有用处。 相关链接: https://datahub.packtpub.com/machine-learning/amazon-sagemaker-machine-learning-service/ 2.DSSTNE DSSTNE(通常名为Destiny)是亚马逊提供的另一款产品,这种开源库被用于开发机器学习模型。它的主要优势在于可以用来训练和部署处理稀疏输入的推荐模型。使用DSSTNE开发的模型经训练后可以使用多个GPU,具有可扩展性,并针对快速性能进行了优化。 该库在GitHub上有近4000颗星,它是2018年值得关注的另一款工具! 相关链接:https://github.com/amzn/amazon-dsstne 3.Azure机器学习工作台 早在2014年,微软就发布了Azure机器学习工具,将机器学习和人工智能功能放到云端。不过这严格来说是一种纯云服务。在今年9月召开的Ignite 2017大会上,微软宣布了下一代Azure端机器学习工具,通过Azure机器学习工作台,为众多企业组织带来机器学习功能。 Azure机器学习工具台是一个跨平台客户软件,它在Windows机器和苹果机器上都可以运行。它是为想要执行数据操纵和处理任务的数据科学家和机器学习开发人员量身打造的。它为确保可扩展性而构建,用户可以从一系列广泛的数据源获得直观的洞察力,并用于数据建模任务。 相关链接:https://azure.microsoft.com/en-in/services/machine-learning-services/ 4.Neon 早在2016年,英特尔宣布斥资3.5亿美元收购Nervana,打算成为人工智能市场的大玩家。Nervana是一家人工智能初创公司,一直在为机器学习开发软硬件。有了Neon,他们现在拥有一个快速、高性能的深度学习框架,专门为了在最近宣布的Nervana神经网络处理器上运行而设计。 Neon在设计当初力求易于使用,并支持与iPython笔记本集成,它支持常见的深度学习模型,比如CNN、RNN、LSTM及其他模型。该框架显示出日臻完善的迹象,在GitHub上有3000多颗星。Neon势必会在未来几年挑战几大深度学习库。 相关链接:https://github.com/NervanaSystems/neon 5.微软DMLT 企业在机器学习方面面临的主要挑战之一是,需要迅速扩展模型,在尽量减少资源使用的同时,又不牺牲性能。微软的分布式机器学习框架(DMLT)旨在做到这一点。DMLT由微软开放源代码,那样它可以从社区获得更广泛的支持。它让机器学习开发人员和数据科学家拿来单机器算法后可以扩大其规模,进而构建高性能分布式模型。 DMLT主要专注于分布式机器学习算法,让你可以轻松地执行诸如字嵌入、采样和梯度提升之类的任务。该框架目前还不支持对深度学习模型进行训练,不过我们预计这项功能很快就会被添加到该框架中。 相关链接:http://www.dmtk.io/ 6.谷歌云机器学习引擎 云机器学习引擎被认为是谷歌主要的机器学习产品,它让你可以比较轻松地针对各种各样的数据来构建机器学习模型。该平台充分利用流行的Tensorflow机器学习框架,可用于执行大规模预测分析。它还让你可以使用流行的HyperTune功能,对机器学习模型的性能进行微调和优化。 由于无服务器架构支持自动监控、配置和扩展,机器学习引擎确保你只需要为想要训练哪种机器学习模型而操心。这项功能尤其适用于期望外出时可以构建大规模模型的机器学习开发人员。 相关链接:https://cloud.google.com/ml-engine/ 7.苹果Core ML Core ML框架由苹果开发,旨在帮助iOS开发人员构建更智能的应用程序,它是让Siri更智能的秘诀。它充分利用CPU的功能和GPU的功能,让开发人员得以构建不同类型的机器学习和深度学习模型,然后这些模型可以无缝集成到iOS应用程序中。Core ML支持所有常用的机器学习算法,比如决策树、支持向量机和线性模型等等。 Core ML的功能针对实际环境的诸多使用场合,比如自然语言处理和计算机视觉等,因而外出时可以在苹果设备上分析数据,无需导入到模型来学习。 相关链接:https://developer.apple.com/machine-learning/ 8.苹果Turi Create 在许多情况下,iOS开发人员想要定制希望集成到所开发的应用程序中的机器学习模型。为此,苹果推出了Turi Create。该库让你得以专注于手头的任务,而不是决定使用哪种算法。那样就可以在数据集、模型需要运行的规模以及需要将模型部署到哪个平台方面做到很灵活。 Turi Create用起来很方便,可用于为推荐、图像处理、文本分类及众多任务构建自定义模型。你只需要对Python有所了解,即可上手! 相关链接:https://github.com/apple/turicreate 9.Convnetjs 深度学习不仅仅出现在超级计算机和机器集群上,现在它还切实出现在你的互联网浏览器上!现在你使用流行的基于Javascript的Convnetjs库,就可以直接在浏览器上训练先进的机器学习和深度学习模型,不需要CPU或GPU。 该库最初由特斯拉公司的现任人工智能主管安德烈?卡帕锡(Andrej Karpathy)编写,此后被开源,在社区的积极贡献下有所扩展。你可以直接在浏览器上轻松训练深度神经网络,甚至训练强化学习模型,这有赖于这个非常独特而有用的库提供支持。这个库适合不想购买专业硬件来训练计算密集型模型的那些人。Convnetjs在GitHub上有近9000颗星,它俨然是2017年的明星项目之一,迅速成为深度学习方面的首选库。 相关链接:http://cs.stanford.edu/people/karpathy/convnetjs/ 10.BigML BigML是一家知名的机器学习公司,为开发机器学习模型提供了一个易于使用的平台。使用BigML的REST API,你可以在其平台上顺畅无阻地训练机器学习模型。它让你可以执行不同的任务,比如异常检测和时间序列预测,还可以构建执行实时预测分析的应用程序。 借助BigML,你可以在本地或在云端部署模型,可以灵活地选择运行机器学习模型所需要的那种环境。BigML恪守承诺,力求“使机器学习对每个人而言都异常简单”。 由于微软、亚马逊和谷歌都竞相成为人工智能领域的霸主,2018年可能会是人工智能领域发展迎来突破的一年。除此之外还有旨在为用户简化机器学习的各种开源库,还有一大堆的工具和框架需要密切关注。令人兴奋的是,它们都有能力成为下一个TensorFlow,带来下一场AI颠覆。

    时间:2020-05-30 关键词: 机器学习

  • 人工智能学习路线六步走怎么走

    人工智能学习路线六步走怎么走

    1、学习并掌握一些数学知识 高等数学是基础中的基础,一切理工科都需要这个打底,数据挖掘、人工智能、模式识别此类跟数据打交道的又尤其需要多元微积分运算基础线性代数很重要,一般来说线性模型是你最先要考虑的模型,加上很可能要处理多维数据,你需要用线性代数来简洁清晰的描述问题,为分析求解奠定基础概率论、数理统计、随机过程更是少不了,涉及数据的问题,不确定性几乎是不可避免的,引入随机变量顺理成章,相关理论、方法、模型非常丰富。很多机器学习的算法都是建立在概率论和统计学的基础上的,比如贝叶斯分类器、高斯隐马尔可夫链。 再就是优化理论与算法,除非你的问题是像二元一次方程求根那样有现成的公式,否则你将不得不面对各种看起来无解但是要解的问题,优化将是你的GPS为你指路有以上这些知识打底,就可以开拔了,针对具体应用再补充相关的知识与理论,比如说一些我觉得有帮助的是数值计算、图论、拓扑,更理论一点的还有实/复分析、测度论,偏工程类一点的还有信号处理、数据结构。 2、掌握经典机器学习理论和算法 如果有时间可以为自己建立一个机器学习的知识图谱,并争取掌握每一个经典的机器学习理论和算法,我简单地总结如下: 1) 回归算法:常见的回归算法包括最小二乘法(OrdinaryLeast Square),逻辑回归(Logistic Regression),逐步式回归(Stepwise Regression),多元自适应回归样条(MulTIvariateAdapTIve Regression Splines)以及本地散点平滑估计(Locally EsTImated Scatterplot Smoothing); 2) 基于实例的算法:常见的算法包括 k-Nearest Neighbor(KNN), 学习矢量量化(Learning Vector QuanTIzation, LVQ),以及自组织映射算法(Self-Organizing Map , SOM); 3) 基于正则化方法:常见的算法包括:Ridge Regression, Least Absolute Shrinkage and Selection Operator(LASSO),以及弹性网络(Elastic Net); 4) 决策树学习:常见的算法包括:分类及回归树(ClassificationAnd Regression Tree, CART), ID3 (Iterative Dichotomiser 3), C4.5, Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 随机森林(Random Forest), 多元自适应回归样条(MARS)以及梯度推进机(Gradient Boosting Machine, GBM); 5) 基于贝叶斯方法:常见算法包括:朴素贝叶斯算法,平均单依赖估计(AveragedOne-Dependence Estimators, AODE),以及Bayesian Belief Network(BBN); 6) 基于核的算法:常见的算法包括支持向量机(SupportVector Machine, SVM), 径向基函数(Radial Basis Function ,RBF), 以及线性判别分析(Linear Discriminate Analysis ,LDA)等; 7) 聚类算法:常见的聚类算法包括 k-Means算法以及期望最大化算法(Expectation Maximization, EM); 8) 基于关联规则学习:常见算法包括 Apriori算法和Eclat算法等; 9) 人工神经网络:重要的人工神经网络算法包括:感知器神经网络(PerceptronNeural Network), 反向传递(Back Propagation), Hopfield网络,自组织映射(Self-OrganizingMap, SOM)。学习矢量量化(Learning Vector Quantization, LVQ); 10)深度学习:常见的深度学习算法包括:受限波尔兹曼机(RestrictedBoltzmann Machine, RBN), Deep Belief Networks(DBN),卷积网络(Convolutional Network), 堆栈式自动编码器(Stacked Auto-encoders); 11)降低维度的算法:常见的算法包括主成份分析(PrincipleComponent Analysis, PCA),偏最小二乘回归(Partial Least Square Regression,PLS), Sammon映射,多维尺度(Multi-Dimensional Scaling, MDS),投影追踪(ProjectionPursuit)等; 12)集成算法:常见的算法包括:Boosting, Bootstrapped Aggregation(Bagging),AdaBoost,堆叠泛化(Stacked Generalization, Blending),梯度推进机(GradientBoosting Machine, GBM),随机森林(Random Forest)。 3、掌握一种编程工具,比如Python 一方面Python是脚本语言,简便,拿个记事本就能写,写完拿控制台就能跑;另外,Python非常高效,效率比java、r、matlab高。matlab虽然包也多,但是效率是这四个里面最低的。 4、了解行业最新动态和研究成果,比如各大牛的经典论文、博客、读书笔记、微博微信等媒体资讯。 5、买一个GPU,找一个开源框架,自己多动手训练深度神经网络,多动手写写代码,多做一些与人工智能相关的项目。 6、选择自己感兴趣或者工作相关的一个领域深入下去人工智能有很多方向,比如NLP、语音识别、计算机视觉等等,生命有限,必须得选一个方向深入的专研下去,这样才能成为人工智能领域的大牛,有所成就。

    时间:2020-05-30 关键词: 人工智能 机器学习

  • 关于机器学习你了解多少

    关于机器学习你了解多少

    1. 一些基本概念 图1. 机器学习的基本过程 训练集(Training Set):为了研究一个变量(x)与另一个变量(y)的关系,而通过观察、测量等方式获得的一组数据。这组数据中收集了x和与之对应的y——一个数据对(x, y)。例如我们要研究房屋面积(x)和售价(y)之间的关系,每观察一套已出售的房屋,就得到一个数据对(x, y)。观察10套已出售的房屋,就可以得到10个这样的数据对,这时就得到了一个用来研究房屋面积和售价之间的关系的训练集了(虽然样本量比较小)。这些数据集一般采集自现实环境中,属于现象(我们的目的是透过现象看本质)。 样本(Sample):训练集中采集数据的对象就是一个样本,例如一套已出售的房屋。 模型(Model):由于某些历史原因,机器学习中的模型也被叫做假设(hypothesis, h),这个h就是我们透过现象想要寻找的“本质”。建立模型的过程通常就是确定一个函数表达式的过程(是否还记得寒假作业中的这类题目:观察一组数,写出下一个数是什么?)。最常见的模型是回归模型(线性回归或逻辑回归等),例如我们假设房屋面积与售价之间的关系是一个线性回归模型,则可以写成: h(θ)=θ0+θ1x…(1)h(θ)=θ0+θ1x…(1) 其中h是函数(可能更习惯叫做y,但在机器学习中y一般表示已知的函数值,即后面的因变量;这里的h相当于预测得到的y),θ是函数的参数(也可以看做是每个自变量的权重,权重越大,对y的影响也越大),x是自变量。 训练模型(Training Model):选定模型(选择合适的模型需要丰富的经验)后,函数的一般形式就确定了。通常所说的训练模型是指利用训练集求解函数的待定参数的过程。上面的(1)式与直线方程的一般形式y = ax + b是相同的,这里不过换了一种写法。此时我们知道模型是一条直线,为了确定这条直线的确定方程,我们需要求出两个未知的参数——θ0(截距)和θ1(斜率),如果训练集中只有两个样本,那就只是求一个二元二次方程组就解决问题了。 特征(Feature):特征就是在一个模型中,所有想研究的自变量(x)的集合。例如我们在研究房屋售价的模型中,所有可能影响售价的因素都可以看成是一个特征,房屋面积、所在城市、房间个数等。在建立模型的过程中,特征的选择是一个大学问,甚至有专门的分支来研究特征选择或特征表示。 2. 训练集的表示 上面提到过,训练集就是许多的(x, y)数据对的集合。其中x是因变量,y是自变量。通常认为x的变化引起了y的改变,即x的值决定了y的值。在预测房屋价格的模型中,假如我们能找到所有影响房屋价格的因素(所有的x),并且确定各个因素准确的参数(θ),那么理论上可以准确的预测出任何房屋的价格(y)。 2.1 单因素训练集中自变量的表示方法 单因素相当于方程中只有一个自变量,这个自变量可以用一个小写字母x来表示; 如果收集了多个样本,则通过在右上角添加带括号的角标的方式区分,表示为x(1), x(2), 。。., x(m),其中m表示样本的个数; 矩阵的表示:向量一般用小写字母表示,矩阵用大写字母表示。所有单因素样本中的x可以用一个m x 1(m行1列)的列向量x(小写字母)(只有一列的矩阵就是一个列向量)来表示: ⎞⎠⎟⎟⎟⎟⎟x=(x(1)x(2)⋮x(m)) 2.2 多因素训练集中自变量的表示方法 多因素相当于方程中有多个自变量(多个feature),不同的自变量之间使用右下角添加不带括号的角标来区分,表示为x1, x2, 。。., xn,其中n表示feature的个数; 当存在多个样本时,可以用一个m x n(m行n列)的矩阵X(大写字母)来表示: ⎤⎦⎥⎥⎥⎥⎥⎥⎥X=[x1(1)x2(1)…xn(1)x1(2)x2(2)…xn(2)⋮⋮⋱⋮x1(m)x2(m)…xn(m)] 2.3 训练集中因变量的表示方法 无论是单因素还是多因素,每一个样本中都只包含一个因变量(y),因此只需要区分不同样本间的y,y(1), y(2), 。。., y(m),其中m表示样本的个数; 用列向量y表示为: ⎞⎠⎟⎟⎟⎟⎟y=(y(1)y(2)⋮y(m)) 3. 参数的表示 也许是某种约定,在机器学习中,一般都是用θ来表示参数,参数是自变量X的参数(也可以看做是每个自变量的权重,权重越大的自变量对y的影响也越大),理论上,有多少个自变量就有多少个参数,但就像在直线方程y = ax + b中表现出来的那样,除了x的参数a,还有一个常数项b。因此参数一般比自变量的个数多一个,当有n个自变量的时候,会有n+1个参数。 最终的模型是由一个特定的方程来表示的,在训练模型的过程中,确定了这个方程中的未知参数。这些参数对于所有的样本都是相同的,例如第一个样本x(1)中的第一个自变量x1的参数与任意其他样本x(i)中第一个自变量x1的参数是相同的。因此不用区分样本间的参数,只用区分不同自变量之间的参数,可以使用一个n+1维的列向量θ来表示所有的参数: ⎞⎠⎟⎟⎟⎟θ=(θ0θ1⋮θn) 4. 模型的表示 这里说的模型就是一个特定的函数,上面已经提过,模型一般使用h来表示。下面用线性回归模型来举例说明模型的符号表示。 4.1 直接表示 直接表示方法是我们在没有学习线性代数之前的代数表示方式。 单变量线性回归方程: hθ(x)=θ0+θ1xhθ(x)=θ0+θ1x 多变量线性回归方程: nhθ(x)=θ0+θ1x1+θ2x2+θ3x3+…+θnxn 4.2 矩阵表示 学习了线性代数后,可以使用矩阵来表示上面的方程,不仅表示起来方便,直接进行矩阵运算效率也更高效。在这里需要特别说明的一点是,为了配合矩阵的表示,在上面的方程中添加了x0,并且x0=1,且将θ0作为x0的参数。 单变量/多变量线性回归方程: ⎤⎦⎥⎥⎥⎥hθ(x)=Xθ=[x0(1)x1(1)…xn(1)x0(2)x1(2)…xn(2)⋮⋮⋱⋮x0(m)x1(m)…xn(m)][θ0θ1⋮θn] ,此时X是一个m x (n+1)的矩阵,每一行表示一个样本,每一列表示一个特征,结果是一个m x 1的列向量,其中m表示样本的个数,n表示变量的个数(X中的每一列具有同样的参数,一列表示在不同的样本中同一个特征的取值); 当只有一个样本多个变量时,还可以表示为: ⎤⎦⎥⎥⎥⎥hθ(x)=θTx=[θ0θ1…θn][x0x1⋮xn] ,此时x是一个(n+1)维的列向量,每一行表示一个变量的值。

    时间:2020-05-30 关键词: 模型 机器学习

  • 机器学习有哪一些算法

    机器学习有哪一些算法

    机器学习 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 严格的定义:机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问。这里所说的“机器”,指的就是计算机,电子计算机,中子计算机、光子计算机或神经计算机等等。 机器学习概论 由上图所示:机器学习分为四大块: classification (分类) clustering (聚类) regression (回归) dimensionality reducTIon (降维) classificaTIon & regression 举一个简单的例子: 给定一个样本特征 x, 我们希望预测其对应的属性值 y, 如果 y 是离散的, 那么这就是一个分类问题,反之,如果 y 是连续的实数, 这就是一个回归问题。 如果给定一组样本特征 S={x∈RD}, 我们没有对应的 y, 而是想发掘这组样本在 D 维空间的分布, 比如分析哪些样本靠的更近,哪些样本之间离得很远, 这就是属于聚类问题。 如果我们想用维数更低的子空间来表示原来高维的特征空间, 那么这就是降维问题。 无论是分类还是回归,都是想建立一个预测模型 H,给定一个输入 x, 可以得到一个输出 y:y=H(x) 不同的只是在分类问题中, y 是离散的; 而在回归问题中 y 是连续的。所以总得来说,两种问题的学习算法都很类似。所以在这个图谱上,我们看到在分类问题中用到的学习算法,在回归问题中也能使用。分类问题最常用的学习算法包括 SVM (支持向量机) , SGD (随机梯度下降算法), Bayes (贝叶斯估计), Ensemble, KNN 等。而回归问题也能使用 SVR, SGD, Ensemble 等算法,以及其它线性回归算法。 clustering 聚类也是分析样本的属性, 有点类似classificaTIon, 不同的就是classificaTIon 在预测之前是知道 y 的范围, 或者说知道到底有几个类别, 而聚类是不知道属性的范围的。所以 classification 也常常被称为 supervised learning, 而clustering就被称为 unsupervised learning。 clustering 事先不知道样本的属性范围,只能凭借样本在特征空间的分布来分析样本的属性。这种问题一般更复杂。而常用的算法包括 k-means (K-均值), GMM (高斯混合模型) 等。 dimensionality reduction 降维是机器学习另一个重要的领域, 降维有很多重要的应用, 特征的维数过高, 会增加训练的负担与存储空间, 降维就是希望去除特征的冗余, 用更加少的维数来表示特征。 降维算法最基础的就是PCA了, 后面的很多算法都是以PCA为基础演化而来。 机器学习常见算法 机器学习领域涉及到很多的算法和模型,这里遴选一些常见的算法: 正则化算法(Regularization Algorithms) 集成算法(Ensemble Algorithms) 决策树算法(Decision Tree Algorithm) 回归(Regression) 人工神经网络(Artificial Neural Network) 深度学习(Deep Learning) 支持向量机(Support Vector Machine) 降维算法(Dimensionality Reduction Algorithms) 聚类算法(Clustering Algorithms) 基于实例的算法(Instance-based Algorithms) 贝叶斯算法(Bayesian Algorithms) 关联规则学习算法(Association Rule Learning Algorithms) 图模型(Graphical Models) 正则化算法 正则化算法是另一种方法(通常是回归方法)的拓展,这种方法会基于模型复杂性对其进行惩罚,它喜欢相对简单能够更好的泛化的模型。 正则化中我们将保留所有的特征变量,但是会减小特征变量的数量级(参数数值的大小θ(j))。这个方法非常有效,当我们有很多特征变量时,其中每一个变量都能对预测产生一点影响。 算法实例: 岭回归(Ridge Regression) 最小绝对收缩与选择算子(LASSO) GLASSO 弹性网络(Elastic Net) 最小角回归(Least-Angle Regression) 集成算法 集成方法是由多个较弱的模型集成模型组,其中的模型可以单独进行训练,并且它们的预测能以某种方式结合起来去做出一个总体预测。这类算法又称元算法(meta-algorithm)。最常见的集成思想有两种bagging和boosting。 boosting 基于错误提升分类器性能,通过集中关注被已有分类器分类错误的样本,构建新分类器并集成。 bagging 基于数据随机重抽样的分类器构建方法。 算法实例: Boosting Bootstrapped Aggregation(Bagging) AdaBoost 层叠泛化(Stacked Generalization)(blending) 梯度推进机(Gradient Boosting Machines,GBM) 梯度提升回归树(Gradient Boosted Regression Trees,GBRT) 随机森林(Random Forest) 总结:当先最先进的预测几乎都使用了算法集成。它比使用单个模型预测出来的结果要精确的多。但是该算法需要大量的维护工作。 详细讲解:机器学习算法之集成算法 决策树算法 决策树学习使用一个决策树作为一个预测模型,它将对一个 item(表征在分支上)观察所得映射成关于该 item 的目标值的结论(表征在叶子中)。 决策树通过把实例从艮节点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每一个结点指定了对实例的某个属性的测试,并且该结点的每一个后继分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根节点开始,测试这个结点的属性,然后按照给定实例的属性值对应的树枝向下移动。然后这个过程在以新结点的根的子树上重复。 算法实例: 分类和回归树(Classification and Regression Tree,CART) Iterative Dichotomiser 3(ID3) C4.5 和 C5.0(一种强大方法的两个不同版本) 回归算法 回归是用于估计两种变量之间关系的统计过程。当用于分析因变量和一个 多个自变量之间的关系时,该算法能提供很多建模和分析多个变量的技巧。具体一点说,回归分析可以帮助我们理解当任意一个自变量变化,另一个自变量不变时,因变量变化的典型值。最常见的是,回归分析能在给定自变量的条件下估计出因变量的条件期望。 算法实例: 普通最小二乘回归(Ordinary Least Squares Regression,OLSR) 线性回归(Linear Regression) 逻辑回归(Logistic Regression) 逐步回归(Stepwise Regression) 多元自适应回归样条(Multivariate Adaptive Regression Splines,MARS) 本地散点平滑估计(Locally Estimated Scatterplot Smoothing,LOESS) 人工神经网络 人工神经网络是受生物神经网络启发而构建的算法模型。它是一种模式匹配,常被用于回归和分类问题,但拥有庞大的子域,由数百种算法和各类问题的变体组成。 人工神经网络(ANN)提供了一种普遍而且实际的方法从样例中学习值为实数、离散值或向量函数。人工神经网络由一系列简单的单元相互连接构成,其中每个单元有一定数量的实值输入,并产生单一的实值输出。 算法实例: 感知器 反向传播 Hopfield 网络 径向基函数网络(Radial Basis Function Network,RBFN) 深度学习 深度学习是人工神经网络的最新分支,它受益于当代硬件的快速发展。 众多研究者目前的方向主要集中于构建更大、更复杂的神经网络,目前有许多方法正在聚焦半监督学习问题,其中用于训练的大数据集只包含很少的标记。 算法实例: 深玻耳兹曼机(Deep Boltzmann Machine,DBM) Deep Belief Networks(DBN) 卷积神经网络(CNN) Stacked Auto-Encoders 支持向量机 支持向量机是一种监督式学习 (Supervised Learning)的方法,主要用在统计分类 (Classification)问题和回归分析 (Regression)问题上。支持向量机属于一般化线性分类器,也可以被认为是提克洛夫规范化(Tikhonov Regularization)方法的一个特例。这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区,因此支持向量机也被称为最大边缘区分类器。现在多简称为SVM。 给定一组训练事例,其中每个事例都属于两个类别中的一个,支持向量机(SVM)训练算法可以在被输入新的事例后将其分类到两个类别中的一个,使自身成为非概率二进制线性分类器。 SVM 模型将训练事例表示为空间中的点,它们被映射到一幅图中,由一条明确的、尽可能宽的间隔分开以区分两个类别。 降维算法 所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x-》y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的。 这一算法可用于可视化高维数据或简化接下来可用于监督学习中的数据。许多这样的方法可针对分类和回归的使用进行调整。 算法实例: 主成分分析(Principal Component Analysis (PCA)) 主成分回归(Principal Component Regression (PCR)) 偏最小二乘回归(Partial Least Squares Regression (PLSR)) Sammon 映射(Sammon Mapping) 多维尺度变换(Multidimensional Scaling (MDS)) 投影寻踪(Projection Pursuit) 线性判别分析(Linear Discriminant Analysis (LDA)) 混合判别分析(Mixture Discriminant Analysis (MDA)) 二次判别分析(Quadratic Discriminant Analysis (QDA)) 灵活判别分析(Flexible Discriminant Analysis (FDA)) 聚类算法 聚类算法是指对一组目标进行分类,属于同一组(亦即一个类,cluster)的目标被划分在一组中,与其他组目标相比,同一组目标更加彼此相似。 优点是让数据变得有意义,缺点是结果难以解读,针对不同的数据组,结果可能无用。 算法实例: K-均值(k-Means) k-Medians 算法 Expectation Maximi 封层 ation (EM) 最大期望算法(EM) 分层集群(Hierarchical Clstering) 贝叶斯算法 贝叶斯定理(英语:Bayes‘ theorem)是概率论中的一个定理,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们如何利用新证据修改已有的看法。贝叶斯方法是指明确应用了贝叶斯定理来解决如分类和回归等问题的方法。 算法实例: 朴素贝叶斯(Naive Bayes) 高斯朴素贝叶斯(Gaussian Naive Bayes) 多项式朴素贝叶斯(Multinomial Naive Bayes) 平均一致依赖估计器(Averaged One-Dependence Estimators (AODE)) 贝叶斯信念网络(Bayesian Belief Network (BBN)) 贝叶斯网络(Bayesian Network (BN)) 关联规则学习算法 关联规则学习方法能够提取出对数据中的变量之间的关系的最佳解释。比如说一家超市的销售数据中存在规则 {洋葱,土豆}=》 {汉堡},那说明当一位客户同时购买了洋葱和土豆的时候,他很有可能还会购买汉堡肉。有点类似于联想算法。 算法实例: Apriori 算法(Apriori algorithm) Eclat 算法(Eclat algorithm) FP-growth 图模型 图模型(GraphicalModels)在概率论与图论之间建立起了联姻关系。它提供了一种自然工具来处理应用数学与工程中的两类问题——不确定性(Uncertainty)和复杂性(Complexity)问 题,特别是在机器学习算法的分析与设计中扮演着重要角色。图模型的基本理念是模块化的思想,复杂系统是通过组合简单系统建构的。概率论提供了一种粘合剂使 系统的各个部分组合在一起,确保系统作为整体的持续一致性,提供了多种数据接口模型方法。 图模型或概率图模型(PGM/probabilistic graphical model)是一种概率模型,一个图(graph)可以通过其表示随机变量之间的条件依赖结构(conditional dependence structure)。 算法实例: 贝叶斯网络(Bayesian network) 马尔可夫随机域(Markov random field) 链图(Chain Graphs) 祖先图(Ancestral graph)

    时间:2020-05-30 关键词: 机器学习

  • 机器学习是不是要取代工作

    机器学习是不是要取代工作

    围绕人工智能和自动化的争论似乎一直都是悲观主义者占主导,他们担心机器人会取代所有的工作,而乐观主义者则不以为然。但麻省理工学院Sloan教授Erik Brynjolfsson和他的同事们表示,争论需要不同的观点。 新的研究发现,在不久的将来,自动化将取代工作中的特定任务,而不是整个职业本身,其中一些工作比其他工作受到的影响更大。 研究人员在5月份在美国经济协会论文和会议刊物上发表的一篇文章中写道,“我们的研究结果表明,在关于人工智能的影响的辩论中需要转变:从整体上关注整个工作的完全自动化和普遍的职业替代,以重新设计工作和商业实践的再造。”该研究是由Brynjolfsson和卡内基梅隆大学机器学习系的Tom Mitchell教授和麻省理工学院数字经济学博士研究生兼研究员Daniel Rock共同完成的。 Brynjolfsson说,“不管好莱坞怎么说,我们离通用人工智能还很遥远。那种AI可以做人类能做的一切事情。我们没有任何东西接近它,除非有惊人的突破,否则未来几十年仍然如此。” Brynjolfsson说,我们所拥有的是功能强大的窄AI系统,通常使用深度神经网络能够解决人类或超人类准确度的特定问题。这些技术擅长涉及预测分析、语音和图像识别以及自然语言处理等任务。 他说,“但那不是一切,这只是部分事情。这提出了一个明显的问题:这个惊人的AI能做得好哪些事情,哪些是他们做不了的任务?” 为了回答这些问题,研究人员开发了一个有23道问题的测试,以确定任务是否适合机器学习。Brynjolfsson说,这个测试中的任务分数的高低表明了自动化和机器学习的敏感程度。他和Tom Mitchell于2017年12月在《科学》杂志上发表了最初的专栏文章。 他说,“任何一个经理都可以利用这个测试,如果他们想用机器学习来完成任务,那么这个测试应该能给他们一些指导。有很多很适合机器学习的任务,然而大多数公司真的只是抓住了表面。” 研究人员想进一步研究这个想法。由于工作只是各种任务的集合,所以还可以使用这些标准来衡量整个职业对机器学习的适用性。使用联邦劳工统计局的数据,这正是他们为美国经济中超过900个不同职业所做的一切,从经济学家和首席执行官到卡车司机和学校教师。 研究人员写道,“历史上,自动化技术一直是提高工业生产力的关键驱动力,它们也曾系统地破坏了就业和工资结构。然而,我们的分析表明,与早期的自动化浪潮相比,机器学习会影响劳动力的不同部分。..。..机器学习技术可以转变经济中的许多工作,但完全自动化不如流程再造和重组任务。” Brynjolfsson说,举个例子,放射科医生有26项与其工作相关的不同任务。阅读医学图像是一项非常适合机器学习的任务,计算机开始比人类更擅长图像识别。但是,像将医疗信息传递给患者这样的人际交往能力并不是机器能容易且有效地执行,他说。 “几乎在每个职业中,活多或少有一些任务可能会受到影响,但是在每个职业中也有许多任务不会。也就是说,一些职业的任务确实比较多,可能会受到机器学习的影响。” Brynjolfsson表示,注意到像礼宾服务这样的工作可能并且正在被大多数基于从谷歌等公司的机器学习服务取代。该研究表明,像按摩治疗师这样的机器学习潜力不大的职业可能影响最小。 研究人员建议,在每一个职业中,了解通过机器学习可以实现高度自动化的任务,将它们从其他任务中分离出来,并重新组织工作以适应这些发展。机器学习可以做他们最理想的任务,他们写道,而人力劳动可以被解放出来做更多的机器学习活动不太适合,从而提高利润率。 研究人员写道,这并不是说机器学习的新发展不会对未来的就业和经济产生更广泛的影响。“为了匹配未来机器学习领域不断发展的状态,将需要相应地更新测试。”

    时间:2020-05-30 关键词: 机器学习

  • 完整机器的学习项目的工作流程是什么样的

    完整机器的学习项目的工作流程是什么样的

    现在机器学习应用非常流行,了解机器学习项目的流程,能帮助我们更好的使用机器学习工具来处理实际问题。 1. 理解实际问题,抽象为机器学习能处理的数学问题 理解实际业务场景问题是机器学习的第一步,机器学习中特征工程和模型训练都是非常费时的,深入理解要处理的问题,能避免走很多弯路。理解问题,包括明确可以获得的数据,机器学习的目标是分类、回归还是聚类。如果都不是的话,考虑将它们转变为机器学习问题。参考机器学习分类能帮助从问题提炼出一个合适的机器学习方法。 2. 获取数据 获取数据包括获取原始数据以及从原始数据中经过特征工程从原始数据中提取训练、测试数据。机器学习比赛中原始数据都是直接提供的,但是实际问题需要自己获得原始数据。“ 数据决定机器学习结果的上限,而算法只是尽可能的逼近这个上限”,可见数据在机器学习中的作用。总的来说数据要有具有“代表性”,对于分类问题,数据偏斜不能过于严重,不同类别的数据数量不要有数个数量级的差距。不仅如此还要对评估数据的量级,样本数量、特征数量,估算训练模型对内存的消耗。如果数据量太大可以考虑减少训练样本、降维或者使用分布式机器学习系统。 3. 特征工程 特征工程是非常能体现一个机器学习者的功底的。特征工程包括从原始数据中特征构建、特征提取、特征选择,非常有讲究。深入理解实际业务场景下的问题,丰富的机器学习经验能帮助我们更好的处理特征工程。特征工程做的好能发挥原始数据的最大效力,往往能够使得算法的效果和性能得到显著的提升,有时能使简单的模型的效果比复杂的模型效果好。数据挖掘的大部分时间就花在特征工程上面,是机器学习非常基础而又必备的步骤。数据预处理、数据清洗、筛选显著特征、摒弃非显著特征等等都非常重要,建议深入学习。 4. 模型训练、诊断、调优 现在有很多的机器学习算法的工具包,例如sklearn,使用非常方便,真正考验水平的根据对算法的理解调节参数,使模型达到最优。当然,能自己实现算法的是最牛的。模型诊断中至关重要的是判断过拟合、欠拟合,常见的方法是绘制学习曲线,交叉验证。通过增加训练的数据量、降低模型复杂度来降低过拟合的风险,提高特征的数量和质量、增加模型复杂来防止欠拟合。诊断后的模型需要进行进一步调优,调优后的新模型需要重新诊断,这是一个反复迭代不断逼近的过程,需要不断的尝试,进而达到最优的状态。 5. 模型验证、误差分析 模型验证和误差分析也是机器学习中非常重要的一步,通过测试数据,验证模型的有效性,观察误差样本,分析误差产生的原因,往往能使得我们找到提升算法性能的突破点。误差分析主要是分析出误差来源与数据、特征、算法。 6 。 模型融合 一般来说实际中,成熟的机器算法也就那么些,提升算法的准确度主要方法是模型的前端(特征工程、清洗、预处理、采样)和后端的模型融合。在机器学习比赛中模型融合非常常见,基本都能使得效果有一定的提升。这篇博客中提到了模型融合的方法,主要包括一人一票的统一融合,线性融合和堆融合。

    时间:2020-05-30 关键词: 人工智能 机器学习

  • 机器学习常见的误区有哪些

    机器学习常见的误区有哪些

    在最近的一次报告中,Ben Hamner向我们介绍了他和他的同事在Kaggle比赛中看到的一些机器学习项目的常见误区。 在这篇文章中,我们将从Ben的报告中了解一些常见的误区,它们是什么及如何避免陷入这些误区。 机器学习的过程 在报告之前,Ben向我们展示了一个解决机器学习问题大体流程。 机器学习流程,摘自Ben Hamner的《机器学习小精灵》 这个流程包括如下9步: 以一个行业问题开始 源数据 切分数据 选择一个评价标准 进行特征提取 训练模型 特征选择 模型选择 生产系统 Ben强调这个过程是迭代的过程,而非线性的。 他也谈及在这个过程中的每一步都可能出错,每个错误都可能使整个机器学习过程难以达到预期效果。 鉴别狗和猫 Ben提出了一个研究建造一个“自动猫门”的案例,这个“门”对猫开放而对狗关闭。这是一个启发性的例子,因为它设计到了处理数据问题上的一系列关键问题。 鉴别狗和猫,摘自Ben Hamner的《机器学习小精灵》 样本大小 这个例子的第一个卖点就是,模型学习的准确度与数据样本大小有关,并展示更多的样本与更好的准确度之间的关系。 他通过不断增加训练数据,直到模型准确度趋于稳定。这个例子能够很好让你了解,你的系统对样本大小及相应调整有多敏感。 错误的问题 第二个卖点就是这个系统失败了,它对所有的猫都拒之门外。 这个例子突出了理解我们需要解决的问题的约束是非常重要的,而不是关注你想解决的问题。 机器学习工程中的误区 Ben接着讨论了解决机器学习问题中的4个常见误区。 虽然这些问题非常常见,但是他指出它们相对比较容易被识别及解决。 过拟合,摘自Ben Hamner的《机器学习小精灵》 数据泄露:利用模型中的生产系统不能访问的数据。在时序问题中这个问题特别常见。也可能发生在像系统id的数据上,id可能表示一个类标签。运行模型并且仔细查看有助于系统的特征。完整检查并考虑其是否有意义。 过拟合:在训练数据上建模太精密,同时模型中又存在一些噪声点。这时过拟合会降低模型的扩展能力, 其在更高的维度与更复杂的类界限下更甚。 数据采用和切分:相对于数据泄露,你需要非常小心地知道训练、测试、交叉检验数据集是否是真正的独立数据集。对于时序问题,很多想法和工作需要保证可以按时间顺序给系统回复数据和验证模型的准确性。 数据质量:检查你的数据的一致性。Ben给了一个航班起飞及着陆地点的数据,很多不一致,重复及错误的数据需要被识别及明确地处理。这些数据会直接损害建模及模型的扩展能力。

    时间:2020-05-30 关键词: AI 机器学习

  • 现在谈AI革命是不是为时过早了

    现在谈AI革命是不是为时过早了

    人工智能(AI)已经成为当今时代的口号。技术专家、学者、记者、风险投资家都在说这个词。跟其他许多从技术或学术领域流入普通大众的词语一样,“AI”这个词的使用也存在严重的误解。 人工智能(AI)已经成为当今时代的口号。 技术专家、学者、记者、风险投资家都在说这个词。跟其他许多从技术或学术领域流入普通大众的词语一样,“AI”这个词的使用也存在严重的误解。 然而,跟其他领域中公众不理解科学家在做的事情不一样,对于“AI”,科学家们经常和公众一样困惑。 某种程度上,我们这个时代正在看到一种与我们人类的智能相匹敌的硅基智能的出现,这既让所有人感到兴奋,让我们着迷,同时也让我们感到恐惧。不幸的是,它分散了我们的注意力。 我们急需发展构建推理和决策系统的原则 我们可以从另一个角度来讲述这个时代。有这样一个故事,其中涉及人类、计算机、数据和生死抉择,但重点不仅仅是硅基智能这类的幻想。 14年前,我的妻子怀孕时,我们做了超声波检查。医生是一位遗传学家,她指出胎儿心脏周围有一些白点。“这些都是唐氏综合症的标志,”她说,“现在你的风险已经上升到20分之一了。”她告诉我们,可以通过羊膜穿刺术了解胎儿是否真的有唐氏综合症基因畸变,但羊膜穿刺术存在风险——在穿刺术过程中胎儿死亡的几率大约是300分之一。 作为一名统计学家,我决定找出这些数字的来源。在我的研究中,我发现十年前英国有人做过一项统计分析,这些反映钙沉积的白点确实被认为是唐氏综合症的预测因子。我还注意到,我们做检查时使用的成像机每平方英寸的像素比英国研究中使用的成像机多几百个像素。我回去告诉遗传学家,我相信那些白点很可能是假阳性,也就是字面上的白噪音。 她说:“啊,这就解释了为什么我们几年前开始发现唐氏综合症的诊断有上升趋势。那恰好是新机器运来的时候。” 我们没有做羊膜穿刺术,几个月后妻子生下一个健康的女孩。但这件事一直让我放不下,尤其是我知道由于一次粗略的计算,那天可能有成千上万的人得到同样诊断,然后许多人选择做羊膜穿刺术,造成许多婴儿不必要的死亡。 这件事揭示的问题不是我个人的医疗问题;它关乎一个医疗系统,在不同的地点和时间测量变量和结果,进行统计分析,并在其他情况下使用结果。 这个问题不仅与数据分析本身有关,而且与数据库研究人员所称的“溯源”(provenance)有关——数据来自哪里,从数据中得出了什么推论,这些推论与当前的情况有多大关系?虽然专业人士可能在遇到个案时能逐步解决这些问题,但问题是设计一个行星级规模的医疗系统,该系统要能在不需要如此详细的人类监督的情况下做到这一点。 我也是一名计算机科学家,我突然想到,在我所受的教育中,根本找不到构建这种行星级规模的推理和决策系统所需要的原则,这些原则融合了计算机科学和统计学,并考虑到人类的效用。在我看来,发展这些原则至少与构建玩游戏之类眼花缭乱的AI系统同样重要,这些原则不仅在医学领域,而且在商业、交通和教育等领域都需要。 一个新的工程学分支:将人类和计算机结合起来 无论我们是否很快就能理解“智能”,我们都面临着一项重大挑战,那就是如何将计算机和人类结合起来,从而增强人类的生活。 尽管一些人认为这一挑战只是AI创造的一种辅助,但另一种观点认为,这是一个新的工程学分支。就像过去几十年的土木工程和化学工程一样,这门新学科的目标是围绕一些关键思想,为人们带来新的资源和能力,并确保安全。土木工程和化学工程建立在物理和化学的基础上,而这门新的工程学科将建立在上个世纪赋予了实质的思想之上,如信息、算法、数据、不确定性、计算、推理和优化。此外,由于新学科的大部分重点将放在来自人类和关于人类的数据上,因此,它的发展将需要社会科学和人文学科的观点。 虽然各种构建块已经就位,但是将它们组合在一起的原则还没有到位,因此目前将这些块组合在一起的方式是临时的。因此,就像人类在土木工程出现之前建造建筑物和桥梁一样,人类也在继续建造涉及机器、人类和环境的社会规模的推理和决策系统。正如早期的建筑和桥梁有时会以无法预见的方式倒塌,并带来悲剧性的后果一样,我们早期的许多社会规模的推理和决策系统已经暴露出严重的概念缺陷。 不幸的是,我们并不擅长预测下一个可能出现的严重缺陷是什么。我们缺少的是一个分析和设计原则的工程学科。 目前大多数AI,实际上是机器学习 目前关于这些问题的公开讨论中,经常使用“AI”这个术语作为一个智能的通用词,这使得人们很难推断出新兴技术的范围和后果。因此,我们有必要深入了解AI在最近和曾经被用来指代什么。 如今大多数被称为AI的东西,尤其是在公共领域,实际上是机器学习(ML),这个术语在过去几十年里一直在使用。ML是一个算法领域,融合了统计学、计算机科学和许多其他学科的思想(见下文),设计处理数据、做出预测和帮助做出决策的算法。 就对现实世界的影响而言,ML是真实存在的,而不仅是最近才火起来的。事实上,在20世纪90年代初期,ML就已展现出将为产业界带来巨大改变的苗头。到了世纪之交,亚马逊等具有前瞻性的公司就已经在他们的业务中使用机器学习、解决关键任务、后端欺诈检测和供应链预测中存在的问题,以及建立面向消费者的创新服务,如推荐系统。 在随后的20年里,随着数据集和计算资源的迅速增长,很明显,ML很快将不仅为亚马逊提供动力,而且将为任何一家可以将决策与大规模数据关联在一起的公司提供动力。新的商业模式将会出现。 “数据科学”一词用来指代这种现象,反映了ML算法专家与数据库和分布式系统专家合作构建可扩展、强大的ML系统的需要,也反映了这样的系统将产生更大范围的社会影响。过去几年,这种思想和技术趋势的融合被重新命名为“人工智能”。这种品牌重塑的做法值得仔细审查。 模仿人类的AI和智能增强 从历史上看,“人工智能”一词是在20世纪50年代末创造的,指的是在软件和硬件上实现具有人类智能水平的实体这样一个令人兴奋的愿望。我将用“模仿人类的AI”(human-imitative AI)来指代这一愿望,强调人工智能实体似乎应该成为我们人类的一员,即使不是在身体上成为,那么至少在精神上要这样(无论这可能意味着什么)。 这在很大程度上是一项学术事业。虽然相关的学术领域,如运筹学、统计学、模式识别、信息论和控制理论已经存在,并且经常从人类或动物的行为中获得灵感,但这些领域可以说是专注于低水平的信号和决策。 比如,松鼠能够感知它所居住的森林的三维结构,并能在树枝间跳跃,这种能力对这些领域具有启发意义。AI旨在关注一些不同的东西:人类进行推理和思考的高级或认知能力。然而,60年后,高层次的推理和思想仍然难以捉摸。现在被称为AI的发展主要出现在与低水平模式识别和运动控制相关的工程领域,以及统计学领域,该学科的重点是在数据中发现模式,并做出有充分根据的预测、测试假设,以及决策。 事实上,现在被认为是所谓“AI革命”核心的著名的反向传播算法,是David Rumelhart在20世纪80年代初重新发现的,而它早在20世纪60年代和60年代的控制理论领域就已出现。其早期应用之一是优化阿波罗飞船飞向月球时的推力。 自上世纪60年代以来,AI已经取得了很大的进步,但可以说,这种进步并非源于对模仿人类的AI的追求。相反,就像阿波罗飞船的例子一样,这些想法往往隐藏在幕后,研究人员的工作专注于特定的工程挑战。虽然普通大众看不到,但在文档检索、文本分类、欺诈检测、推荐系统、个性化搜索、社会网络分析、规划、诊断和A / B测试等领域的研究和系统构建取得了重大进展,这些进步推动了谷歌、Netflix、 Facebook和亚马逊等公司的成功。 人们可以简单地把这一切称为AI,事实上,这似乎已经发生。对于那些发现自己突然被称为AI研究人员的优化或统计学研究人员来说,这样的标签可能会让他们感到意外。但撇开标签不谈,更大的问题是,使用这个单一的、定义不清的首字母缩略词,阻碍了他们对正在发挥作用的智能和商业问题范围的清晰理解。 在过去的20年里,工业和学术领域都取得了重大进展——作为模仿人类的AI的补充,通常被称为“智能增强”(Intelligence AugmentaTIon, IA)。在这里,计算和数据被用来创建增强人类智力和创造力的服务。搜索引擎可以被视为IA的一个例子,因为它可以增强人类的记忆和事实知识;自然语言翻译也是IA的一个例子,它可以增强人类的沟通能力。基于计算机的声音和图像生成为艺术家提供了增强调色和创造的能力。虽然这类服务将来可能包含高层次的推理和思考,但目前还没有;它们主要执行各种字符串匹配和数值操作,以捕获人类可以使用的模式。 让我们广泛构思一个“智能基础设施”的学科,构建基于计算,数据和物理实体的网络,使人类环境更加有趣和安全。目前这种基础设施已经开始在运输,医药,商业和金融等领域出现,对个人和社会的影响正越来越深。 可以想象,我们生活在一个覆盖全社会的医疗系统中,这个系统能够建立人与医生、医疗设备之间的数据流和分析,帮助医生做出更准确地诊断,并提供护理服务。系统可以整合来自体细胞、DNA、血液测试,环境,群体遗传学以及关于药物和治疗的大量科学文献的信息。它不仅关注单个患者和医生,而且关注所有人类之间的关系,有助于维持关于医疗信息的相关性、来源和可靠性的概念,就像今天的银行系统关注金融和支付领域的挑战一样。尽管人们可以预见这样的系统中会出现许多问题,比如隐私问题、责任问题,安全问题等等。但我们应该将这些问题视作勇于面对的挑战,而不是前进的阻碍。 目前的AI成果解决不了核心问题 现在我们面临一个关键问题:目前在传统的、基于人类模仿的AI真的是解决这些挑战的最佳方式(甚至是唯一方式)吗? 事实上,机器学习近年来取得成功的一些成功案例都是在模仿人类的AI领域,如计算机视觉、语音识别、游戏和机器人技术。也许我们应该继续等待,等待这些领域的更多技术进步。这里有两件事情需要注意。 首先,目前模仿人类的AI取得的成功还很有限,我们的最终愿望还远未实现。同时,在这个领域已经取得的有限进展,产生了巨大的快感,也滋生了不少恐惧,导致AI的过度繁荣和媒体的过度关注,这一点在其他工程领域是不存在的。 更重要的是第二点,在这些领域取得的成功并不足以解决重要的IA和II问题。比如自动驾驶汽车。要实现自动驾驶,需要解决一系列工程上的问题,这些问题可能与人的能力(或人力资源缺乏)关系不大。整体交通运输系统(II系统)可能更接近当前的空中交通管制系统,而不是目前普遍关注的人类驾驶员。这种系统比现有的空中交通管制系统复杂得多,特别是可以使用大量数据和自适应统计建模,为精细化决策提供信息。应对这些挑战需要关注最前沿,仅仅关注模仿人类的AI是不够的。 至于必要性,有人说模仿人类的AI愿景涵盖了IA和II的目标,因为它不仅能够解决AI的经典问题(比如图灵测试),同时也是解决IA和II问题的最佳选择。不过这种说法几乎在历史上找不到先例。以前听说过要用AI木匠或AI瓦工来搞土木工程吗?化学工程是否应该建一个AI化学家的框架?更有争议的是:如果我们的目标是建立化工厂,是否应该首先打造一群AI化学家,然后让TA们去研究怎么建? 有一种说法是,人类智能是我们所了解的唯一一种智能,因此我们应该将模仿人类智能作为第一步。但是,人类实际上并不擅长某种推理,人类有自己的失误、偏见和局限。而且,至关重要的是,人类并没能进化足以执行现代II系统必须面对的大规模决策,也没有应对II环境中出现的各种不确定性的能力。 有人可能会说,人工智能系统不仅会模仿人类智能,还会纠正人工智能,而且这种能力可以扩展到任意规模的问题。当然,现在说的处于科幻小说的范畴,这种推测性的论点,虽然放在科幻小说中会很吸引人,但不应该成为我们面对关键的IA和II问题时采取的主要战略,这类问题已经开始出现了。我们需要根据自身的优势解决IA和II问题,而不仅仅靠模仿人类的AI。 当然,经典的人工模拟AI问题仍然很有意义。然而,目前的重点是通过收集数据进行AI研究,部署深度学习基础设施,以及模仿某些特定人类技能的系统的演示。这些研究中几乎没有涉及新的解释性原则,往往会将研究的注意力偏离经典AI领域的几个主要开放问题。 这些问题包括需要将意义和推理引入自然语言处理的系统,以应对推断和表示因果关系的需要。开发计算易处理的不确定性表示,以及开发制定和追求长期目标的系统。这些都是模仿人类的AI的经典目标,但在当前人工智能革命的热潮中,人们很容易忘记这些尚未解决的问题。 IA同样是非常重要的问题,因为在可预见的未来,计算机仍无法与人类在抽象推理真实情况的能力相比。我们需要经过深思熟虑的人机的交互来解决最紧迫的问题。我们希望计算机能够催生出人类创造力的新水平,而不是取代人类的创造力。 目前的AI视野过于狭隘,谈AI革命为时尚早 最早提出“人工智能”这个名词的是约翰·麦卡锡(时任达特茅斯大学教授,后来去了麻省理工学院),当时他提出这个名词,应该是为了区分他刚刚起步的研究项目和诺伯特·维纳的项目(当时是MIT的老教授)。维纳提出了“控制论”一词来指代他自己对智能系统的展望,这一概念与运营研究、统计学、模式识别、信息理论和控制理论密切相关。而麦卡锡则强调了与逻辑的联系。有趣的是,今天占据主导地位的更多是维纳的关于“智能”的内容体系,但外表却用的是麦卡锡提出来的“人工智能”一词。 除了历史上的观点差异之外,我们还要认识到,目前关于人工智能的公共对话,多数仅限于产业界和学术界的很小一部分,这种狭隘视野会影响我们面对人工智能所带来的全部挑战和机遇。 这里说的广阔视野,和实现科幻小说中的场景关系不大,更多与人类对技术的必要性的理解和塑造有关,因为它在日常生活中变得越来越有影响力。在这种理解和塑造中,需要来自各行各业的各种各样的声音,而不仅仅是技术上对话。仅仅关注模仿人类的AI,可能会让我们无法获知,或不愿去获知更广泛的信息。 学术界也要发挥重要作用,不仅仅是提供一些最具创新性的技术理念,而且会与计算、统计学等学科的研究人员共同作出贡献,这些贡献和观点非常重要,尤其需要社会科学、认知科学和人文科学的观点。 另一方面,虽然科学对人类的前进必不可少,但我们也不应该夸大我们的努力和成果。社会的目标是建立新的成果。应该构建这些工件以按照声明的方式工作。我们不希望造出一提供医疗、交通选择和商业机会的系统,然后发现这些系统无法真正发挥作用,发现它们会产生错误,影响到我们的快乐和生活。所以,正如我所强调的那样,目前在数据和学习为关注重点的领域还没能出现一个“工程学科”。尽管这些领域的发展前景令人兴奋,但目前还不能被视为“工程学科”。 我们应该接受这样一个事实,即我们正在见证一个新的工程学科的诞生。“工程”这个词具有独特的内涵,容易让人想到冷漠、情感的机器,以及失去对人类的控制,但我们可以打造自己想要的工程学科。在当今时代,我们迎来了一个真正的机会,来构思历史上前所未有的新东西:以人为本的新兴工程学科。我在这里不打算这个新兴学科取名,但如果缩略词“AI”继续作为学科名字使用,那么我们需要意识到这个词的真正意义和局限性。我们需要拓宽视野,平息炒作,并对未来的严峻挑战有一个清醒的认识。

    时间:2020-05-30 关键词: 物联网 AI 机器学习

  • 人工智能与记忆力赛跑 加强沉浸式语言学习体验

    人工智能与记忆力赛跑 加强沉浸式语言学习体验

    最近,语言学习软件Duolingo的AI研究负责人Burr Settles,对他们如何运用人工智能为用户制定个性化的学习课程进行了详细介绍,主要包括数据跟踪、统计模型、技能人才和沉浸式体验四个方面。Duolingo是一款跨平台应用,用户可以通过该平台游戏化和小规模的课程,学会阅读、倾听和说几十种语言,包括汉语、印地语和阿拉伯语,甚至像克林贡语这样的虚构方言。 目前,Duolingo在全球拥有3亿用户,并筹集了超过1亿美元的资金,市场估值约为7亿美元,其中知名支持者包括Alphabet的CapitalG和Kleiner Perkins。近日,外媒VentureBeat在伦敦举行的人工智能峰会上,对Burr Settles进行了采访。Settles表示,Duolingo人工智能战略的核心是尽可能接近人与人之间的体验。 如今,许多像Duolingo这样的公司已经利用智能手机的普及和无处不在的网络连接,为世界各地的用户们提供语言学习服务。据市场研究公司的数据显示,2018年全球在线语言学习市场的规模达到了90亿美元,2026年有可能超过200亿美元。在此背景下,Duolingo一直在投资人工智能和机器学习,做到像人类教师一样为每个人量身定制自动化课程。 Settles在美国卡耐基梅隆大学(Carnegie Mellon University)担任博士后研究科学家后,于2013年加入Duolingo,负责从前端到后端的所有工作。在加入Duolingo不久后,Settles和团队就开始寻找改变Duolingo学习模型构建模块的方法,这些模型基于70年代的闪存卡调度算法。Settles表示,这项工作的挑战之一,是那些利用人工智能进行实际教育的机构很少。但Duolingo拥有大量的学习数据,可以用来从头开发新的模型和算法。 Settles还表示,他接受这份工作的部分原因是数据量、数据类型和数据的唯一性。他和团队一直用启发式方法,收集关于学生们做语言练习和练习时长的数据,并尝试创建预测模型来跟踪这些统计数据。由于对用户数据统计和跟踪的需求,Duolingo一直在开发自己的统计和机器学习模型,并结合了像间隔重复的学习技术,以优化和提供个性化课程。 间隔重复的理论是,用户间隔重复短课比在短时间内填满相同的信息效果要更好。与此相关的是“滞后效应”,如果练习课之间的间隔次数逐渐增加,用户的学习效果将能进一步提高。但是,系统自动提供语言学习课程的主要问题是,用户现有的语言知识、个人情况和性情差异很大,机器学习模型往往是二元的,难以考虑到个体的细微差别。 这就是Duolingo“半衰期回归”统计模型的来源,该模型能分析数百万语言学习用户的错误模式,以预测个人长期记忆中每个单词的“半衰期”。在语言学习中,半衰期指人们脑中的词汇或语法知识。如果人们一天都没有练习新语言,那么它有50%的机会忘记这一课。因此,“半衰期回归”就是系统深入一个人的大脑,弄清楚人们知道什么或不知道什么,并针对性地制定课程。 Settles发现,当他们将“半衰期回归”统计模型投入使用时,用户的参与度提高了12%。另外,定位内容的方法很重要,例如,像人类教师一样考虑对学生受半衰期回归的影响。但内容本身也同样重要,因此Duolingoy也转向人工智能,帮助团队建立适合不同用户的内容课程。 对此,Settles表示:“英语中有数百万个单词,也许有10000个高频词,你教他们的顺序是什么?你怎么把它们串在一起?”于是他们建立了一套系统,以帮助内容创作者制定初级、中级和高级材料。还有一个挑战是,尽管Duolingo只有40%的用户在学习英语,但公司用来训练人工智能系统的大部分教学数据,都是为英语开发的。 因此,Duolingo需要将它的系统移植到其他语言上,称为迁移学习(Transfer Learning)。目前,尽管人才储备在缓慢增长,但AI技能人才依旧短缺,许多大型科技公司一直在努力收购有潜力的人工智能创企。人才短缺也是Duolingo在过去几年中遇到的挑战,尤其是它关注人才的特定技能组合。它的人工智能研究跨越了一系列学科,除了语言和语言学外,还涉及心理学和学习科学。 Settle表示,他们希望能拥有更多擅长语言、人工智能和认知科学三门学科的交叉型人才。他们的标准很高,在申请AI工作的人中,能一路过关斩将通过的不超过0.5%。在过去18个月左右的时间里,Duolingo发现合格人才的兴趣略有增长,其中包括来自其他科技公司和学术界的申请人。对此,Settle表示,有相当多人来自较大的科技公司,他们也直接从博士项目中招聘了很多新人,主要原因是他们的思想较为开放,并且还没有被制度化。 远程教授语言最大的挑战之一是,很难创造出一种吸引人且充满沉浸感的学习体验,让学生保持学习。为了提高参与度,Duolingo在2016年推出了一款聊天机器人,能通过应用程序中的文本和学生自动对话,帮助教授语言。不同机器人的角色能够对一系列不确定的答案做出各种反应,如果用户卡住了,可以点击“帮我回复”按钮。目前,Duolingo的机器人似乎暂时被官方删除,但这种自动化的学习取代了人类教师,将虚拟教学提升到了一个新的水平。 如果将虚拟现实(VR)融入教学中,用户可以带上耳机进入虚拟教室,学习一门新语言就会变得更有吸引力。针对Duolingo将来是否会使用VR沉浸式教学的这一问题,Settle表示这是有可能的,公司似乎很清楚这些新兴技术将带来的好处,并且沉浸式教学的潜力也许是巨大的。目前,Duolingo没有透露任何关于智能语音助手集成或沉浸式视觉教学的计划,但它将进一步让语言学习内容和交付更具个性化,努力将人的元素融入自动化学习。

    时间:2020-05-30 关键词: 人工智能 机器学习

  • 物联网将在整个2019年里保持快速发展的势头

    物联网将在整个2019年里保持快速发展的势头

    许多物联网公司希望通过用户体验(UX)设计来改进现有产品或创造引人注目的新产品。这就是用户体验设计蓬勃发展和快速发展的原因之一。设计师需要不断更新设计实践,以便将不断进步的技术应用于新旧问题。 在物联网出现所带来的压力或刺激下(希望是后者),交通、制造和医疗设备等领域在过去几年里一直在逐步接受用户体验。尽管公司的承诺各不相同,但随着Nest恒温器和亚马逊Alexa等产品的成功,越来越多的公司开始期待良好的用户体验。没有理由认为对这种用户体验的拥抱会很快停止,相反,预计整个2019年将继续保持快速发展势头。从嵌入式物联网用户体验设计师的角度来看,用户体验(UX)专业人士应该注意以下新兴趋势: 1、教育利益相关方至关重要 提高对可用性问题和实践的认识一直是我们这个充满活力职业的一部分。由于许多物联网利益相关方刚刚接触到用户体验设计(UX),许多概念和实践对他们来说都是新的,因此他们需要不断学习,同时还需要向业务伙伴证明所涉及的流程和成本。作为设计师,我们需要花时间让我们的实践更加透明,并解释我们为什么要这样做。 2、语音是新的交互 关于语音控制的大肆炒作让一些人认识到语音是一种新的交互方式。但是触摸并没有失去阵地,语音只是最新的互动模式。在某些情况下,触摸并不是最好的解决方案,例如车内界面,在这种情况下,将眼睛从路上移开看屏幕不是最安全的选择。语音交互的不断增长意味着将需要更多的用户体验设计师跟上语音交互的步伐。 3、使用环境越来越重要 随着物联网的兴起和专用设备的激增,使用环境将成为设计中最重要的组成部分。当设备专用时,每个设备都会有一个独特的使用环境——不同于台式机、笔记本电脑、平板电脑和手机,它们都有自己相对一致的使用环境(或者条件)。例如,对于手机应用,设计师几乎不用考虑使用环境,这是因为用户在使用任何应用程序时,都可能以同样的方式握着手机,并拥有同样的移动性。 物联网设备并非如此,所以环境就是一切。假设您正在设计一种用于手术室的医疗设备,它可以放在可移动或固定的架子上,也可以固定在墙上,它还可能需要使用无菌手套或其他可替换的无菌护罩进行交互。每种元素都需要不同的设计决策,因此在设计大多数物联网设备时,需要考虑使用环境。 4、多设备体验是新常态 专用设备的激增导致了可以在多个设备上进行用户体验——或者所谓的跨设备体验。用户将以最方便的方式跨设备完成任务,例如,您可以在离开住所前使用家庭安全系统屏幕“打开”安全警报,但是您也可以在上班路上用手机重置家庭安全代码。多设备体验是动态的,它们可以让您以最方便的方式完成您的用户体验。创建这些体验需要与设备无关的设计,这要求设计师从整体上考虑用户体验,重点考虑用户以及他们最方便的是什么,而不是设备和他们能做什么。 5、设计系统正在赢得更多青睐 随着物联网设备的激增,平台也随之增多。就设计一致性而言,它还处于混乱阶段。因此,设计系统(共享设计语言)作为一种解决用户一致性问题的方式备受欢迎,同时也处理了多个平台的额外工作。根据2017-2018年uxpin设计行业报告显示,67%的公司目前正在使用或正在积极构建一个设计系统。 这对设计师和用户来说是个好消息。设计系统是“唯一的真理来源,它将所有元素组合在一起,使团队能够设计、实现和开发一个产品”。换句话说,它们是设计者和开发者的模型、组件和指南。嵌入在这些有形工具中的,是团队想要体现的原则,例如品牌价值、共享流程和共同信念。乍一看,设计系统似乎更有利于设计师,因为一旦系统建立起来,它就可以简化工作,减少混乱,提高质量。但是用户绝对是增强用户体验质量和一致性的受益者,因为他们最终得到了更好的产品。(来源:物联之家iothome) 6、用户体验设计师正在积极考虑人工智能 分析人士预测,机器学习和人工智能(AI)将成为2019年的关键技术趋势。这意味着设计师需要深入思考人工智能及其对用户体验的影响。工业物联网被认为是人工智能的首要用例,它可以帮助根本原因分析、异常检测和设备的预测性维护。亚马逊,谷歌,苹果和IBM等公司正在大力投入研发,以拉近人工智能与消费者的距离。不过,最终成功与否取决于设计师如何为人工智能找到对用户有意义的方法。 7、道德至关重要 到目前为止,几乎每个人都是某种数据泄露的受害者,这给我们带来了极大的不便,而且常常让人感到恐惧。同时,我们亲眼目睹了社交媒体如何影响民主,并煽动分裂。谈到社交媒体和智能手机,有几项主要研究发现,花更多时间看手机会降低年轻人的幸福感,有时还会导致抑郁。虽然用户体验设计师研究用户的行为是为了更好地为他们服务,但设计师也发现了如何用所谓的“暗网模式”更好地操纵他们。 随着这些问题的不断出现,人们越来越关注与用户体验设计有关的道德问题。到了2019年,围绕道德的对话将更加激烈。那么,谁在谈论道德设计呢?一个是Center for Human Technology,他们关注用户体验设计,并关注用户的注意力和暗网模式。其他包括位于Palo Alto的未来智库研究所和投资公司Omidyar Network的一个项目,称为“技术和社会解决方案实验室”。 这两个机构都对技术和社会的结合感兴趣,并共同编写了《道德操作系统指南》。他们的目标是鼓励研究人员与生产这种技术及其产品的大型科技公司进行交流。 总结 在过去的几年里,安全和安保问题一直是许多物联网设备面临的头等大事,也是设计师有责任让自己变得聪明起来的原因所在。希望2019年能给设计师理解用户体验带来新的紧迫感,并摸索出设计物联网设备的最佳方式,以限制潜在的安全漏洞。 随着物联网设备的激增,人们对用户体验设计师的需求将继续攀升,同时用户的需求也将比以往任何时候都要高,而且看不到尽头。

    时间:2020-05-30 关键词: 物联网 人工智能 机器学习

  • 人工智能有可能在未来威胁到人类吗

    人工智能有可能在未来威胁到人类吗

    人类是地球唯一的智慧生命,从诞生到现在经历了数百万年的时间,漫长的进化演化让人类一步步成长进来。而工业革命的开始让人类进入了科技发展的时代,人类文明也真正迎来了辉煌的时刻。 科技的快速发展是我们每一个人都可以看到的,尤其是近百年的科技发展,更是快到不可思议,每一天都有新技术出现,每一天都让人们的生活越来越方便。最明显的一个变化就是智能时代的到来,如今手机成为了人们生活的必需品,不管是购物还是其它,过去支付用的现金,现在支付很多都是用扫码。 人们出门可以不带现金,但必然要带上手机,只要带上手机,需要花钱的地方就不用愁。这就是科技带给人们生活的重大变化,而且这种变化还在随着科技的快速发展,时间的推移越来越快,那么人类的未来会出现哪些变化呢?事实上,未来的变化可能有很多,科学家重点预测了其中的五个变化,你认为它们能够实现吗? 第一、人们出行的交通工具将全面取消轮子。现在不管是自行车,摩托车,汽车还是飞机,都是有轮子的,二轮或三轮或四轮。没有轮子交通工具就无法使用。像飞机这样在天上飞的,它的起飞和降落同样需要轮子。在海洋中航行的轮船同样需要螺旋奖这种轮子,否则就无法让轮船前进。 这是现在我们使用的交通工具,都需要有轮子的支持,那么未来还会如此吗?未来的交通工具会发生重大变化,会越来越先进,轮子这种东西可能将会消失。要让交通工具在没有轮子的情况下正常使用,那必然是能够悬浮。 其实只要人类实现反重力技术,轮子这种东西就可以和时代说再见了。而人类科技的快速发展,反重力技术也是人类走向星际的必然。未来会是一个全民探索太空的时代,而重要的工具就是飞行器,宇宙飞船。能够让全民进入太空探索时代,飞行器必然要实现反重力技术才行。 而反重力技术也一直是科学家研究的一个目标,现在虽然还没有多少成果,但是在未来它实现的可能性是非常大的,只要它实现。不管是宇宙飞船还是我们日常出行使用的汽车,电动车等,都将进入悬浮时代,那就不需要轮子了。 第二、人造器官技术成熟,只要是生命总免不了会生病,不管是普通的动物还是人类这样的智慧生命,生病是不可避免的。人类的寿命之所以不怎么长,主要的原因就是随着年龄的增长,器官在不断衰竭。如果能够让身体器官不断推陈出新,让它保持健康年轻状态,那人类的寿命也会大幅增长,虽然可能做不到永生,但是活几百年,上千年相信还是没有问题的。 想要让身体的器官实现不断更新,一个方法是研究出真正的基因技术,通过基因层面让器官不断更新,还有一个方法就是更换新的健康年轻的器官。器官移植是现代医学重要的技术,它让很多得了重病需要换器官的人们活了下来。 可是现代的器官移植用的是别人的器官,而别人的器官是很难跟自己的身体完美匹配,这样手术成功后,也需要长期用药物维持才能降低排斥反应,而且移植器官也不能让人类长寿,它只是现代人们得了重病需要换器官不得不采取的措施。 世界上没有完全相同的两个人,人类的器官也是没有完全100%匹配的,即使是同卵而生的双胞胎,器官也会有不同,这个不同主要是基因层面的。只要100%完美匹配的器官才能够实现无排斥,就像原本是自己的器官一样的感觉。 100%完美匹配的器官,只有自己身上的才可以,而未来的人造器官就可以实现。这是一种干细胞再造技术,也是现代科学重点研究的一个领域。一旦它成熟,我们就可以用自身的基因培育出完全100%匹配自己的身体器官,这样移植后就不会产生排斥反应。一旦人造器官技术成熟,器官移植估计也会成为一种时代潮流,并不是生病了需要换器官才移植,而是为了长寿。 第三、人工智能成为人们生活的好帮手,人类文明已经进行智能时代,智能时代核心的东西就是人工智能,它是连接智能时代的枢纽。近年来,人工智能的发展是非常快速的,随之而来的智能家居,智能机器人也开始走进人们的生活。 人工智能的一个重要载体就是智能机器人,我国也成功研发美女智能人,日本前段时间还上市了机器人妻子,并得到人们的疯狂抢购。虽然现在的人工智能还有些机械化,并不是太先进,但是随着人工智能的不断发展,人工智能也会不断更新,出现像科幻电影中那样智能的智能机器人。 人工智能一个厉害之处就是可以自我学习,它除了没有自己的意识和情感之外,可以说和人类没有任何区别,而且在数据处理方面的能力更是强大人类大脑无数倍,它会成为未来人类重要的帮手。智能机器人在未来会进入千家万户,会像手机一样成为时代潮流,尤其是美女智能机器人更会受到欢迎。她们会进入各行各业帮助人类。每一个家庭里会有一个智能机器人,它可以洗衣,做饭,做家务等,人类将会完全解释,只需要动脑发明创造就可以,那些需要动手的工作都可以交给智能机器人。 当然,也有人会担心,万一人工智能进化出自己的意识和思维怎么办?那时候会不会爆发人类和机器人的战争?有这种担心的人并不少,伟大的物理学家霍金也曾警示:人工智能有可能在未来威胁到人类。 人工智能在未来会不会诞生自己的意识威胁到人类,我们现在不知道,但是它确实能够给人类文明带来巨大的变化,让人类的科技更快发展,尤其是在未来的太空探索时代,人工智能的作用将会更大。即使人工智能有一天会诞生自己的思维意识,那可能也是数千年,数万年以后的事情,或许那个时候科学家会有新的技术方法来制约人工智能的智慧进化。 以上三个只是人类未来有可能发生重大变化的三个方面,事实上,未来人类文明会有很多的变化,比如意识操作电脑,虚拟世界的出现等,它们都是科技带给我们的,人类只有不断发展科技,才能够成为宇宙的强者,才能够探索宇宙的终极奥秘。

    时间:2020-05-30 关键词: 人工智能 机器学习

  • 人工智能艺术是一场前所未有的新艺术创造

    人工智能艺术是一场前所未有的新艺术创造

    人工智能艺术的核心是计算机的“创造力”培养,其假定计算机作为艺术创作的主体——艺术家来加以构建。其基础是机器学习(Machine Learning, ML)。机器学习是使计算机具有智能的根本途径。早期的机器学习方法是神经网络(Neural Networks,NNs),通过模仿动物神经网络行为特征来进行分布式并行信息处理;而近期的深度学习(Deep Learning,DL)是多阶层结构神经网络结合大数据的逐层信息提取和筛选,使机器具备强大的表征学习能力,也使机器学习从技术范畴上升到“思想”范畴。 人工智能的一个重要前提是大数据。借助云计算技术,由机器操控数据来进行结果判断和帮助决策,这叫模式识别。模式识别的本质是通过数据描述,使机器对事物或现象进行描述、辨认、分类和解释。如果我们以计算机“输入—运算—输出—结果”的生产方式来类比艺术的创作方法,则传统艺术的创作逻辑特征可表述为:视觉输入—人脑(人体)运算—工具输出—必然性结果。 而人工智能艺术借助数据的输入可以产生更多具有刺激性和感染力的创造性结果,其逻辑特征可表述为:数据输入—程序(人工)运算—电子设备输出—随机性结果。 人工智能艺术在今天不仅是一种从主题、形式到技术都令人惊叹的前卫艺术类型,而且在日益扩大艺术的外延。从艺术内部的形式与审美完善,到艺术外部的社会化、政治化触发,人工智能艺术导致艺术功能、艺术价值、艺术家身份认证、艺术评价体系等问题都要重新界定。 毋庸置疑,人工智能技术极大地提升了艺术的想象力与创造力,丰富了艺术的形式与创作工具。由Google开发的AutoDraw即是利用AI算法对艺术家的草图的自动加工与制作,作曲家、诗人、画家等可依靠它来完成基本输出,然后进行扩展与完善。这极大地提高了艺术创作的效率,也意味着开拓出人机合作进行艺术创作的新路径。 然而,人工智能艺术最令人遐想的还是未来的“赛博格”艺术家(Cyborg)。随着计算机技术的高速发展,艺术最终将走向人机交融的合成时代;未来,技术会更加自然地融入人们的日常生活且难以界定,异源嵌合体、生化电子人、人机合体生物等将把人类变成“超级艺术家”。 艺术一直以其对审美能力和创造技巧的绝对控制而专门化与职业化,又因其在精神与文化领域的自律而神秘、矜持。后现代主义“人人都是艺术家”的主张或将打破这一垄断,艺术对生活的拥抱经由技术加持在今天已演变为“世界就是艺术家”。这表现为两个方面,一是艺术对世界的唤醒,二是艺术的生活化与娱乐化。具体言之,当代人工智能技术、生物技术和纳米技术这三大技术的进步,使人类得以实现与万物的相连和信息交换。人工智能艺术帮助我们扩展自己的生理、心理极限,这既是一种对世界的全新感知,也是世界对人类的诗意回应。 近代以来,艺术的本质一直被视为是基于情感与精神的自由创造,而复制的艺术、形式主义的艺术等都是精神创造缺位后的贬称。在很多传统艺术家看来,人工智能艺术基于专家系统支持而进行的数据归纳、综合被认为是缺乏演绎与创造,“机器作画总是缺少一些深层次的东西”。 艺术史家杰姆斯·艾克因斯(James Elkins)直言:“(算法)不是根据社会环境、含义和表达目的来创作,而是根据艺术风格创作。”但《爱德蒙·德·贝拉米肖像》的成功很显然对这一创造缺位开了一个口子,更何况在科学家预想的人工智能第三个阶段,机器将拥有“自由意志、情感认知和自由活动能力”。 人工智能艺术还隐含了一场权力争夺战。诞生之初,人工智能是为了对人类智能进行延伸和扩展。通过对人类意识及其思维信息过程的模拟,让计算机拥有学习、推理、思考和规划的能力,从而使机器能替代人完成一些此前由人完成的复杂工作。然而,人工智能的发展已衍生出“过度依赖数据”的危机。对数据和算法的依赖开始形成一种权益的悄然转移。算法和数据开始接管大众媒介的权力,算法输出结果所依赖的数据,开始代替人类进行决策。建立在数据和算法基础上的人工智能艺术,因而也神奇地获得了某种权力。 人类艺术行为的主体和对象都是人,艺术因其反思的品质而对人类社会来说弥足珍贵。可以说,艺术的社会属性决定了艺术是“属于人的艺术”,艺术家总是在赋予我们所看事物以有“意义”的解释,而这意义是对于人来说的意义。2018年,人工智能艺术工作室OUCHHH在法国巴黎艺术中心推出了一场名为“诗意AI”(Poetic AI)的展览。展览对2000多万行科学家所写的涉及改变人类历史的关于光、物理、时空的文献进行机器学习,随后经由人工智能算法转码后的文字和图像被投影在3300平方米的空间中,人们可在这一无限变幻的光线运动中忘我体验。 上述关于人工智能艺术的讨论或志得意满,或未雨绸缪。但无论如何,人工智能艺术在现阶段仍在我们可控的范围内。面对人工智能艺术对传统艺术的不断挑战,公众和学界都应保持理性与宽容。在这样一个充斥着“机器即将全面替代并统治人类”传言的时代,我们仍然寄希望于人类艺术在未来可以继续行使改造世界、创造文明的职能。

    时间:2020-05-30 关键词: 人工智能 机器学习

  • 机器学习正如何解开人类运动之谜

    机器学习正如何解开人类运动之谜

    1.优必选科技&清华大学斩获2019 RoboCup多项大奖,彰显人形机器人技术优势 7 月 2 日至 8 日,机器人界翘首以盼的 2019 RoboCup(机器人世界杯)在澳大利亚悉尼举办。作为全球机器人竞赛领域影响力最大、综合技术水平最高、参与范围最广的专业机器人竞赛之一,本届 RoboCup 共有来自全球 40 多个国家、170 多所科研机构和高校超过 3500 名的机器人科学家和研发人员参加,共同推动机器人技术的交流与落地。优必选科技和清华大学联合组成的火神队(Hephaestus)与各国参赛队伍同台竞技,分享在人形机器人技术理论和应用领域的最新进展,并最终斩获人形组三项大奖,包括 AdultSize 的 Technical Challenge 技术挑战赛亚军、Drop-in 比赛亚军,以及 2VS2 足球比赛季军。 2.IDC 调查发现人工智能是组织的优先事项,但很少有人实施企业级战略 最近国际数据公司(IDC)对已经使用人工智能(AI)解决方案的全球组织进行的调查发现,只有 25%的人开发了企业级人工智能战略。与此同时,接受调查的组织中有一半认为人工智能是重中之重,三分之二的人强调「人工智能第一」文化。 3.Instagram 用人工智能对抗在线欺凌 Instagram 正在解决在线欺凌,他们推出了一个重大的修复方式,用人工智能标记评论,以及用户可以限制帐户公开评论其帖子的能力。该团队即将推出一项测试,即让用户能够从他们的帐户中把某些用户拉入黑名单,这意味着帐户持有者可以「限制」另一个用户,这使得他们的评论仅对他们自己可见。 4.联发科技推出最新AI解决方案,定位物联网2020年可供货 7 月 9 日消息,联发科技发布具有高速边缘 AI 运算能力,可快速实现影像识别的 AIoT 平台 i700。i700 平台方案能够广泛被应用在智慧城市、智能楼宇和智能制造等领域,其单芯片设计整合了包含 CPU、GPU、ISP 和 AI 专核等在内的处理单元,能够协助客户快速推出产品,助力人工智能和物联网的落地融合。 5.机器学习正如何解开人类运动之谜,并重塑专业运动 微软人工智能技术博客今日分享文章介绍机器学习正在如何分析专业运动员并重塑运动产业。拥有十二位顶尖篮球运动员的小组在不接触单个篮球的情况下进行训练,单独在室内跑道上蹦蹦跳跳,或者是在三英尺高的箱子上跨过,并将加重的球悬挂在墙上。训练的同时,运动员正在生产汗水和数据,其中包括跳跃,举起和短跑,亦随着云连接的摄像机在加利福尼亚州圣巴巴拉的峰值性能项目(P3)得以记录每一个动作,并利用机器学习进行更进一步地分析。所有这 12 名大学运动员都希望能够加入长期的 NBA 生涯。在没有 P3 的情况下,许多体育分析师同样肯定他们已经知道这些 NBA 选秀中的哪一位将成为传奇,有价值的首发或替补席上的关键贡献者。

    时间:2020-05-29 关键词: 机器人 机器学习

首页  上一页  1 2 3 4 5 6 7 8 9 10 下一页 尾页
发布文章

技术子站

更多

项目外包