当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 许多人试图进入与数据相关的领域;但是,由于分支学科之间有很多交叉和混淆,网络上也有很多可用的资源,有的人可能会迷失方向,究竟从哪里开始呢?许多人最终学习了一套通用的技能,成为了数据科学通才。

许多人试图进入与数据相关的领域;但是,由于分支学科之间有很多交叉和混淆,网络上也有很多可用的资源,有的人可能会迷失方向,究竟从哪里开始呢?许多人最终学习了一套通用的技能,成为了数据科学通才。

这就是我整理这篇文章的原因,希望能帮助你发现并选择适合你的方向。在这篇文章中我还总结了每个领域所需的所有能力,这样有助于你制定下一步行动计划!这里的路线图涵盖了数据和每个人都需要的技能。我们将介绍精准的细节来希望能帮助到你去发现自己还缺乏什么技能。

数据科学

数据科学被称为”处理数据的艺术”。作为一名数据科学家,您不只是使用编程工具来从A点到达B点;但是,你首先要定义A点,然后从这些点开始绘制所有可能的路径,探索输入数据,进行假设,正式的提出假设,使用不同的统计和数学工具测试你的假设,如果需要,设计和应用实验,评估当前的周期,如果需要,开发一些编程工具,或者更多…

数据科学有三个主要组成部分:

机器学习计算机科学技能

数学和统计

领域相关的知识

数据科学包括不同的技术和工具。在这里,我们将首先在python中列出所需的技能堆栈。

Python方向所需的技能

熟悉Numpy、panda、sklearn和matplotlib

强大的SQL技能,NOSQL技能也是非常必要的。包括设计规范化模式,良好的索引技术,和写作高效的查询

数据清理

良好的数据可视化技能(如tableau或library、matplotlib、seaborn、Bookeh等)

统计分析技能。这包括熟悉不同的统计问题类型。

实验设计和统计测试(参数和非参数测试)

熟悉大数据框架/基础设施(Spark、hive、Hadoop、Mongo等)

机器学习技能(技能水平因业务逻辑导致的差异很大)

对数据科学的整个周期有很较强的理解(尖锐问题、探索性数据分析、推理、形式化统计建模、解释和沟通)

讲故事的技巧(PowerPoint等)

数据科学是一个非常广泛的领域,通常需要基于面临的任务去学习新的知识和技能(如何构建、推荐系统、序列建模等)在本文中我只介绍基本技能集。

数据分析

数据分析基本上是回答在使用数据时与业务相关的问题。这些问题可能是:

描述性:您只是在描述您所拥有的数据样本及其相关统计数据。您对样品之外的数据不感兴趣。

探索性:你正在探索不同的模式,趋势数据、季节性、关系和分布。通常做为探索性数据分析可视化工具。

推论性:你正试图推断一些有关的问题的答案,基于假设检验的样本数据以及不同的静态测试技术。

因果关系:这类问题通常需要运行一个或更多的实验来检验两个或更多的变量之间的因果关系。

机械论的:这一个问题根本联系在两个变量集。通常很难在不受控制的情况下发现它的环境。

数据分析通常被认为是数据科学的一个分支,适用于没有或几乎没有技术背景的专业人士。它通常需要统计学和领域相关经验。

到目前为止,大多数数据分析师使用SPSS等工具;然而,现在出现了一种新的趋势,即招聘具有R/ python技能的数据分析师,因为他们具备更强大的预测分析和大数据工具的技能。

Python方向所需的技能

熟悉Numpy、panda、sklearn和matplotlib

强大的SQL技能,NOSQL技能。正常情况下这包括编写有效的查询

良好的数据可视化技能(如tableau或library、matplotlib、seaborn、Bookeh等)

统计分析技能

实验设计与统计检验

了解基本的预测分析工具,如回归模型与聚类、队列分析等。

对数据科学的整个周期有很较强的理解(尖锐问题、探索性数据分析、推理、形式化统计建模、解释和沟通)

机器学习工程

机器学习是人工智能的一个领域,我们用它来实现那些通常需要人类的智慧来做特别在视觉和语言过程的自动化。ML是AI的分支,它使用数据在人工智能中其他非数据中心的方来应用它。

机器学习是其中技术含量最高的。它需要一系列的技术技能,比如编写有效的查询,高的学习算法(时间和精度)。

请永远记住,在我们操控电脑时,电脑和我们一样聪明

Python方向所需的技能

熟悉Numpy、panda、sklearn和matplotlib

强大的SQL技能,NOSQL技能也是非常必要的

良好的数据可视化技能(如tableau或library、matplotlib、seaborn等)

熟悉大数据框架/基础设施(Spark、hive、Hadoop、Mongo等)

对基本的ML算法有很强的理解(回归,分类、聚类和降维)

特征工程与超参数微调

对不同的优化算法在什么时候使用有较强的直觉性

构造和评估ML算法

了解不同的神经网络结构和新的病毒架构

强化学习

非常熟悉一个或多个TGE深度学习框架(TensorFlow、Keras、Caffe或Torch等)

网络分析

数据工程

数据工程是关注构建数据管道和基础设施的领域。这项工作对于任何拥有大量数据并计划聘请数据科学家的公司来说都是至关重要的。通常情况下,雇佣数据工程师先于雇佣数据科学家。

Python方向所需的技能

深入了解SQL和NoSQL解决方案

系统架构技能

用于高效数据存储和检索的ETL和其他数据仓库工具

熟悉数据湖、数据仓库等不同的AWS或任何云服务

基于大数据的分析(即基于mongo或Hadoop的框架,如spark、hive、mapreduce)

基本了解数据建模、ML和统计分析

建立高效的数据管道

毕竟,所有这些领域在工业上都是刚刚兴起,还没有很好地建立起来。这就是为什么你需要跟上新的技能,病毒架构,论文等。

未来,我也许会发布另一篇关于最佳推荐的在线课程和学位的文章,指引我们学习每一项技能,并快速浏览这些要点。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

提高车辆导航、车身电子设备和自动驾驶系统的定位准确度和可靠性

关键字: 自动驾驶 机器学习 导航

北京——2024年4月30日 亚马逊云科技持续引领云上数据服务创新,助力企业构建全面的数据基座以充分发挥数据潜力,加速生成式AI技术落地。在生成式AI时代,数据是企业脱颖而出的关键——基础模型依赖于大规模高质量数据集,生...

关键字: 生成式AI 数据 模型

业界应如何看待边缘人工智能?ST授权合作伙伴 MathWorks 公司的合作伙伴团队与ST 共同讨论了对边缘机器学习的看法,并与 STM32 社区分享了他们的设计经验。

关键字: AI 机器学习 处理器

双方的合作促成了尖端人工智能视觉解决方案,提高了效率、连通性和成本效益

关键字: 人工智能 智能家居 机器学习

【2024年4月24日,德国慕尼黑讯】英飞凌科技股份公司(FSE代码:IFX / OTCQX代码:IFNNY)发布全新PSOC™ Edge微控制器(MCU)系列的详细信息,该系列产品的设计针对机器学习(ML)应用进行了优...

关键字: 物联网 机器学习 MCU

全新的专有模型导入功能让客户更轻松地将其专属模型导入到Amazon Bedrock中,从而充分利用Amazon Bedrock的强大功能。全新的模型评估功能使客户能够广泛且便捷地选择完全托管模型,包括RAG优化的新版Am...

关键字: 生成式AI 基础模型 数据

TDK株式会社(东京证券交易所代码:6762)新近推出InvenSense SmartEdgeMLTM解决方案,这是一种先进的边缘机器学习解决方案,为用户提供了在可穿戴设备、可听戴设备、增强现实眼镜、物联网 (IoT)...

关键字: 机器学习 物联网 传感器

北京——2024年4月19日 亚马逊云科技宣布,Meta刚刚发布的两款Llama 3基础模型Llama 3 8B和Llama 3 70B现已在Amazon SageMaker JumpStart中提供。这两款模型是一系列...

关键字: 机器学习 基础模型

2024年4月18日 – 提供超丰富半导体和电子元器件™的业界知名新品引入 (NPI) 代理商贸泽电子 (Mouser Electronics) 很荣幸地宣布与Edge Impulse建立新的全球合作关系。Edge Im...

关键字: 机器学习 MCU CPU

北京——2024年4月18日 西门子中国和亚马逊云科技双方高层在西门子中国北京总部会晤,双方宣布签署战略合作协议,共同成立“联合创新团队”。基于亚马逊云科技在生成式AI领域的领先技术和服务,并结合西门子在工业领域的深厚积...

关键字: 生成式AI 机器学习 大数据
关闭
关闭