当前位置:首页 > 芯闻号 > 充电吧
[导读]由量子位翻译Ben Hammer(Kaggle CTO)在AMA的回答。你很幸运,要开始研究机器学习和人工智能,现在是比任何时候都好的时机。这个领域近年来在快速发展,专业人士发布并改进着高质量的开源软

由量子位翻译Ben Hammer(Kaggle CTO)在AMA的回答。

你很幸运,要开始研究机器学习和人工智能,现在是比任何时候都好的时机。这个领域近年来在快速发展,专业人士发布并改进着高质量的开源软件工具和库,每天都有新的线上公开课和博客文章出现。机器学习在各个领域每天贡献着数十亿美元的营收,带来了无与伦比的资源和大量工作机会。

这也意味着,在你刚接触这个领域时会有被淹没的感觉。下面是我的入门方法,如果你在研究过程中卡住了,去Kaggle上搜索一下,很可能有人遇到过和你类似的问题,如果没有,可以在我们的论坛上发帖提问,这是个获得指引的好办法。 

1. 找一个你感兴趣的问题 

从一个你想解决的问题入手,会更容易集中精力,也更有学习的动力,这种方法比照着一份长得吓人的散乱知识点清单来学习要好很多。和被动地阅读相比,解决问题也能驱使你深入到机器学习之中。 好的入门问题有以下几个标准: 涉及你个人感兴趣的领域; 有现成的数据适合用来解决这个问题,否则你需要花大把的时间来找数据; 你能够在一台机器上流畅地处理这些数据,或者它的子集。 想不出来要解决的问题?上Kaggle嘛……Kaggle有个入门系列竞赛,提供了适用于新手的机器学习问题。推荐从泰坦尼克号乘客的生还概率预测( https://www.kaggle.com/c/titanic)开始。

 2. 做一个快速、脏乱、黑客范儿的端到端解决方案 

初学者很容易陷入一个实现细节之中,或者为错误的机器学习算法仔细调试,你需要避免这种错误。你的目标,是尽可能快地把端到端的基本解决方法做出来:读入数据、把它处理成适用于机器学习的格式、训练一个基本的模型、得出结果、评估它的性能。 

3. 改进你的解决方案

 现在,基本功能已经实现,发挥创造性的时候到了。你可以尝试对最初解决方案中的每个组件进行优化,然后测试修改带来的作用,搞清楚该在哪个部件上花时间。通常来说,获取更多的数据或者请洗数据之类的预处理步骤,比优化机器学习模型有着更高的投入产出比。 这些步骤可能需要你亲自上手处理数据,比如说通过检查特定的某一行、通过可视化方法来查看数据分布等方式,来更好地理解数据的结构和怪癖。

 4. 写出来你的解决方案&分享

 想要获得别人对你的解决方案的反馈,最好的方法就是写出来并分享。写出你的解决方案意味着你会以新的方式去看它,并加深理解,也能让别人理解你的工作并做出反馈、帮你学习进步。写作也有助于开始建立机器学习作品集,来展示你的能力,对找工作很有帮助。 我们以Kaggle数据集和Kaggle Kernels为例,它们分别可以用来分享数据和解决方案,从而获得反馈,看其他人如何对你的问题进行扩展。这也是丰富你的Kaggle资料的办法。

 5. 在更多问题上重复1-4步 

现在,你已经完成了一个自己喜欢的问题,接下来应该在不同领域的问题上多试几次。 你在入门的时候是不是用了表格式的数据?选一个要用到非结构化文本的问题,再试试解决图像相关的问题。 你是不是先解决了一个结构化的机器学习问题?很多有价值的创造性工作,一开始都有赖于从宽泛的商业或研究对象找到一个定义清晰的机器学习问题。 Kaggle竞赛和数据集为机器学习的两个方面:定义清晰的机器学习问题和原始数据来源提供了一个良好的起步点。 

6. 认真地参加Kaggle竞赛 

和上千人比赛着去解决同一个问题,尽力做到最好,是一个很好的学习机会,这能够驱使你在这个问题上不断迭代,找到解决问题的有效途径。 关于其他人是怎样解决问题排除bug的,针对某个竞赛的论坛上有着丰富的资源,kernels体现了其他人对数据的洞察,并且给你提供了一个轻易的上手途径,获胜者的博客文章则展示了什么样的方法效果最好。 Kaggle竞赛提供了和别人组队的机会,我们的社区成员有着不同的背景和技能,每个人都能从其他人身上学到东西。

 7. 在专业领域应用机器学习 

这让你在大部分时间中都能接触到机器学习,有助于自我提升。决定你想要成为什么样的角色、建立和这个角色相关的个人项目列表,是一个很好的开端。 如果你还没准备好应聘机器学习相关职位,也可以在你现在的岗位上开辟新项目、寻找提供咨询的机会、参与黑客马拉松和数据相关的社区服务机会、这些都能帮你在机器学习领域立足。专业领域的工作通常需要比较强的编程能力。 在专业领域应用机器学习,有这些价值的机会: 

将机器学习用于生产系统; 

专注于机器学习研究,将技术发展的最高水平向前推进; 

用机器学习进行探查、分析,来提升你的产品和商业决策。

 8. 帮助别人研究机器学习

 教人学习能帮你巩固对基础概念的掌握。教别人有很多不同的方法,你可以根据自己的风格选一个: 

写论文; 

做演讲;

 写博客文章和教程; 

在Kaggle、Quora等网站上回答问题; 

亲自指导;

 在Kaggle Kernels和GitHub上分享代码;

 讲课;

 写书。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

业内消息,近日日本官方表示计划扩大对与半导体或量子计算相关的四项技术的出口限制,这是全球管制战略技术出口的最新举措。该限制措施向所有国家/地区(包括最受惠的贸易伙伴韩国、新加坡和中国台湾)的此类货物将需要出口管制官员的批...

关键字: 半导体 出口管制 商务部 GAA

业内消息,日前中国大陆智能手机品牌大厂华为新款旗舰机Pura70日前重磅上市,掀起一股抢购风潮,一开卖就秒杀,各大渠道均呈现缺货状态,甚至出现黄牛乱象。近期许多海外网站陆续出具拆解报告,赫然发现Pura70除最高端机型外...

关键字: 华为 华为Pura 70

业内消息,近日台积电在美国亚利桑那州的新扩张因其无数的工人待遇恶劣的例子而受到工程师和业内人士的严重关注。当地报告称,该公司在其中国台湾工厂的长期加班文化、残酷的管理风格和对其工程师的不良待遇已经不适当地转移到美国工人上...

关键字: 台积电

Spotify和苹果公司在欧洲再次因为佣金问题发生冲突。苹果公司拒绝了Spotify在欧洲新规生效之后的第2次更新,对此Spotify表达了强烈不满。苹果公司于4月6日响应欧盟近期提出的“限制导流”(anti-steer...

关键字: Spotify 苹果

业内消息,近日韩国存储芯片巨头SK 海力士宣布,为应对用于 AI 的半导体需求剧增,决定扩充 AI 基础设施(Infra)的核心产品即 HBM 等新一代 DRAM 的生产能力(Capacity) 。

关键字: SK海力士 DRAM

4月28日,开放式耳机品牌鲸语系列新品于“2024年第五届中关村硬核科技嘉年华”正式亮相。此次发布的新品中,拥有星空黑与暮沙白双配色的防水骨传导运动耳机——鲸语Alpha,以其独特的设计理念和水陆两栖的卓越性能,吸引了众...

关键字: 开放式耳机 运动耳机 鲸语Alpha

作为一名数码爱好者,更是资深理工男,自然也对3D打印设备兴趣满满,正好看到全球消费级光固化3D打印第一品牌的ELEGOO爱乐酷推出了一款重磅新品,性能上也有非常多颠覆升级,便迫不及待入手一台感受一下。

关键字: 打印机

京元电子在重大讯息说明会中宣布,将出售持有苏州子公司京隆科技 92.1619% 的股权,预估交易金额约 48.85 亿人民币,将于第三季度完成交易,届时将退出中国大陆半导体制造业务。

关键字: 半导体制造 半导体封测 封装测试 京元电子

电子数据的存储与共享在我们生活中占据越来越重要的地位,而传统的硬盘存储已然难以满足人们日益增长的数据存储需求,为此网络附加存储(NAS)则以其便捷、高效的特点,逐渐受到广大用户的青睐。但是提到NAS,很多人可能会觉得它是...

关键字: 存储 铁威马NAS 硬盘存储

4月25日,以“分享鸿蒙技术特性,交流鸿蒙生态共建”为主题的HDD·行业沙龙在江西武功山成功举行。华为产品专家们现场带来了诸多精彩分享,吸引了来自政务、金融、新闻资讯等多个行业的四十余家软件服务商到场参加。

关键字: 鸿蒙 华为 智能设备
关闭
关闭