当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 本文描述了猿辅导开源分布式机器学习库ytk-learn及分布式通信库ytk-mp4j的相关内容,可实现在多应用场景中使用。ytk-learn 是基于Java的高效分布式机器学习库, 简单易用,文

本文描述了猿辅导开源分布式机器学习库ytk-learn及分布式通信库ytk-mp4j的相关内容,可实现在多应用场景中使用。ytk-learn 是基于Java的高效分布式机器学习库, 简单易用,文档详细,只需要用户安装Java 8运行时环境即可,而且所有模型都有可运行的demo。

猿辅导公司开源了两个机器学习项目——ytk-learn, ytk-mp4j,其中 ytk-mp4j 是一个高效的分布式通信库,基于该通信库我们实现了 ytk-learn 分布式机器学习库,该机器学习库目前在猿辅导很多应用场景中使用,比如,自适应学习、学生高考分预测、数据挖掘、课程推荐等。

ytk-learn分布式机器学习库 项目背景

LR(LogisTIc Regression), GBDT(Gradient BoosTIng Decision Tree), FM(FactorizaTIon Machines), FFM(Field-aware FactorizaTIon Machines) 模型是广告点击率预测和推荐系统中广泛使用的模型,但是到目前为止几乎没有一个高效的机器学习开源项目集这几种常用模型于一身,而且很多机器学习开源项目只能在特定计算平台下使用,最重要的是不能高效的整合到线上生产环境中。ytk-learn 就是解决以上问题而产生的。

图1 ytk-learn 特性概略

项目简介

ytk-learn 是基于Java的高效分布式机器学习库,实现大量的主流传统机器学习模型(GBDT, LR, FM, FFM等)和loss函数,支持单机多线程、多机集群及分布式计算环境。

其中 GBDT/GBRT 的实现借鉴吸收了 XGBoost 和 LightGBM 的大部分有用特性,支持特征并行和数据并行,支持传统的精确算法和直方图近似算法,支持 level-wise 或者 leaf-wise 的建树方式,而且还实现了分布式带权分位数近似。在单机数据并行的场景中训练速度跟 XGBoost 相当,在非$2^n$台机器的分布式场景中比 LightGBM 速度更快,更稳定。

传统的 GBDT/GBRT 在含有大量 Categorical 特征的场景中无法使用,我们实现了多种适用于大量 Categorical特征的 GBST(Gradient Boosting Soft Tree)模型,在猿辅导的点击率预测和推荐场景中效果明显好于LR、FM、FFM等模型。

ytk-learn 实现了改进的 Hoag(Hyperparameter optimization with approximate gradient, ICML2016)算法,能够自动高效的进行超参数搜索。当目标函数是凸函数时,hoag 能快速得到最优超参数(kaggle 比赛利器),效率明显高于传统的网格超参数搜索算法(grid search),而且在非凸目标函数场景中也适用。

其他特性:

1. 简单易用,文档详细,只需要用户安装Java 8运行时环境即可,而且所有模型都有可运行的demo

2. 支持主流的操作系统:Linux,Windows,Mac OS,仅需安装Java8运行环境即可使用

3. 支持单机多线程,多机集群及分布式环境(Hadoop,Spark),相比Hadoop Mahout, Spark MLlib效率高很多

4. 提供简单易用的在线预测代码,可以方便整合到线上生成环境

5. 支持多种目标函数和评估指标,支持L1,L2,L1+L2正则

6. 树模型支持样本采样,特征采样,提供初始预估值的训练

7. 支持特征预处理(归一化,缩放),特征哈希,特征过滤,基于样本标签采样

8. 提供了读取数据时进行高效数据处理的python脚本

9. 训练模型支持checkpoint,继续训练

10. LR 支持 Laplace 近似,方便做 Exploitation&Exploration

11. 基于猿辅导的 ytk-mp4j 通信库,分布式训练效率非常高

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭