字幕组双语原文:机器学习最优算法:XGBoost
英语原文:XGBoost Algorithm: Long May She Reign!
翻译:雷锋字幕组(yhfwww)
仍然记得15年前参加工作的第一天,刚完成研究生学业的我,加入了一家全球投资银行担任分析师。那天我不停地拉直领带,努力回忆起学过的所有东西,怀疑自己是否足够胜任工作。察觉到我的焦虑,老板微笑着说:
“别担心!你只需要知道回归模型就行了!”
我当时在想,“我知道这个!”。我知道回归模型、线性回归和逻辑回归。老板的说法是对的,在任期内我仅仅建立了基于回归的统计模型。在那个时候,回归建模是预测分析无可争议的女王。15年后,回归建模的时代已经结束。迟暮的女王已经退场,取而代之的是名字时髦、活力满满的新女王XGBoost(Exterme Gradient Boosting,极限梯度提升)。
什么是XGBoost?
XGBoost是基于决策树的集成机器学习算法,使用了梯度提升框架。在涉及非结构化数据(图像、文本等)的预测问题中,人工神经网络往往优于所有其他算法或框架。然而,当涉及到中小型结构化/表格数据时,基于决策树的算法被认为是目前同类中最好的。请参阅下表了解这些年来基于树的算法的发展。
基于决策树的XGBoost算法演化
XGBoost算法是华盛顿大学的一个研究项目。陈天奇和Carlos Guestrin在2016年的SIGGDD大会上发的的论文,让机器学习世界如火如荼。自引入以来,该算法不仅赢得了众多的Kaggle竞赛,而且还被认为是若干前沿行业应用的驱动力。因此,有一个强大的数据科学家社区为XGBoost开源项目做出贡献,GitHub上有大约350个贡献者和~3600个提交者。该算法有以下特点:
决策树,在其最简单的形式,是易于可视化和相当可解释的算法,但为下一代基于树的算法建立直觉可能有点棘手。下面是一个简单的类比,可以更好地理解基于树的算法的发展。
照片来Unsplash的rawpixel
想象一下,你是一个招聘经理,面试几位资历优秀的应聘者。基于树的算法进化的每一步都可以看作是面试过程的一个版本。
XGBoost和Gradient Boosting Machines(GBMs)都是集成树方法,它们采用梯度下降结构来提高弱学习者(CARTs)的学习能力。然而,XGBoost通过系统优化和算法增强改进了基本GBM框架。
XGBoost如何优化标准GBM算法
算法增强:
我们使用scikitlearn的“Make_nuclassification”数据包创建了一个随机样本,其中有100万个数据点,有20个特征(2个是信息性的,2个是冗余的)。我们测试了一些算法,如Logistic回归、随机森林、标准梯度提升和XGBoost。
XGBoost与使用SKLearn的Make_Classification 数据集的其他ML算法的比较
如上图所示,与其他算法相比,XGBoost模型具有最佳的预测性能和处理时间组合。其他严格的基准研究也产生了类似的结果。难怪XGBoost在最近的数据科学竞赛中被广泛使用。
“如有疑问,请使用XGBoost”——Owen Zhang
所以我们应该一直使用XGBoost吗?
说到机器学习(甚至是生活),没有免费的午餐。作为数据科学家,我们必须测试手头数据的所有可能的算法,以确定冠军算法。此外,选择正确的算法是不够的。我们还必须通过调整超参数来为数据集选择正确的算法配置。此外,在选择获胜算法时还有其他一些考虑因素,例如计算复杂度、可解释性和易于实现。这正是机器学习开始从科学走向艺术的起点,但老实说,这就是奇迹发生的地方!
未来会怎样?
机器学习是一个非常活跃的研究领域,已经有几种可行的XGBoost替代方案。微软研究院最近发布了LightGBM框架来增强梯度,显示出巨大的潜力。Yandex Technology开发的CatBoost已经取得了令人印象深刻的基准测试结果。在预测性能、灵活性、可解释性和实用性方面,我们有一个比XGBoost更好的模型框架是迟早的事。然而,直到有一个强大的挑战者出现,XGBoost将继续统治机器学习世界!
【封面图片来源:网站名Unsplash,所有者: Jared Subia】
雷锋字幕组是由AI爱好者组成的志愿者翻译团队;团队成员有大数据专家、算法工程师、图像处理工程师、产品经理、产品运营、IT咨询人、在校师生;志愿者们来自IBM、AVL、Adobe、阿里、百度等知名企业,北大、清华、港大、中科院、南卡罗莱纳大学、早稻田大学等海内外高校研究所。
了解字幕组请联系微信:tlacttlact
转载请联系字幕组微信并注明出处:雷锋字幕组
雷锋网雷锋网返回搜狐,查看更多
责任编辑:
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。