原文链接:
Kaggle是数据科学竞赛的热门平台,它可能会让初学者陷入困境。 毕竟,一些比赛有超过100万美元奖池和数百个竞争对手。 顶尖的团队拥有数十年的综合经验,处理有挑战的问题,如改善机场安全或分析卫星数据。 一些初学者犹豫使用Kaggle,这并不奇怪。他们有理由担忧,如: 那么,如果你有过这些问题,你的想法是正确的。 在本指南中,我们将分解你需要了解的有关入门知识,提高你的技能,并享受在Kaggle的一切。 首先,我们需要弄清楚一些事情: Kaggle比赛与“传统”数据科学有重要差异,但如果你以正确的心态接触,它们仍然会提供宝贵的经验。 我们来解释一下: 本质上,比赛(以及奖池)必须符合几个标准。 相比之下,日常数据科学不需要符合相同的标准。 Kaggle比赛鼓励你挤出最后一丝性能,而传统的数据科学则会鼓励效率并最大化业务影响。 尽管Kaggle和典型的数据科学存在差异,但是,对于初学者而言,Kaggle仍然是一个很好的学习工具。 接下来,我们将给出逐步的行动计划,在Kaggle上升和竞争。 首先,我们建议选择一种编程语言并坚持使用它。Python以及R在Kaggle和更广泛的数据科学界都很受欢迎。 如果本身白纸一张,我们建议使用Python,因为它是一种通用的编程语言,可以从端到端使用。 加载,导航和绘制数据(即:探索性分析)的能力是数据科学的第一步,因为它可以告知你通过模型训练中做出的各种决策。 如果你走Python的路线,那么我们建议使用专门为此而设计的Seaborn库。它具有绘制许多最常见和有用的图表的高级函数。 在进入Kaggle之前,我们建议你在一个更容易,更易于管理的数据集上训练一个模型。这将使你熟悉机器学习的库和形势。 关键是要良好的开发习惯,例如,将数据集分成单独的训练集和测试集,交叉验证以避免过度拟合,并使用适当的性能指标。 对于Python,最好的通用机器学习库是Scikit-Learn。 现在我们准备尝试Kaggle比赛,分为几类。最常见的是: 特色 - 这些通常由公司,组织甚至政府赞助。他们有最大的奖池。 「入门」比赛对于初学者来说非常棒,因为它们为你提供低风险的环境来学习,并且还得到许多社区创建的教程的支持。 在这个基础上,现在是进行“特色”比赛的时候了。一般来说,这些将需要更多的时间和精力来排好。 因此,我们建议明智地挑选你的战斗。参加比赛,了解与你的长期目标相一致的技术和科技。 虽然奖金是好的,更有价值(可靠)的奖励将是你为你的职业发展的技能。 最后,我们将介绍我们的7个最喜欢的技巧,以充分利用你在Kaggle的时间。 如果你曾经玩过一个令人上瘾的游戏,你会知道增量目标的力量。这是多么伟大的游戏让你上钩。每个目标都足够大,以获得成就感,然而现实感足以达到目标。 大多数Kaggle参与者绝对不会赢得一场比赛,这完全是正常的。如果你把它当成你的第一个里程碑,你可能会感到灰心丧气,几次尝试后就失去了动力。 增量目标使旅程更加愉快。例如: 这个策略将让你衡量你的进步并不断改善。 Kaggle有一个很酷的功能,参与者可以提交「内核」,它是探索概念、展示技术或甚至共享解决方案的简短脚本。 当你开始一场比赛或者处于停滞状态时,回顾流行的内核可以激发更多的想法。 不要害怕问「愚蠢」的问题。 毕竟,可能发生的最糟糕的事情是什么?也许你是被忽视…这就是所有。 另一方面,你可以获得丰富的成果,包括来自更有经验的数据科学家的建议和指导。 一开始,我们建议单独工作。这将迫使你解决应用机器学习过程的每一步,包括探索性分析,数据清洗,特征工程和模型训练。 如果你太早开始合作,你可能会错过开发这些基础技能的机会。 就这样说,在未来的比赛中组队可以是推动你的上限和向他人学习的好方法。许多过去的获奖者都是将他们的知识结合起来的团队。 另外,掌握机器学习的技术技能之后,你可以与可能拥有更多领域知识的其他人进行协作,进一步拓展机会。 记住,你不一定要成为一个长期的Kaggler。如果你发现你不喜欢格式,那没有什么大不了的。 事实上,许多人在进入到自己的项目或成为全职数据科学家之前使用Kaggle作为垫脚石。 这是你尽可能多专注于学习的另一个原因。从长远来看,比起追求最大的奖池,提供相关经验的针对性比赛更好。 一些初学者从来没有开始,因为他们担心他们的个人简介中的低排名。当然,竞争焦虑是一个现实的现象,并不局限于Kaggle。 然而,低排名实际上并不是大问题。没有人会评判你,因为他们都是初学者。 即使如此,如果你仍然非常担心你的个人资料中的低排名,你还可以创建一个单独的练习帐户来学习诀窍。一旦你感到合适,你可以开始使用你的“主帐户”来建立你的奖杯。 (再一次,这是完全不必要的!) 在本指南中,我们分享五个入门Kaggle的步骤: 最后,在这个平台上,我们分享7个的最喜欢的提示: 原创或专栏文章,作者:数据工匠,如若转载,请注明出处:《Kaggle入门手册》
Kaggle与“传统”数据科学
“传统”数据科学
如何入门Kaggle
研究 - 这些都是以研究为导向,几乎没有奖金。他们也有非传统的提交流程。
招聘 - 这些由希望聘请数据科学家的公司赞助。这些还是比较少见的。
入门 - 结构如特色比赛,但没有奖池。它们以更简单的数据集为特征,大量教程和滚动提交窗口,因此你可以随时输入。
步骤5:争取最大限度地发掘学习,而不是赚钱。
提示#3:在论坛上提问。