在工业大数据大赛上的发言

时间:1753-01-01 作者: 来源:搜狐

原标题：在工业大数据大赛上的发言

工业大数据大赛的奖项公布之前，主办方让我说几句话。我说：做为连续四界的评委，很荣幸地看到竞赛的进步。尤其是看到了几个特别令人振奋的项目，让我毫不犹豫地给出了98 分。对我来说，给出这么高的分数，是非常罕见的。

但是，我还是想提醒大家注意一个问题：为什么评委的主观分和模型的客观分有时会出现不一致——虽然评委的评价相对一致。这是因为： 工业和学术是有差别的。

评价模型的时候，学术界关心的是模型的精度。但工业界却不仅仅关注模型的精度，而是更重视可靠性。事实上，“精度”仅仅是针对测试集合的。针对测试集的精度高并不意味着真正好用。因为测试是有运气的，尤其是对不确定性大的问题。

可靠与高精度是两回事。当自变量存在显著误差时，追求高精度反而会有损于可靠性。这一点，是可以用数学来证明的。让模型可靠的办法之一，是深入理解对象和数据，让机理来保证。

我们可以用数据来理解科学原理，也可以用科学原理来理解数据。把数据纳入模型之前，应该仔细分析一下数据的特征：波动情况如何、分布情况如何、与其他的变量关系如何等。这些分析过程，有利于我们对数据有更加深刻的理解。

作为一个长期在工业界工作的评委，对于那些能够把变量选择、分析、建模过程说得清楚的团队，自然就会给予高分。事实上，如果我是甲方，也只会选择这样的模型。

也有些团队，拿到数据之后，就急于测试各种复杂的算法。目的只是找出精度高的那个。在这个分析过程中，缺乏对对象和数据本身的分析。这样做，就很容易陷入“唯精度”的误区、让模型失去可理解性。

所以，我的建议是：如果大家有志于建立实用的模型，首先要花较多的时间，把对象和数据分析清楚，而不是急着去搞算法。重要的话说三遍：不要急着搞算法、不要急着搞算法、不要急着搞算法。返回搜狐，查看更多

责任编辑：

声明：该文观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。

免责声明：本网站部分文章和信息来源于互联网，本网转载出于传递更多信息和学习之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请立即联系管理员，我们会予以更改或删除相关文章，保证您的权利。对使用本网站信息和服务所引起的后果，本网站不作任何承诺。