位置:科技大田大数据产业专题>>资讯>>市场>>内容阅读
在工业大数据大赛上的发言
原标题:在工业大数据大赛上的发言

工业大数据大赛的奖项公布之前,主办方让我说几句话。我说:做为连续四界的评委,很荣幸地看到竞赛的进步。尤其是看到了几个特别令人振奋的项目,让我毫不犹豫地给出了98 分。对我来说,给出这么高的分数,是非常罕见的。

但是,我还是想提醒大家注意一个问题:为什么评委的主观分和模型的客观分有时会出现不一致——虽然评委的评价相对一致。这是因为: 工业和学术是有差别的

评价模型的时候,学术界关心的是模型的精度。但工业界却不仅仅关注模型的精度,而是更重视可靠性。事实上,“精度”仅仅是针对测试集合的。针对测试集的精度高并不意味着真正好用。因为测试是有运气的,尤其是对不确定性大的问题。

可靠与高精度是两回事。当自变量存在显著误差时,追求高精度反而会有损于可靠性。这一点,是可以用数学来证明的。让模型可靠的办法之一,是深入理解对象和数据,让机理来保证。

我们可以用数据来理解科学原理,也可以用科学原理来理解数据。把数据纳入模型之前,应该仔细分析一下数据的特征:波动情况如何、分布情况如何、与其他的变量关系如何等。这些分析过程,有利于我们对数据有更加深刻的理解。

作为一个长期在工业界工作的评委,对于那些能够把变量选择、分析、建模过程说得清楚的团队,自然就会给予高分。事实上,如果我是甲方,也只会选择这样的模型。

也有些团队,拿到数据之后,就急于测试各种复杂的算法。目的只是找出精度高的那个。在这个分析过程中,缺乏对对象和数据本身的分析。这样做,就很容易陷入“唯精度”的误区、让模型失去可理解性。

所以,我的建议是:如果大家有志于建立实用的模型,首先要花较多的时间,把对象和数据分析清楚,而不是急着去搞算法。重要的话说三遍:不要急着搞算法、不要急着搞算法、不要急着搞算法。返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
免责声明:本网站部 分文章和信息来源于互联网,本网转载出于传递更多信息和学习之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请立即联系管理 员,我们会予以更改或删除相关文章,保证您的权利。对使用本网站信息和服务所引起的后果,本网站不作任何承诺。
Copyright 版权所有 Copyright 2013-2014 福建省云创集成科技服务有限公司
All Rights Reserved. 运营维护:三明市明网网络信息技术有限公司 业务咨询:0598-8233595 0598-5831286 技术咨询:0598-8915168