位置:科技大田大数据产业专题>>资讯>>市场>>内容阅读
视频理解复现难?详解FAIR冠军算法开源代码 PySlowFast
原标题:视频理解复现难?详解FAIR冠军算法开源代码 PySlowFast

https://alexander-kirillov.github.io/tutorials/visual-recognition-iccv19

视频与动作理解俨然已成为当今最火热的研究方向之一,然而在开源社区中找到一个简洁、高效、易于修改(easy to hack)的视频理解代码库(video understanding codebase)仍不是一件简单的事情。

更重要的是,复现当今前沿的(state-of-the-art)的深度学习模型(video understand backbone)一直是令研究者头疼的一件事,视频理解模型往往动辄几十GFlops,需要训练数天,复现出一个模型需要反复的实验调参,让每个细节都正确。这往往会耗费大量的时间和资源,让很多研究者望而却步。

2019年,Facebook AI Research(脸书人工智能研究院,FAIR)在 CVPR 上发布了多项研究工作,并赢得了CVPR 2019 行为检测挑战赛的冠军。

行为检测(AVA)

此外,PySlowFast 还预留了接口,可通过简单的编辑支持多模态视频理解,视频自监督学习等等任务。据FAIR研究团队表示,PySlowFast将被积极维护,实时更新其团队及业界的前沿算法,同时一并开源其预训练模型,使代码库成为视频理解领域的基线标杆。

笔者参考教程简单试用了PySlowFast代码库。在完成安装后,通过下载MODEL_ZOO提供的预训练模型和相应的配置文件,运行如下代码,就可以测试(Test)模型在不同视频数据库上的性能:

pythontools/run_net. py

--cfg configs/Kinetics/C2D_8x8_R50.yaml

DATA.PATH_TO_DATA_DIR path_to_your_dataset

NUM_GPUS 2

笔者可以轻易通过代码库复现出前沿的高性能模型,同时笔者也尝试通过简单的修改来实现自己的模型,并用多台GPU进行训练得到前沿的性能。

笔者未尝试更加复杂的任务,感兴趣的读者可以直接前往其Github页面一探究竟:

招 聘

免责声明:本网站部 分文章和信息来源于互联网,本网转载出于传递更多信息和学习之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请立即联系管理 员,我们会予以更改或删除相关文章,保证您的权利。对使用本网站信息和服务所引起的后果,本网站不作任何承诺。

Copyright 版权所有 Copyright 2013-2014 福建省云创集成科技服务有限公司
All Rights Reserved. 运营维护:三明市明网网络信息技术有限公司 业务咨询:0598-8233595 0598-5831286 技术咨询:0598-8915168