近日,香港中文大学-商汤联合实验室开源了基于 pytorch 的检测库——mmdetection。上个月,商汤和港中大组成的团队在 coco 比赛的物体检测(detection)项目中夺得冠军,而 mmdetection 正是基于 coco 比赛时的 codebase 重构。
商汤称,这个开源库提供了已公开发表的多种视觉检测核心模块。通过这些模块的组合,可以迅速搭建出各种著名的检测框架,比如 faster rcnn,mask rcnn,和 r-fcn 等,以及各种新型框架,从而大大加快检测技术研究的效率。
目前,mmdetection 的第一个版本已经实现了 rpn,fast r-cnn,faster r-cnn,mask r-cnn,近期还计划放出 retinanet 和 cascade r-cnn。
项目地址:
https://github.com/open-mmlab/mmdetection
此次项目的参与者,香港中文大学陈恺博士称,相比 fair 此前开源的 detectron,mmdetection 有以下几大优势:
编者注:detectron 是 fair 用于实现最先进的目标检测算法(包括 mask r-cnn)的软件系统。该系统基于深度学习框架 caffe 2 ,由 python 编写而成。(《mask r-cnn 源代码终上线,facebook 开源目标检测平台—detectron》)
performance 稍高:由于 pytorch 官方 model zoo 里面的 resnet 结构和 detectron 所用的 resnet 有细微差别(mmdetection 中可以通过 backbone 的 style 参数指定),导致模型收敛速度不一样,所以我们用两种结构都跑了实验,一般来说在 1x 的 lr schedule 下 detectron的会高,但 2x 的结果 pytorch 的结构会比较高。
训练速度稍快:mask r-cnn 差距比较大,其余的很小。采用相同的 setting,detectron 每个 iteration 需要 0.89s,而 mmdetection 只需要 0.69s。fast r-cnn 比较例外,比 detectron 的速度稍慢。另外在我们的服务器上跑 detectron 会比官方 report 的速度慢 20% 左右,猜测是 fb 的 big basin 服务器性能比我们好?
所需显存稍小:显存方面优势比较明显,会小 30% 左右。但这个和框架有关,不完全是 codebase 优化的功劳。一个让我们比较意外的结果是现在的 codebase 版本跑 resnet-50 的 mask r-cnn,每张卡(12 g)可以放 4 张图,比我们比赛时候小了不少。
易用性更好:基于 pytorch 和基于 caffe2 的 code 相比,易用性是有代差的。成功安装 detectron 的时间,大概可以装好一打的 mmdetection 吧。
当然,陈恺博士也承认 detectron 也有一些明显优势,“作为第一个全面的 detection codebase,加上 fair 的金字招牌,关注人数和用户很多(虽然吐槽也比较多),release 的模型也比较全面。我们也在努力扩充 model zoo,奈何人力和算力还是有很大差距,所以还需要时间。”
与 mmdetection 一起开源的还有一个基础库——mmcv。据陈恺博士介绍, mmcv 基础库主要分为两个部分:一部分是和 deep learning framework 无关的一些工具函数,比如 io/image/video 相关的一些操作;另一部分是为 pytorch 写的一套训练工具,可以大大减少用户需要写的代码量,同时让整个流程的定制变得容易。
项目地址:
https://github.com/open-mmlab/mmcv
实际上,mmdetection 和 mmcv 都同属于香港中文大学多媒体实验室的 open-mmlab 计划。港中大助理教授林达华称,启动 open-mmlab 计划,是希望在一个统一的代码架构上,逐步开放实验室积累的算法和模型,为计算机视觉的研究社区贡献自己的一分力量。以下是简单说明:
1. 这是一个纯粹的学术开源计划,所开放的都是已经公开发表的算法和模型(包括我们自己和其它研究组提出的代表性算法),不涉及任何的商业化技术。
2. 我们希望这个计划能够降低算法复现的难度,和不必要的重复实验与训练,从而让使用者能够专注于新问题的提出、新思路的探索,而不需要花费主要精力用于已有算法组件的细节调试。
3. 我们在开放的 codebase 中会对现有的主流算法框架进行重构,把它们分解为可复用的组件。希望未来的研究者可以基于这些组件,能迅速建立新的算法框架原型,加快探索的进度。
4. 我们希望 open-mmlab 成为一个学术交流和探讨的渠道。
基于nios ii嵌入式软核处理器的嵌入式系统设计解决方案
科创板上市委同意埃夫特的首发上市申请
兰钧首批314Ah电芯正式量产下线
关于预测AI的十项原则
德索LVDS端子冷知识
商汤和港中大开源了基于PyTorch的检测库——mmdetection
威控科技热电厂热网无线远程计量监控解决方案
焊机联网系统
智能手机白屏死机避免方法
何飚升任中国联通副总经理
大陆工业和信息化部:四方面推动人工智能产业发展
废气vocs在线监测仪正宗生产厂家
dfrobot记忆合金肌肉驱动器 介绍
瑞佑科技推出支持文字与绘图模式的TFT彩屏控制器
数控电源电路的工作原理、功能及故障分析
扫地机器人中的灰尘识别感应器用到了哪些技术
基于STM32采用CS创世 SD NAND(贴片SD卡)完成FATFS文件系统移植与测试(中篇)
5G真的来了 这些问题你一定想问!
2017三大领域展望:物联网(IoT)、VR/AR和机器学习
ST推出一款新的高集成度系统级芯片