阿里推出AI鉴黄师，将用于集中打标和审查可疑图片

“唐马儒们”这两年可能正在面临前所未有的职业危机。
这个因饰演鉴黄师而走红的角色，激起了大家对鉴黄这个职业的好奇心。南方都市报就曾对这个群体做过调查，得出的结论是：
不知道的以为很黄很刺激，其实挺辛苦，也挺枯燥。平均下来一分钟要浏览50个以上的用户、上百张图片，所以盯着电脑都要全神贯注。
这个最先因“扫黄打非”而被公安部门设立的岗位，这些年也成为各大互联网公司的“刚需”岗位之一。但近年来由于 ai 技术的迅猛发展，辛苦又枯燥的鉴黄师工作正越来越多地被 ai 所替代。
近日，阿里就隆重推出了一位“ai 鉴黄师”。
据羿戓设计所了解，阿里ai鉴黄师不仅能鉴别黄片黄图，连带有情色信息的语音内容都能识别，甚至无语义的呻吟声也能识别出来。
为什么需要 ai 鉴黄？做电商出身的阿里巴巴，使用 ai 鉴黄最先来自于自身具体业务的需求。
“电商业务场景中，我们需要对大量商家的海量图片进行审核，那时还没有 ai 的说法，只是用机器学习的方法来进行图片的鉴别。”薛晖举例，在违规售卖的商家中，有些是非恶意的，比如一些受保护的动植物、某些品类的刀具甚至药物等，某些商家不知道这是不能卖的；还有一些就是“明知故犯”的，比如用色情图片恶意引流、发布一些做黑灰产的广告、色情光盘网盘地址等。
随着商家数量和图片数量的飞速增长，对效率更高、成本更低的ai鉴图就有了刚性需求。
后来，随着阿里在电商、大文娱、社交、云计算、o2o、视频、直播等领域的不断拓展，这项需求愈加强烈，凡是有ugc（用户产生内容）的业务，都会面临色情低俗风险。在数据量和算法技术有一定积累后，这项技术也同时开始对外进行输出，越来越多的企业和机构也开始使用这项服务。
雷锋网发现，2015年阿里曾推出“绿网”平台，其最主要的功能之一就是进行色情、广告等信息的识别和拦截。薛晖告诉编辑，绿网的这个功能，当年也是阿里云战略中的一部分，ai 鉴黄的技术是作为赋能生态的一部分。
也就是说，目前用到 ai 鉴黄的业务早已不仅仅是淘宝中的商家，还有千千万万使用阿里云的企业们，比如，近两年因涉黄而颇受关注的多家直播网站。
从存储需求到鉴别需求，随着 ai 鉴黄技术的加入，这项技术会让阿里云争取到更多的用户。
鉴黄需要攻克的三个关键点提到人工智能，都会关注三个问题：数据、算法、算力。
数据方面， “ai鉴黄师 ”首先需要有充足的学习资料。
薛晖透露，首先他们会写一些自动化爬取图片的脚本，可以直接到网页中相应区域进行图片爬取。目前他们总共浏览了近2000家网站，下载了超过6000万张疑似色情图片。
但这些图片仅仅是疑似图片，还需要进行去重，实际去重后约2300万张图片，在这之中，需要人工再进行标识，最终实际标注了超过1300万张图片，而这1300多万张图片就是最后模拟训练的原始数据库。
值得注意的是，数据标准的制定很重要，因为在不同国家、不同行业、不同时期，对色情的标准定义不一样，比如政府网站和直播网站，就会有不一样的标准，目前，他们可以给用户提供一定的操作空间，用户可以根据自身情况来对风险做不同层次的管控，比如他们会给用户很多选项，不同的用户可以自身需要来勾选。
第二个关键点是算法。
比如，10000 张图片里面往往有一张属于色情图片，但为了识别出这一张图片，机器扫描的成本是10000次，这就需要模型更轻，速度更快。据薛晖介绍，在算法方面，他们对神经网络进行了优化，并针对问题的特点做了专门的改进，不光有检测模型来拦截风险，还部署了图像检索引擎，来防范突发的风险。
第三是在算力方面，原来千万级别的样本，gpu机器单机单卡的情况下训练时间要近一个月，后来团队更换了网络结构并实现了多机多卡训练，将千万级别样本的训练时间控制在一周左右。换句话说，面对同样数量的图片，他们选择用更多的机器对图片进行训练，比如原本需要一周才能训练完的图片，现在只需要一天，这样就可以更快的对模型进行优化，提高迭代速度。
ai 与人工如何合作？虽然 ai 鉴黄所发挥的能力越来越大，但目前仍然需要人工的干预。
据薛晖透露，目前 ai 鉴黄师对单张图的判断准确率要大于99.5%，通常来看，ai对一张图有三个判断：违规，可疑，正常。
对于违规和正常的图片，他们会放过，而对标注为可疑的图片，则需要人工审核，这部分数据占比较低，一般小于0.5%。打个比方，有4亿张图片要审，ai识别准确率为99.5%，只有20万张可疑的图片，需要人工再审核一次。
另外，据羿戓设计了解，由于黑产针对安全模型也在不断进行对抗，比如业内很关注的对抗学习（gan），明明肉眼看是一张色情图片，但黑产经过处理可以逃避检测。针对这样的情况，安全模型也需要不断进行升级，目前，阿里有跟浙大合作做这方面的研究，之后他们会公布研究结果。
在语音识别这方面，ai也仍需不断进行完善，在当天的峰会中，来自科大讯飞北京研究院副院长伍大勇举了这样一个例子，“黑夜总会过去，白天总会来临”，这句话本并没有什么问题，但在系统中一直过不去，原因是这句话当中有“夜总会”三个字。
也就是说，目前 ai 鉴黄并不能完全取代人工鉴黄，最佳的审核方式是智能为主，人工为辅。由于ai鉴黄师的出现，人工鉴黄师群体会变少，未来人工在图片鉴黄中的工作将主要集中于打标和审查可疑图片。

国内芯片龙头企业有哪些？
颠覆你对ARM Cortex-M断点认知
ELEXCON 2022速递|多元布局中微半导加速发展车规级MCU
NI推出3U PXI Express嵌入式控制器且搭载第二代Intel Core i5处理器
楷登电子发布增强型 Cadence® Voltus™IC 电源完整性解决方案
阿里推出AI鉴黄师，将用于集中打标和审查可疑图片
下半年的两款旗舰iPhone8和华为mate10，你期待谁？
AMD2021年第一季度净收入和每股收益为去年同期的三倍
AI技术的融入，将促使智能安防迈向更高层级的智慧安防
纯电动汽车为何买的人越来越少
释放产业升级新动能，三安亮相SEMICON Taiwan 2023
神经网络人工智能气体分析仪：识别多种气味的“电子鼻”
iphone8什么时候上市？iphone8最新消息：iPhone8外观设计曝光，或致敬苹果4？三星S8屏幕现悲剧
新的JUMO LOGOSCREEN 601无纸记录仪适用于大多数RTD温度探头？
存储器市场不断供大于求价格却一直在上涨
OLAP数据库将全面地进入云原生时代，实现会数据库就会大数据
如何设计一个以双单片机电路为核心的波特率变换器？
元器件知识：行业精英策论PCB设计关键技术
德马科技“互联网+物联网”的全球化企业进军的极大决心
射频通信系统的组成及电路图