或许 你的AI技能正在“贬值”

我们正处于ai创业热潮之中,机器学习专家的薪资水平水涨船高,投资者也乐于对ai初创公司慷慨解囊。ai的普及成为推动社会生产力标志,必将改变我们的生活。
但是,本文作者前谷歌工程师、inovo.vc的ctoric szopa认为,ai从业者的技能正在贬值。他从一个选择题入手告诉我们,ai工具、数据集、资金投入以及行业+ai的优势正在一步步弱化单一的ai基础技术优势。
先来做一道选择题。
alice和bob是两位ai创业者, 他们的公司筹集了大致相同的资金,并在同一个市场上展开了激烈的竞争。
alice把大部分钱花来雇佣最好的工程师,请来了一批在人工智能研究方面经验丰富的博士。
而bob选择雇用资质一般但还算能干的工程师,并将省下来的钱用于获得更好的数据。
如果是你,你会给谁投资?
当然是bob。
为什么呢?
从本质上讲,机器学习的原理是从数据中获取信息,并将其转化为模型权重。更好的模型使得这个过程更有效(时间或者整体质量方面),但如果假设模型训练相对都比较充分,更好的数据肯定会产生更好的结果。
为了说明这一点,让我们再进行一个快速而简单的测试。
假设我创建了两个性能不太一样的卷积网络。“更好”的模型的最后一个全连接层有128个神经元,而“稍微差一点”的只有64个。我在不同大小的mnist数据集的子集上训练它们,并绘制模型在测试集上的准确率与训练样本数的折线图。
蓝色是“更好”的模型,绿色是“稍微差一点”的模型
很显然,训练数据集大小具有积极影响(至少在模型开始过拟合和准确率达到稳定之前)。值得一提的是,在40000个样本上训练的“稍微差一点”模型的准确率比在30000个样本上训练的“更好”模型的准确率要高!
在我的小例子中,我们处理的是一个相对简单的问题,而且有一个比较全面的数据集。而在现实生活中,我们的条件并不是如此完美。在许多情况下,增加数据集经常会具有非常显著的效果。
事实上,alice的工程师不仅仅是和bob的工程师竞争。由于ai社区的开放文化及其对知识共享的重视,他们的竞争对手其实来自谷歌、facebook、微软以及世界各地数千所大学的研究人员。
因此, 好的工程师虽然很重要的,但如果你是ai领域的话,数据的竞争优势会显得更为关键。
然而,更加重要的问题是,你如何才能保持自己的优势。
ai工具正越来越简单好用
2015年,当我还在谷歌工作,刚开始玩distbelief,也就是后来我们所熟知的tensorflow。当时这个工具太难用了,所以当时想让它在谷歌构建的系统之外运行完全是一个白日梦。
2016年末,我进行了一个概念验证的研究,在组织病理学图像中检测乳腺癌。当时我想使用迁移学习:采用谷歌当时最好的图像分类架构inception,并在我的癌症数据上重新训练。我可以使用谷歌提供的一个经过预训练的初始权重,改变顶层结构来匹配我正在做的工作。
在tensorflow上经过长时间的反复尝试,我终于找到了操作不同层的方法,让它基本上运作起来。这需要很大的毅力去阅读tensorflow的资料。不过至少我不必太担心依赖关系,因为tensorflow贴心地准备了docker镜像。
在2018年初,多亏了keras(基于tensorflow的一个框架),只需几行python代码就能完成这个项目,而且使用它不需要你对自己正在做的事情有深入理解。但它仍然有个痛点:超参数调优。
如果你有一个深度学习模型,可以调节多个参数,如层数和大小等。在我写这些文字的时候(2019年初),谷歌和亚马逊提供了自动模型调优服务(cloud automl,sagemaker)。
我预测手动调优迟早会灭绝,工程师们也会从这项繁琐的工作中解脱了。
总的趋势是,将困难的事变得容易,你无需深入理解就能实现更多的东西。过去的那些伟大工程现在听起来相当一般,所以我们不应该期望我们现在的成就在将来有多好。
听起来很欢欣鼓舞是不是,但是,对于那些在ai技术上投入巨资的公司和个人来说,这可以是个坏消息。目前来说,掌握某些ai技术还算是企业的竞争优势,因为一个称职的机器学习工程师需要花费大量的时间阅读论文,并需要扎实的数学背景。
但是,随着工具的改进,情况将不再如此。读论文更多会转向读工具教程。如果你没有很快意识到你该关注的重点,一个带了数据更完备的实习生团队就可能会抢走你的饭碗。
想长期保持竞争优势?难上加难!
让我们再回到文章开头的例子。凭借出色的数据集,bob成功地与alice展开竞争,推出了自己的产品,并稳步增加了市场份额。他也慢慢可以开始雇佣更好的工程师,因为坊间传言他的公司是一个好去处。
但这时候,又出现了一个chuck,虽然入局晚,但他比bob更有钱。
在构建数据集时,钱至关重要。但通过砸钱来加快工程项目进度非常困难。事实上,使用太多新人可能会减缓进度,但构建数据集就不同了。数据集需要大量人工操作,而你可以通过雇用更多人手来搞定它。另一种可能是有人拥有数据,那么你所要做的就是支付数据使用费。
无论如何,钱能让数据集来得更快。
但是问题来了,为什么chuck可以筹到比bob更多的钱?
当创始人提出一轮融资时,他们会努力平衡两个可能相互矛盾的目标。他们需要筹集足够的资金在市场上竞争,但也不能太多,因为这会导致股权过度稀释。创始团队必须在创业公司中保持足够的股份,以免失去创业的动力。
另一方面,投资者希望投资具有巨大上升潜力的创意,但他们必须控制风险。随着预期风险的增加,他们会为支付的每一美元要求更大比例的股份。
当bob筹集资金时,“人工智能确实对产品有所帮助”不过只是一个信念。无论他作为创始人多优秀,她的团队有多好,但有可能他试图解决的问题根本就难如登天。chuck的情况非常不同。他知道他面临的问题完全可以解决!
在这种情况下,bob的应对方法很可能是提出另一轮融资,以便处于有利位置,因为他(暂时)仍然在竞争中领先。但是,如果chuck可以通过战略合作关系稳固获取数据呢?比如举个癌症诊断初创公司的例子,chuck可能利用他在一家重要医疗机构的内部职位,与该机构达成一份内部协议。这时候, bob很可能无法抗衡。
你的产品需具备防御性,最好是一条“护城河”
ai的杠杆效应
对业务进行分类的一种方法是,它是直接增加价值,还是为某些其他价值来源提供杠杆效应。以一家电子商务公司为例,增加价值就像创造了新的产品线,建立新的分销渠道则是一个杠杆,削减成本也是杠杆。
杠杆可能比直接施力更有效。但是,杠杆仅在与直接价值来源耦合时才起作用。一个微小的数字,翻了两倍,三倍,还是很小。如果你没有可出售的部件,开辟新的分销渠道也只是浪费时间。
在这种情况下我们应该如何看待ai?有很多公司试图将ai作为他们的直接产品(用于图像识别的api等),对一个ai专家,这可能很有吸引力。
然而,这常并不是一个好的选择。首先,你是在google和亚马逊等这些大公司竞争。其次,开发真正有用的通用ai产品非常困难。例如,我一直想使用google的vision api。不幸的是,我们从未遇到过客户需求与产品充分匹配的情况。总是有各种各样要么开发不够要么开发过度的情况。
更好的选择是将ai视为杠杆。
你可以采用现有的,有效的商业模式,通过ai增强它。例如,如果生产流程依靠人类的认知劳动,那么将其自动化可能会为毛利率带来显著提升。这里我能想到的例子有:心电图分析,工业检查,卫星图像分析。同样令人兴奋的是,因为ai属于辅助后端,仍然可以利用非ai业务来保持公司的竞争优势。
结论
ai是一项真正的变革性技术。但是,以此为基础创业是一件棘手的事情。你不应该完全依赖于ai技能,因为市场趋势就是技术会贬值。
构建ai模型可能非常有趣,但真正重要的是拥有比竞争对手更好的数据。
保持竞争优势很难,特别是遇到比你资金更充足的竞争对手,这种情况在你的ai创业进行时很可能发生。你的目标应该是创建一个可扩展的数据收集过程,而这个过程很难被竞争对手复现。
ai非常适合颠覆依赖低附加值、劳动重复性的行业,因为它使该工作自动化成为可能。

解析人工智能在网络安全中的偏见与漏洞
智能家居选WiFi模块,是馅饼还是陷阱?
iphone8什么时候上市?iphone8最新消息:iphone8彻底曝光!Touch ID内置全面屏!
MS5607与MS5611气压传感器怎么选择
为汽车提供电源蓄电池突然爆炸 上盖被炸飞
或许 你的AI技能正在“贬值”
北京君微处理器芯片新产品正进行功能验证和量产投片工作
一文看懂焊接电弧的静特性
2019年L2级自动驾驶技术将在新车上广泛渗透
JBLGO2音乐金砖二代音箱评测 任何场景下都可以轻松享受音乐
立体声音频选择器NJM2754的功能特性及应用
小米比苹果差在哪里?小米5c与iPhone6S外观大比拼!
展嵘充电站测评:内置电感电容,EM6911打造强劲充电“芯”模组
ST意法半导体最新三款MasterGaN器件特写
PCB钻孔的类型及目的分析
德国晶圆重镇停电 或波及全球车用芯片与MOS管
AMD任命Phil Guido为首席商务官
一加6评测 到底好不好用
618前酷开发布70寸新品电视 迎来行业最低价格
万用表能测电容吗_如何使用万用表检测电容