Apache Spark作为全球最流行的数据分析应用

apache spark作为全球最流行的数据分析应用,现已通过此前发布的spark 3.0版本为超过50万用户提供革命性的gpu加速。
databricks为用户提供了先进的企业云平台spark,每天有超过100万台虚拟机运行该平台。在spark + ai summit峰会上,databricks宣布其用于机器学习的databricks runtime 7.0将配备内置spark 3.0的gpu加速器感知调度功能。该功能由databricks与nvidia和其他社区成员合作开发。
google cloud近期宣布在dataproc image 2.0版本上提供spark 3.0预览版,同时指出在开源社区的协作下,现在已获得强大的nvidia gpu加速。nvidia将于7月16日与google cloud共同举办一场网络研讨会,深入探讨这些令数据科学家感到兴奋的新功能。
此外,用于apache spark的新开源rapids 加速器现在可以加速etl(提取、转换、加载)和数据传输,在无需更改任何代码的情况下提高端到端分析性能。
spark性能的加速不仅意味着能够更快获得洞见,而且由于企业可以使用更少的基础设施来完成工作负载,因此还可以帮助企业降低成本。
加速数据分析:科学计算赋予ai更强大的力量
spark有充分的理由成为新闻媒体报导的焦点。
数据对于帮助企业机构应对不断变化的机遇和潜在威胁至关重要。为此,他们需要破译隐藏在数据中的关键线索。
每当客户点击网站、拨打客户服务电话或生成每日销售报告时,就会给企业机构贡献大量的信息。随着ai的兴起,数据分析对于帮助公司发现趋势并保持市场领先地位所起到的作用日益重要。
前不久,数据分析还依靠小型数据集来收集历史数据和洞见,通过etl对存储在传统数据仓库中的高度结构化数据进行分析。
etl常常成为数据科学家在获取ai预测和建议时的瓶颈。etl预计会占用数据科学家70%至90%的时间,这会减慢工作流程并将炙手可热的人才束缚在最普通的工作上。
当数据科学家在等待etl时,他们无法重新训练模型来获取更好的商业洞见。传统的cpu基础设施无法通过有效的扩展来适应这些工作任务,这通常会大幅增加成本。
凭借gpu加速的spark,etl就不会再产生这样的麻烦。医疗、娱乐、能源、金融、零售等行业现在可以经济、高效地为其数据分析提速,更快地获取洞见。
并行处理助力数据分析
gpu并行处理使计算机可以一次执行多项操作。数据中心通过大规模横向扩展这些功能来支持复杂的数据分析项目。随着运用ai和机器学习工具的企业机构日益增加,并行处理已成为加速海量数据分析和etl管道,进而驱动这些工作负载的关键。
比如有一家零售商希望预测下一个季节的库存。该零售商需要检查近期的销售量以及去年的数据。数据科学家还可可以此分析中添加天气模型,从而了解雨季或旱季对结果产生的影响。零售商还可以整合情绪分析数据,评估今年最流行的趋势。
由于需要分析的数据源太多,因此在对不同变量可能对销售量产生的影响进行建模时,速度就显得尤为重要。这就需要将分析加入到机器学习中,而且gpu也因此变得十分重要。
rapids加速器为apache spark 3.0提速
随着数据科学家从使用传统的分析转而采用可以更好地对复杂市场需求进行建模的ai应用,如果继续采用cpu,则必须牺牲速度或增加成本才能跟上由此产生的处理需求。而随着ai在分析中的应用日益增加,需要有新的框架来通过gpu快速、经济高效地处理数据。
用于apache spark的全新rapids加速器将spark分布式计算框架与功能强大的rapids cudf库相连接,实现了gpu对spark dataframe和spark sql的运行提速。rapids加速器还通过搜索在spark节点之间移动数据的最快路径来加快spark shuffle的运行速度。


便利店信息发布系统解决方案,堪称时间管理大师
阿里腾讯布局东南亚地区 电子支付格局将变
中电港与紫光国微签署战略合作协议
AI对于娱乐产业的技术化改造 已经深刻的融入到人类的社会生活中去
摩托罗拉Edge S采用该新芯片组并于1月26日推出
Apache Spark作为全球最流行的数据分析应用
LED显示屏主板常见十种故障分析
索尼在MWC2019上正式推出了三款新品
影响皂膜流量计测量准确性的两个因素
苹果新专利:未来Mac可能搭载Face ID
ARM发布全新CPU Cortex-A35:64位 超低功耗
雷达及报文数据综合监视报警系统
HTC vive要卖10万台 靠谱吗?
零基础学习嵌入式,能学会吗?
关于光伏配电箱的那些事儿
简单分立元件收音机,simple radio
python语言表推导式和生成器表达式特性
如何选择线材降趋肤效应?产业链峰会有妙招
Outrider公司计划在货运中心实现车辆自动驾驶
关于物联网的研究结果报告