在数据分析与AI领域 GPU加速如何赋能行业

在数字时代下 , 每家企业都面临着一场变革 , 这也使企业产生了比以往更多的数据 。随着数据规模的指数增长 , 存储数据的载体 , 数据的处理技术 , 数据的使用的方式方法都在不断地演进 。企业用户对数据价值的预期也不断增加 。因此企业用户期望通过数据能快速带来商业价值 。
不过 , 随着大量数据的涌入 , 企业应该如何应对?Cloudera相信数据骤增将让企业有机会更快、更好地作出业务决策 。
日前 , Cloudera推出使用NVIDIA?GPU加速Apache?Spark?3.0软件的Cloudera?Data?Platform(CDP) 。最新版本的Cloudera?Data?Platform采用通过NVIDIA技术加速的Spark?3.0 , 能够帮助操作团队实现8倍性能提升 , 从而成功运行一项原本不可能完成的工作 。
在数据分析与AI领域 GPU加速如何赋能行业
文章图片

文章图片
GPU加速如何赋能Cloudera
作为业界首个企业数据云 , Cloudera?Data?Platform集成化数据平台可以帮助企业在向云迁移的过程中 , 更好地管理和保护数据 。
Cloudera相信数据骤增将让企业有机会更快、更好地作出业务决策 。以NVIDIA?GPU计算功能支撑的Cloudera?Data?Platform可以利用近乎无限数量和种类的数据 , 支持企业加快决策速度 。
我们都知道 , 一直以来 , CPU都无法通过有效扩展适应工作任务 , 继续采用CPU进行工作负载 , 就要牺牲速度或增加成本才能完成处理的需求 。
不过 , GPU并行处理已成为加速海量数据分析和ETL管道 , 进而驱动这些工作负载的关键 。数据中心通过大规模横向扩展这些功能支持复杂的数据分析项目 。
【在数据分析与AI领域 GPU加速如何赋能行业】通过与NVIDIA的合作帮助Cloudera能够在集群中驾驭GPU , 当出现此类技术进步时 , 需要一段时间来认识它们的力量并开发可以使用它们的应用 。
最终 , 结合Cloudera在大数据领域丰富的经验 , Cloudera?Data?Platform与NVIDIA?RAPIDS和AI相结合 , 令使用Apache?Spark的企业能够以前所未有的速度获得业务洞察 。
如何应用
这是一个来自美国国税局团队的案例 。
作为一名数据科学家 , Deborah?Tylor的任务是整理美国国家税务局超过300?TB的数据库 , 寻找可能有助于识别身份盗窃和其他欺诈行为的规律 。但即使她让一大批CPU服务器工作了一整夜 , 也无法完成这项数据整理工作 。
Cloudera的解决方案工程师Nasheb?Ismaily询问Tikekar的团队是否需要使用自带GPU加速Apache?Spark?3.0软件的Cloudera?Data?Platform(CDP) 。
对软件进行快速测试后 , 在没有修改任何代码的情况下 , Tylor在这项工作中的许多步骤就立即加快了5倍 , 但有几个部分仍然滞后 。
Ismaily召集了NVIDIA数据科学家团队来检查代码的核心内容 。他们很快就发现一些数据结构非常糟糕的任务仍在CPU上运行 。于是他们编写了代码来处理这些工作并将其插入Spark的RAPIDS软件接口中 。RAPIDS是一个在GPU上运行数据分析的开放资源库 。
Tylor又进行了一次测试 , 结果发现一切都能在分布式Spark集群的GPU上顺利运行 , 而且速度提升非常明显 。她在一个四节点的集群上运行了整个程序 。
美国国税局研究和应用分析与统计部门技术主管Joe?Ansaldi表示:“通过Cloudera和NVIDIA的这一技术整合 , 我们能够利用以数据为依据的洞察来推动关键任务用例 。”
该团队计划把其成功经验运用在数据准备 , 也就是数据分析中的提取/转换/加载(ETL)方面的工作上 。下一步重大计划是加速各类AI推理工作 。
Tikekar表示:“与Cloudera和NVIDIA的这一合作帮助我们能够在集群中驾驭GPU 。当出现此类技术进步时 , 需要一段时间来认识它们的力量并开发可以使用它们的应用 , 所以Deborah?Tylor确实为我们制定了新的路线图——她是整件事中的主角 。”