资料科学家Deborah Tylor,坚持不懈的运用正确的工具,达成原本以为做不到的事情。
|
最新版的 Cloudera Data Platform 加上由 NVIDIA 加快运行速度的 Spark 3.0,协助一支团队提升作业表现达八倍。 |
Deborah Tylor负责整理美国国税局 (IRS) 超过 300 TB 的庞大资料库,从中找出可能有助于发现身份盗用和其它诈欺行为的模式。但就算她在一大排 CPU 伺服器上彻夜运行整理工作,依旧摸不着头绪。她隔天早上发现没有成功,于是又试了一次,结果再次失败。
Cloudera 的 Nasheb Ismaily 差不多就在同一时间,敲了敲 Tylor 的主管 Rahul Tikekar 办公室的门,Tikekar 也是国税局资料分析师技术支援团队的主管。这名 Cloudera 的解决方案工程师询问 Tikekar 的团队有没有用过 Cloudera Data Platform (CDP),以发挥 以 GPU 加速的 Apache Spark 3.0 软体的优势。
Tikekar 表示,我欣然接受这个提议。我们的独立伺服器上装有 NVIDIA 显示卡,在分散式丛集上使用 Spark 来运行这些显示卡也有一段时间了,这对我们来说时机刚刚好。
他们很快就进行软体测试,在没有更动程式码的情况下,Tylor 很多的工作执行速度提升高达五倍,不过还是出现了一些延迟。
Ismaily 找来 NVIDIA 的资料科学家协助检查程式码,很快就确认 CPU 上还运行着一些资料结构特别差的任务。他们写了程式码来处理这些工作,并且把它插入 Spark 的 RAPIDS (在 GPU 上进行资料分析的开源函式库) 软体介面里。 Tylor 又试了一次。
Tikekar 说,资料突然全都进入分散式 Spark 丛集的 GPU 上,加速成果非常显著,Deborah 现在在有四个节点的丛集上运行整个程式。
美国国税局研究与应用分析及统计部门的技术主管 Joe Ansaldi 表示,Cloudera 与 NVIDIA 的整合让我们能够从资料中找出宝贵的洞察,以支援关键的任务。我们正运用这个组合,且已经看到资料工程和资料科学工作流程的执行速度提高了十倍以上,而且成本还少了一半。
IRS 团队已经着手探索这项工作带来的一些回报。他们使用搭载 GPU 的伺服器组成的 Spark 丛集,可以加快处理手边的各项工作,还能执行过去以为做不到的事情,而这些工作可以协助处理该团队所拥有的大型资料集。 Tikekar 表示,在 Spark 3.0 出现前,我们做不到这些,但现在有 GPU 可以让我们放手一搏,解决曾经不可能解决的问题。
规画发展人工智慧(AI)的路线
这支团队计画应用他们在资料准备的成功经验,即资料分析的撷取、转换和载入 (ETL) 作业。下一个重大计画便是加快全面发展 AI 推论工作。
Tikekar 表示,跟 Cloudera 和 NVIDIA 合作,帮助我们发挥丛集中 GPU 的优势。市场上出现这么进步的技术,我们要花点时间才能认清它们的实力,还有开发出能够运用它们的应用,Deborah 为我们规划了一条新的路线,她是我们故事的英雄。
说得更具体一点,这支团队想要建立大型深度学习神经网路,以解决自然语言处理和分析的问题。
这是当下许多企业想要透过机器学习进行的转型。
拥有电脑科学博士学位的 Tikekar 表示,机器学习带来了无穷的可能,让我们能够做到从前无法完成的事情。 Tikekar 在 13 年前加入国税局之前,曾在南奥勒冈大学 (Southern Oregon University) 任教十年。
他进一步表示,例如我们可以扫描表格,然后用光学字元辨识技术来读取里面的只字片语,但有了 AI,我们还可以更深入从表格中找出有助于发现身分盗用,或是减少浪费的模式,AI 在很多方面都能嘉惠不少应用。