全球机器学习和先进分析平台供应商Cloudera发表测试版Cloudera数据科学平台(Cloudera Data Science Workbench),此平台是针对Cloudera企业版的数据科学所做的全新自助服务工具。 Cloudera数据科学平台是以去年收购的数据科学新创公司Sense.io的技术为基础,允许数据科学家使用自己偏好的开放原始码程式语言(包括R语言、Python,和Scala),并整合原生Apache Spark和Apache Hadoop安全企业平台上的资料库,以加快从探讨到生产过程中所产生的数据分析。
|
Cloudera全新数据科学平台提供一个安全数据探索、视觉化,和模组化的协作自助型环境,让科学家、分析师,和商业团队可以共同使用。 |
Cloudera资深产品副总裁Charles Zedlewski表示:「Cloudera今年将专注在改善数据科学和工程团队的使用者体验,特别是那些想藉由Spark来处理数据和机器学习的使用者。Sense.io的技术及其团队提供了强大的基础能力支援,让我们的数据科学平台得以为客户带来极具规模的自助服务数据科学。」
除了广泛的Python和R语言系统生态外,当开放式数据科学扩展至Tensorflow、微软Cognitive Toolkit、MXnet、BigDL,和其它他深度学习软体框架时,数据科学团队需要的是可以将这些工具使用于数据的方法,而Hadoop环境的Cloudera数据科学平台结合了最新的开放原始码技术与Cloudera客户信赖的整合平台,为这些成长中的数据提供相当安全可靠的储存空间。
DataRobot执行长暨共同创办人Jeremy Achin表示:「Cloudera数据科学平台藉由提供可随时存取数据,减少了DataRobot自动机器学习平台与人工智慧应用的时间。DataRobot的完全整合,让Cloudera的使用者可以在简单易用的使用者介面上运用世界最佳的演算法和数据科学技术,进而提升商业价值。」
Charles Zedlewski进一步表示:「我们顾客的IT团队常挣扎是否要将数据放到共享式环境,因为他们的需求相当多元,特别是当涉及到开放原始码工具时,其结果常造成重复工作、分析孤岛(analytic silos),以及有限的安全性与管理权。而此同时,数据科学家正不断寻求可以扩展资料集和强大运算平台以拓展其工作。有了数据科学平台,Cloudera可以帮助IT团队和数据科学家有效地协同工作,让更多使用者以兼具弹性和相容性的方式加入此共享环境。」
Cloudera数据科学平台的优点
对数据科学家而言
*在自己偏好的资料库与框架内选择R语言、Python,或Scala,并可直接在网路浏览器上使用
*直接以Spark和Impala存取安全Hadoop丛集内的数据
*可与整个团队分享见解,以进行可重复、协作式的研究
对IT专业人士而言
*让数据科学团队自由选择工作方式和时间
*保持与创新支援的相容性,进而实现Hadoop的完整安全性,特别是Kerberos
*无论在本地或云端都可以轻松管理数据