最近,大数据、预测分析和云计算这些术语似乎无处不在:
顾名思义,大数据是指从不同来源以不同格式捕获的大量的数据。数据源可能包括人或传感器数据,该数据可以是结构化或非结构化的。例如,由人生成的事务数据是结构化的;Tweet 提要则是非结构化的。有关大数据的大问题是,“如何从中提取洞察力和价值”,以及 “如何更有效地提取这些洞察力”。这两个问题的答案涉及到高级分析。
分析是一个广义的术语,指的是描述性的分析以及预测分析。前者让您知道在过去发生了什么事,后者则告诉您接下来会发生什么事。预测分析采用描述性分析作为垫脚石,以更加精确和一致的方式制定决策。预测分析技术能够从历史数据了解相关模式,并利用这些知识来预测行为。他们通过将数据与巧妙的数学相结合来实现这一点。
然而,数据和数学并不是完整的答案;您还需要准备好一个基础架构,它能够处理数据和复杂的算法。在过去,预测解决方案被绑定到非常具体的问题,并且范围有限,主要原因是没有具成本效益的处理能力。现在不一样了。云计算已经把这个方程式倒过来,它以低成本提供了几乎无限的能力。
在其核心,云计算是一组通过 Internet 提供计算资源的服务。大型数据中心将可扩展的、通常是虚拟化的按需资源作为服务提供,消除了在特定的硬件、软件,或对自己的数据中心基础架构进行投资的需要。
云计算支持多种服务,包括存储容量、处理能力和业务应用程序。在云上访问服务并不是一个新概念,但只是在最近才能作为一个安全和可靠的基础架构提供。 IBM® SmartCloud Enterprise 是一个通用云基础架构的主要示例。由 IBM 技术支持,它通过遍布世界各地的几个数据中心在云中提供了动态的计算能力。
本文介绍了预测分析的基础知识,如数据挖掘模型的常用语言 PMML 及其组件。然后,本文向您介绍一个真实的 PMML 引擎,并讨论它如何部署和执行预测解决方案。最后,看看一个在 IBM SmartCloud Enterprise 上如何使用引擎的示例。
预测解决方案和 PMML
当预测分析技术以解决某个具体问题为目标时,其结果将是一个预测模型。预测解决方案不仅包括模型本身,还包括所有数据转换,数据转换是为了让数据可供模型消费。
数据预处理用于处理在原始数据中的任何缺陷,如缺失值和异常值。然而,其最终目标是增强原始输入字段的预测能力,并将它们转化为特性。
数据也接受了预处理,使其适合 “培训”(通过经验进行优化)。以神经网络为例,这是一个典型的预测分析技术,它将只接受数值输入。在这种情况下,类别字段在被提交到网络之前将需要被转换为连续字段。
预测解决方案通常构建在模型开发环境中。例子有 IBM SPSS Modeler 和 Statistics 或面向统计计算的开源 R 编程语言和软件环境。这些环境提供了很大的灵活性,使数据科学家进行分析和并修改历史数据,以培训一个预测模型。
完成构建和验证后,预测解决方案就可以轻松导出到 PMML (Predictive Model Markup Language),进行模型部署。PMML 是用来表示预测分析解决方案的事实标准。利用 PMML,模型部署是一件轻而易举的事情,因为不必自定义编码就可以将解决方案从科学家的桌面迁移到它将投入使用的部署环境。
PMML 是 Data Mining Group 的心血结晶,Data Mining Group 是由商业和开源分析公司组成的供应商主导的委员会。因此,大多数顶级模型开发环境都可以导出 PMML。PMML 在过去 10 多年来已发展为一个成熟精炼的标准,PMML 不仅可以表示用于从数据学习模式的预测技术,还可以表示原始输入数据的预处理以及模型输出的后处理。
PMML 基于 XML(它是人类和机器都可读的)。PMML 文件的结构反映了它所实施的预测解决方案(参见图 1)。
图 1. 单个 PMML 文件包含可以反映它所实施的预测解决方案的若干个元素
不同的语言元素负责描述:
原始输入数据。
对异常值、缺失值和无效值的适当处理
模型输入的预处理,包括正常化、映射、离散化,以及大量逻辑和算术操作的函数。
表示预测技术的特定模型元素。
模型输出的后处理,包括扩展和业务决策。
PMML 也以能够使用单个语言元素表示多个模型而著称。这样,单个 PMML 文件可以包含模型的集成、细分、链或成分。
IBM SPSS Modeler 和 IBM SPSS Statistics 让无数模型可以导出为 PMML。这些环境将输出数据转换为 PMML 的能力也非常突出。例如,SPSS Statistics 支持自动数据增加,这可以被导出为一串 PMML 派生的字段。另一方面,R 以支持用户导出 PMML 模型集成而著称。例如,用户可以用 R 建立一个随机林模型,并导出其数百棵树到 PMML,然后就可以很容易地将它迁移到部署环境,并在几分钟内投入工作。
即使解决方案不是最终版本,将它保存为一个 PMML 文件也是很好的实践。这使得数据科学家可以将在达成最终解决方案之前的所有尝试保存为 PMML 记录。然后,数据分析团队可以使用该记录决定参数和实践的最佳选择。
如需增加有关 PMML 的知识,请阅读本文作者有关 PMML 标准的文章 What is PMML? 请参阅 参考资料。
现在,让我们来看看真实的示例。
回页首
示例:ADAPA 决策引擎
Zementis Inc. 提供了一个基于 PMML 的预测分析决策管理平台,其名称为 ADAPA。它能够使用以 PMML 表达的预测解决方案,并实时执行它们。由于 ADAPA 侧重于运营端,它使 IT 资源从使用自定义编码预测解决方案适应运营环境的负担中释放出来。它还使数据科学家有机会自己部署预测解决方案。
ADAPA Decision Engine 是一个很好的部署平台示例。在这方面,它拥有两个重要特性:
这是一个通用的 PMML 消费者,因为它不仅接受由任何 PMML 兼容的应用程序所生成的 PMML 文件,也接受旧版标准中所指定的 PMML 文件。