事件数据的收集粒度是不同的。例如,网络报文就是底层、细粒度的数据;而有关任何管理员密码变化的日志项就是粗粒度的。尽管数据的收集粒度不同,他们之间仍然是有关联的。网络报文就可能包含了攻击者访问服务器,甚至在取得访问权限后修改管理员密码的相关信息。
不同类型的事件数据的含义也各不相同。网络报文信息可以帮助分析人员了解两个终端之间传输的内容,而一份漏斗扫描日志在某种意义上描述了服务器或其他设备在一段时间内的运行状态。大数据安全分析平台需要理解这些数据类型的含义,以更好的进行数据集成。
RSA Security Analytics的解决办法是采用一个模块化的结构,以此保证在维持增量添加其他源的能力的同时,支持多种数据类型。平台本身是为了捕获大规模的满报文、NetFlow数据、末端数据和日志。
有时,多个数据类型就意味着多种安全工具。例如,IBM的QRadar就有一个漏洞管理组件。该组件专门负责从各种各样的漏洞扫描器中整合数据,并把网络使用相关的信息添加到数据中。IBM的Security QRadar Incident Forensics是另外一个专门利用网络流数据和full-packet抓包来分析安全事故的模块。该取证工具包括了一个能够对TB级别的网络数据进行检索的引擎。
LogRhythm的Security Intelligence Platform是另外一个大数据安全分析平台的例子。该平台支持非常多的数据类型,包括系统日志、安全事件、审计日志、机器数据、应用日志以及流数据。通过分析来自这些源的原始数据,它可以产生有关文件完整性、进程活跃度、网络通信情况、用户以及活动的二级数据。
Splunk Enterprise Security允许分析人员检索数据并执行可视化关联,以此识别恶意事件和收集有关这些事件上下文的数据。
因素3:可扩展的数据获取
大数据分析安全产品必须要能够从服务器、终端、网络和其他架构组件中获得数据。这些设备的状态是一直都在发生变化的。数据获取组件的主要风险在于它是否能够及时接收流入的数据。一旦数据获取组件出现问题,数据就会丢失,威胁到整个平台的存在意义。
系统可以通过维护一个容量很大、吞吐率很高的队列来实现可扩展的数据获取。此外,一些数据库通过对写操作只追加的方法来支持大规模写。这样,新流入的数据直接添加到commit日志的末尾,而非磁盘的某个块。该方法可以大大减少随机写操作的延迟。或者,数据管理系统会维护一个写缓冲区。如果消息出现突发传输或者磁盘出现写失效,缓冲区可以帮助暂时存储数据,等待数据库恢复正常。
Splunk是一个广为人知的数据获取平台。该平台不仅提供了连接到数据源的连接器,还允许定制这些连接器。其中,获取后的数据以比较松散的形式进行存储和索引,以保证支持变化的数据类型和快速的查询反馈。
IBM QRadar支持从单设备到跨地域的分布式系统的不同规模的部署。与其他产品类似,该大数据产品是为了满足大公司的需求。它曾被用于处理每秒钟几十万的真实应用事件。一些小的机构或刚开始使用IBM QRadar的企业或许会选择在云环境中部署该产品,以减少硬件开销和管理。混合部署也是可以的。这样,事件和流或许在云端处理,而整理后的事件数据发送会本地系统进行处理。
另外一个重要的整合类型就是数据增强。它是指在收集事件数据的同时,把相关的信息也一并添加进去。例如,RSA Security Analytics就会把有关网络回话、威胁指示器等细节添加到网络数据中,帮助分析人员更好的理解底层安全数据所面临的情况。
一个大数据分析平台如何收集收据是另外一个要考虑的关键点。收集数据所需要的时间使得探测安全事件的速度可以有所放缓。数据收集点的位置决定了它所收集的数据的宽度和类型。例如,Cybereason Platform部署的传感器就运行在终端操作系统的用户空间。这样,数据收集就可以在影响用户体验和更底层内核功能的情况下进行。即使是在设备无法连接企业网络时,Cybereason的传感器仍然可以收集数据。
因素4:安全分析工具
Hadoop和Spark等大数据平台都是通用型的工具。尽管它们可以被用于构建安全工具,它们本身并不是安全分析工具。大数据安全分析工具应该能够扩展,以满足企业所产生的大规模数据的分析需求。而Hadoop和Spark等这样的工具正好满足了这样的条件。同时,分析人员也应该能够以信息安全的角度所应该取得的抽象层次来查询事件数据。例如,一个分析人员应该能够查询工作在特定服务器或应用的用户的联系以及这些机器/应用之间的联系。这种类型的查询就需要图型分析工具,而非传统的关联数据库中的行查询或列查询。
原文转自:http://www.infoq.com/cn/articles/big-data-security-analysis-products