网络犯罪以及其他恶意行为的不断增加正促使企业部署更多的安全控制、收集越来越多的相关数据。结果,大数据分析方面的进展被用于以更宽和更深的分析为目的的安全监控中,以保护昂贵的企业资源。大数据安全分析技术融合了大数据的可扩展性,并将其与Advanced Analytic和安全事件管理系统( security event and incident management systems,SIEM)结合起来。在不久的将来,大数据安全分析将会变成像病毒检测和漏洞扫描一样常见。
因此,大数据安全分析适用于很多用例,但也不是所有的用例都适用。考虑一下探测和阻挡高持续性威胁(Advanced Persistent Threat,APT)的技术挑战。采用这些技术的攻击者或许会采用慢节奏的、低可见性的攻击方式来避免以避免被探测到。传统的日志和监控技术会漏过这种类型的攻击。攻击的各步可能发生在不同的设备的不同时间段,而且看起来是毫无关联的。这样,一个攻击者杀招的关键部分可能与正常行为差别不大。针对可疑行为的日志和网络流扫描有时也会漏掉这些东西。避免遗漏数据的一种方法就是收集尽可能多的信息。这就是大数据安全分析平台所采用的方法。
正如字面意思所言,该安全分析的方法利用了专门为收集、分析和管理大规模、高速度数据而设计的工具。这些技术也同样用于相关产品,如针对流视频用户的电影推荐系统和为优化车队的运输效率而设计的车辆性能特性分析平台等。此外,这些技术还可以应用于信息安全。本文重点分析 Cybereason、Fortscale、Hawkeye、IBM、LogRhythm、RSA和Splunk等若干大数据安全工具供应商的最主要的产品特性。其分析主要依据实现这些平台所有好处的五大必需要素:
统一的数据管理
支持日志、漏洞和流等多种数据类型
可扩展的数据获取
信息安全相关的分析工具
合规报告
因素1:统一的数据管理
统一的数据管理是一个大数据安全分析系统的基础,负责存储和查询企业数据。由于关联数据库在扩展时比分布式NoSQL数据库代价要高,处理大规模数据通常会使用Cassandra或Accumulo等这样的分布式数据库。当然,这些数据库也其缺点。例如,实现ACID transaction等这些理所当然存在的数据库特征的分布式版本就变得非常困难。
因此,大数据安全分析产品背后的数据管理平台需要在数据管理特性和代价、可扩展性之间进行权衡。数据库应该具备在不阻塞的情况下实时写入新数据的能力。相似的,查询也要能够支持针对流入的安全数据的实时分析。
由于Hadoop已经成为流行的大数据管理平台和相关的生态系统,采用它作基础的大数据安全分析平台也很常见。例如,Fortscale就使用了Cloudera的Hadoop平台。这使得Fortscale平台可以随着集群中新加入节点的数量而线性扩展。
IBM的QRadar使用了提供数据存储水平扩展功能的分布式数据管理系统。在一些情况下,SIEM或许只需要访问本地数据。但是,在取证分析等情况下,用户或许需要跨分布式平台搜索信息。IBM的QRadar还集成了一个能够跨平台或本地检索的搜索引擎。同时,该大数据SIEM系统使用的是数据节点,而非存储域网(SAN)。这可以帮组减少花费和管理复杂度。这个基于数据节点的分布式存储模型可以扩展到P字节的存储空间——可以很好满足那些需要很多大规模长期存储的组织的需求。
RSA安全分析也采用了分布式的联合架构来保证线性扩展。当扩展到大规模数据时,RSA工具中的分析工作流解决了一个关键需求:区分事件和任务的优先级,以改善分析的效率。
Hawkeye分析平台(Hawkeye AP)是基于一个专门处理安全事件数据的数据仓库平台构建而成。除了拥有底层、可扩展的数据管理(例如,在跨多个服务器的镀铬文件中存储大规模数据的能力)功能,拥有以结构化的方式查询数据的工具也很关键。Hawkeye AP采用了分时存储数据的方式,避免了全局重建索引的工作。而且,它被设计为了只读的数据库。一方面,它使能了性能优化;另一个更重要方面,它可以保证数据在写完成后不会被篡改。最后,Hawkeye AP采用了专门针对分析应用有所优化的列导向数据存储,而非行导向的存储。
因素2:支持多种数据类型
容量、速度和种类是大数据的三个关键特性。安全事件数据的多样性使得把数据集成到一个大数据安全分析产品变得富有挑战性。
原文转自:http://www.infoq.com/cn/articles/big-data-security-analysis-products