sql索引从入门到精通(十亿行数据测试报告)(4)

发表于:2012-02-14来源:未知作者:娃娃点击数: 标签:sql
避免使用32位机(极端情况) 目前的计算机很多都是32位,那么编写的程序对内存的需要便受限制,而很多 的海量数据处理是必须大量消耗内存的,这便要求

  避免使用32位机(极端情况)

  目前的计算机很多都是32位,那么编写的程序对内存的需要便受限制,而很多 的海量数据处理是必须大量消耗内存的,这便要求更好性能的机器,其中对位数的限制也十分重要。

  使用数据仓库和多维数据库存储

  数据量加大是一定要考虑OLAP的,传统的报表可能5、6个小时出来结果,而基于Cube的查询可能只需要几分钟,因此处理海量数据的利器是OLAP多维分析,即建立数据仓库,建立多维数据集, 基于多维数据集进行报表展现和数据挖掘等。

  使用采样数据,进行数据挖掘

  基于海量数据的数据挖掘正在逐步兴起,面对着超海量的 数据,一般色挖掘软件或算法往往采用数据插样的方式进行处理,这样误差不会很高,大大提高了处理效率和处理的成功率。一般采样时要注意数据的完整性,防止 过大的偏差。笔者曾经对1亿2千万行的表数据进行采样,抽取出400万行,经测试软件测试处理的误差为千万之五,客 户可以接受。

  还有一些方法,需要在 不同的情况和场合下运用,例如使用代理键等操作,这样的好处是加快了聚合时间,因为对数值型的聚合比对字符型的聚合快的多。类似的情况需要针对不同的需求 进行处理。

  海量数据室发展趋势,对数据分析和挖掘也越来越重要,从 海量数据中提取有用信息重要而紧迫,这便要求处理要准确,精度要高,而且处理时间要短,得到有价值信息要快,所以,对海量数据的研究很有前途,也很值得进 行广泛深入的研

原文转自:http://www.ltesting.net