sql索引从入门到精通(十亿行数据测试报告)(4)_SQL Server

sql索引从入门到精通(十亿行数据测试报告)(4)

发表于：2012-02-14来源：未知作者：娃娃点击数：标签：sql

避免使用32位机(极端情况) 目前的计算机很多都是32位，那么编写的程序对内存的需要便受限制，而很多的海量数据处理是必须大量消耗内存的，这便要求

　　避免使用32位机(极端情况)

　　目前的计算机很多都是32位，那么编写的程序对内存的需要便受限制，而很多的海量数据处理是必须大量消耗内存的，这便要求更好性能的机器，其中对位数的限制也十分重要。

　　使用数据仓库和多维数据库存储

　　数据量加大是一定要考虑OLAP的，传统的报表可能5、6个小时出来结果，而基于Cube的查询可能只需要几分钟，因此处理海量数据的利器是OLAP多维分析，即建立数据仓库，建立多维数据集，基于多维数据集进行报表展现和数据挖掘等。

　　使用采样数据，进行数据挖掘

　　基于海量数据的数据挖掘正在逐步兴起，面对着超海量的数据，一般色挖掘软件或算法往往采用数据插样的方式进行处理，这样误差不会很高，大大提高了处理效率和处理的成功率。一般采样时要注意数据的完整性，防止过大的偏差。笔者曾经对1亿2千万行的表数据进行采样，抽取出400万行，经测试软件测试处理的误差为千万之五，客户可以接受。

　　还有一些方法，需要在不同的情况和场合下运用，例如使用代理键等操作，这样的好处是加快了聚合时间，因为对数值型的聚合比对字符型的聚合快的多。类似的情况需要针对不同的需求进行处理。

　　海量数据室发展趋势，对数据分析和挖掘也越来越重要，从海量数据中提取有用信息重要而紧迫，这便要求处理要准确，精度要高，而且处理时间要短，得到有价值信息要快，所以，对海量数据的研究很有前途，也很值得进行广泛深入的研

原文转自：http://www.ltesting.net

软件测试 > 测试开发技术 > 软件测试开发语言 > 数据库 > SQL Server >