网络上所有的链接都可以用以下的三元素进行描述:
From_url(链接所在页面的URL)
to_url(链接所指向的URL)
anchor(链接在页面上所显示的内容)
现在假设所有的网页链接信息(from_url \ to_url \anchor)按from_url为轴都存储在M
个(M:1k以内)巨型数据库中:
1, 链接存储形式:from_url to_url anchor;
2, 一个from_url的所有的to_url都存储在同一个数据库中;
3, 假设每个数据库存储的数据量相同
4, 要求设计一个获取所有链接分发程序,将这些数据均匀分发到N个远程数据库中(N:1
00以内)要求做到:1所有to_url相同的链接需要分到同一个远程数据库,2所有to_url的
站点相同的需要分发到同一个远程数据库,3每个远程数据库获取的链接总数要尽量均匀,
4每台数据库完成时间尽量保持一致5,获取网页的速度尽量快(从数据库中)
信息。
延伸阅读
文章来源于领测软件测试网 https://www.ltesting.net/