一、抓取 搜索引擎不可能手动抓取互联网站的页面。那么程序员就编写了一个可以自动抓取的程序,也就是我们说的spider或者爬虫。爬虫会收集互联网上中包含“keywords”相关的所有内容,爬虫将会自动访问互联网,把虽有相关内容收集。二、建立索引数据库 蜘蛛会扫描一定IP地址范围内的网站,沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站收集网页信息。为了保证最新收集的信息,它还将回访已被捕获的网页。网络机器人或网络蜘蛛收集的网页需要其他程序进行分析...
阅读更多