一 背景

在使用nodejs爬虫的时候,经常会遇到别人的网站对频率的反爬机制,
这个时候如果不做处理程序就会挂掉,重新启动也会继续被屏蔽.这个问题怎么解决呢,
我的想法就是程序暂停10分钟或者更长的时间,继续爬取.

二 方法

其实使用setTimeout就可以实现,只是nodejs异步已经很金字塔了,再加一层会更恐怖,所以
本文使用nodejs的第三方模块async来实现,async的目的就是让多个异步的程序,按照开发者
想要的顺序来执行,代码书写符合同步风格,其实运行还是异步的,也解决了回调金字塔的问题.
async基础使用 : http://blog.csdn.net/zzwwjjdj1/article/details/51857959

三 正常代码

访问3个网站,百度,优酷,腾讯为例.不暂停的代码.
[javascript] view plain copy

  1. var async = require(‘async’);
  2. var http = require(‘http’);
  3. var task = [];
  4. task.push(function(callback){
  5.   console.time(‘访问3个网站时间统计’);
  6.   http.get(‘http://www.baidu.com/’function(res) {
  7.     console.log(“百度访问结果: “ + res.statusCode);
  8.     callback(null);
  9.   }).on(‘error’function(e) {
  10.     console.log(“百度访问结果: “ + e.message);
  11.     callback(e);
  12.   });
  13. })
  14. task.push(function(callback){
  15.   http.get(‘http://www.youku.com/’function(res) {
  16.     console.log(“优酷访问结果: “ + res.statusCode);
  17.     callback(null);
  18.   }).on(‘error’function(e) {
  19.     console.log(“优酷访问结果: “ + e.message);
  20.     callback(e);
  21.   });
  22. })
  23. task.push(function(callback){
  24.   http.get(‘http://www.qq.com/’function(res) {
  25.     console.log(“腾讯访问结果: “ + res.statusCode);
  26.     callback(null);
  27.   }).on(‘error’function(e) {
  28.     console.log(“腾讯访问结果: “ + e.message);
  29.     callback(e);
  30.   });
  31. })
  32. async.waterfall(task, function(err,result){
  33.   console.timeEnd(‘访问3个网站时间统计’);
  34.   if(err) return console.log(err);
  35.   console.log(‘全部访问成功’);
  36. })

四 测试

执行访问网站需要时间,3个网站访问时间统计254ms.

五 暂停代码

比如,访问第一个网站后暂停5秒,访问第二个网站后暂停10秒.
[javascript] view plain copy

  1. var async = require(‘async’);
  2. var http = require(‘http’);
  3. var task = [];
  4. task.push(function(callback){
  5.   console.time(‘访问3个网站时间统计’);
  6.   http.get(‘http://www.baidu.com/’function(res) {
  7.     console.log(“百度访问结果: “ + res.statusCode);
  8.     setTimeout(function() {
  9.       callback(null);
  10.     }, 5000);
  11.   }).on(‘error’function(e) {
  12.     console.log(“百度访问结果: “ + e.message);
  13.     callback(e);
  14.   });
  15. })
  16. task.push(function(callback){
  17.   http.get(‘http://www.youku.com/’function(res) {
  18.     console.log(“优酷访问结果: “ + res.statusCode);
  19.     setTimeout(function() {
  20.       callback(null);
  21.     }, 10000);
  22.   }).on(‘error’function(e) {
  23.     console.log(“优酷访问结果: “ + e.message);
  24.     callback(e);
  25.   });
  26. })
  27. task.push(function(callback){
  28.   http.get(‘http://www.qq.com/’function(res) {
  29.     console.log(“腾讯访问结果: “ + res.statusCode);
  30.     callback(null);
  31.   }).on(‘error’function(e) {
  32.     console.log(“腾讯访问结果: “ + e.message);
  33.     callback(e);
  34.   });
  35. })
  36. async.waterfall(task, function(err,result){
  37.   console.timeEnd(‘访问3个网站时间统计’);
  38.   if(err) return console.log(err);
  39.   console.log(‘全部访问成功’);
  40. })

六 测试

从打印中能看得出,访问第二个网站等待了5秒,访问第三个网站等待了10秒.OK!
原文 http://blog.csdn.net/zzwwjjdj1/article/details/53333123