当前位置：首页 > 资讯 > 计算机/互联网 > 互联网

使用 Node.js 实现的网页抓取

时间：2019-01-23 18:42 编辑：2KB 来源：2KB.COM 阅读：342
扫一扫，手机访问

分享
扫描二维码，分享到微信打开微信
使用"扫一扫"
再点击微信界面右上角三个点标志
分享到微信朋友和朋友圈。

摘要：

Node.js Socket.IO PhantomJS 英文原文：Web scraping with Node.js 现今，网页抓取已经是一种人所共知的技术了，然而依然存在着诸多复杂性，简单的网页爬虫依然难以胜任Ajax轮训、XMLHttpRequest，WebSockets，Flash Sockets等各种复杂技术所开发出来的现代化网站。我们以我们在Hubdoc这个项目上的基础需求为例，在这个项目中，我们从银行，公共事业和信用卡公司的网站上抓取帐单金额，到期日期，账户号码，以及最重要的：近期账单的pdf。对于这个项目，我一开始采用了很简单的方案（暂时并没有使用我们正在评估的昂贵的商业化产品）——我以前在MessageLab/Symantec使用Perl做过的一个简单的爬虫项目。但是结果很不顺利，垃圾邮件发送者所制作的网站要比银行和公共事业公司的网站简单的多得多。那么如何解决这个问题呢？我们主要从使用Mikea开发的优秀 request库开始。在浏览器中发出请求，并在Network窗口中查看到底发送出去了什么请求头，然后把这些请求头拷贝到代码里。这个过程很简单。仅仅是跟踪从登陆开始，到下载Pdf文件结束的这个过程，然后模拟这个过程的所有的请求而已。为了使类似的事情处理起来变得容易，并且能让网络开发者们更加合理地写爬虫程序，我把从HTML上取到结果的方把导出到jQuery中（使用轻量级 cheerio库），这使得相似的工作变得简单，也使利用CSS选择子选取一个页面中的元素变得较为简单。整个过程被包装进一个框架，而这个框架也可以做额外的工作，例如从数据库中拾取证书，加载个体机器人，和UI通过socket.io沟通。

对于一些web站点来说这个是有效的，但这仅仅是JS脚本，而不是我那个被这些公司放在他们站点上的node.js的code。他们对遗留下来的问题，针对复杂性就行分层，使得你非常难去弄明白该做什么来得到登录的信息点。对于一些站点我尝试了几天通过与request()库结合来获取，但仍是徒然。

在几近崩溃后，我发现了node-phantomjs，这个库可以让我从node中控制phantomjs headless webkit浏览器（译者注：这个我没想到一个对应的名词，headless这里的意思是渲染页面在后台完成，无需显示设备）。这看起来是一种简单的解决方案，但是还有一些phantomjs无法回避的问题需要解决：

PhantomJS只能告诉你页面是否完成了加载，但是你无法确定这个过程中是否存在通过JavaScript或者meta标签实现的重定向（redirect）。特别是JavaScript使用setTimeout()来延迟调用的时候。
PhantomJS为你提供了一个页面加载开始（pageLoadStarted）的钩子，允许你处理上面提到的问题，但是这个机能只能在你确定要加载的页面数，在每个页面加载完成时减少这个数字，并且为可能的超时提供处理（因为这种事情并不总是会发生），这样当你的数字减少为0，就可以调用你的回调函数了。这种方式可以工作，但是总让人觉得有点像是黑客手段。
PhantomJS每抓取一个页面需要一个完整独立的进程，因为如果不这样，无法分离每个页面之间的cookies。如果你是用同一个phantomjs进程，已经登录的页面中的session会被发送到另一个页面中。
无法使用PhantomJS下载资源 - 你只能将页面保存为png或者pdf。这很有用，但是这意味着我们需要求助于request()来下载pdf。
由于上述的原因，我必须找到一个方法来将cookie从PhantomJS的session中分发到request()的session库中去。只需要将document.cookie的字符串分发过去，解析它，然后将其注入到request()的cookie jar中去。

将变量注入到浏览器session中并不是件容易的事情。要这么做我需要创建一个字符串来建立一个Javascript函数。

Robot.prototype.add_page_data = function (page, name, data) {
 page.evaluate(
 "function () { var " + name + " = window." + name + " = " + JSON.stringify(data) + "}"
 );
}

一些网站总是充斥着console.log()之类的代码，也需要将他们重新定义，输出到我们希望的位置。为了完成这个，我这么做：
```
if (!console.log) {
    var iframe = document.createElement("iframe");
    document.body.appendChild(iframe);
    console = window.frames[0].console;
}
```

告诉浏览器我点击了a标签也是件很不容易的事情，为了完成这些事情，我加入了以下的代码：

var clickElement = window.clickElement = function (id){
    var a = document.getElementById(id);
    var e = document.createEvent("MouseEvents");
    e.initMouseEvent("click", true, true, window, 0, 0, 0, 0, 0, false, false, false, false, 0, null);
    a.dispatchEvent(e);
 };

我还需要限制浏览器session的最大并发量，从而保障我们不会爆掉服务器。虽然这么说，可是这个限制要比昂贵的商业解决方案所能提供的高很多。（译者注：即商业解决方案的并发量比这个解决方案大）

所有的工作结束后，我就有一个比较体面的 PhantomJS + request 的爬虫解决方案。必须使用 PhantomJS 登录后才可以返回去 request() 请求，它将使用在 PhantomJS 中设置的 Cookie 来验证登录的会话。这是一个巨大的胜利，因为我们可以使用 request() 的流来下载 pdf文件。
整个的计划就是为了让 Web 开发者相对容易的理解如何使用 jQuery 和 CSS 选择器来创建不同 Web 网站的爬虫，我还没有成功证明这个思路可行，但相信很快会了。
本文中的所有译文仅用于学习和交流目的，转载请务必注明文章译者、出处、和本文链接。 2KB翻译工作遵照 CC 协议，如果我们的工作有侵犯到您的权益，请及时联系我们。

2KB项目（www.2kb.com，源码交易平台）,提供担保交易、源码交易、虚拟商品、在家创业、在线创业、任务交易、网站设计、软件设计、网络兼职、站长交易、域名交易、链接买卖、网站交易、广告买卖、站长培训、建站美工等服务

全部评论(0)

上一篇：写给精明 Java 开辟者的顶级测试技能
下一篇：使用 Countly 来分析 Apple Watch 统计数据

最新发布的资讯信息
【计算机/互联网|】Nginx出现502错误(2020-01-20 21:02)
【计算机/互联网|】网站运营全智能软手V0.1版发布(2020-01-20 12:16)
【计算机/互联网|】淘宝这是怎么了？(2020-01-19 19:15)
【行业动态|】谷歌关闭小米智能摄像头，因为窃听器显示了陌生人家中的照片(2020-01-15 09:42)
【行业动态|】据报道谷歌新闻终止了数字杂志，退还主动订阅(2020-01-15 09:39)
【行业动态|】康佳将OLED电视带到美国与LG和索尼竞争(2020-01-15 09:38)
【行业动态|】2020年最佳AV接收机(2020-01-15 09:35)
【行业动态|】2020年最佳流媒体设备：Roku，Apple TV，Firebar，Chromecast等(2020-01-15 09:31)
【行业动态|】CES 2020预览：更多的流媒体服务和订阅即将到来(2020-01-08 21:41)
【行业动态|】从埃隆·马斯克到杰夫·贝佐斯，这30位人物定义了2010年代(2020-01-01 15:14)

商品推荐
友价商城交易源代码插件-自动生成sitemap插件
￥30.00
百度链接主动推送和熊掌号推送通用版 - 支持任意网站无需插件
￥15.00
2KB网站地图助手/一键生成Sitemap/过滤全站死链/生成全站外链
￥10.00
网站SEO优化分析/死链检测/外链检测/Sitemap生成/抓取分析
￥100.00
YSZI.COM - 新闻自媒体导航平台项目众筹
￥1000.00

资讯排行榜
更多>>