当前位置 主页 > 网站技术 > 代码类 >

    node爬取新型冠状病毒的疫情实时动态

    栏目:代码类 时间:2020-02-06 21:06

    写在前面:

    新型冠状病毒有多么可怕,我想大家都已经知道了。湖北爆发了新型冠状病毒,湖南前几天爆发了禽流感,四川发生地震,中国加油!昨天晚上我突发奇想地打算把疫情实时动态展示在自建站上,于是说干就干(先附上昨晚用puppeteer截的图片)。 

    安装node_modules:

    所需的node_modules:①puppeteer;②cheerio;③fs;④cron。

    需要注意的是安装puppeteer的时候很容易安装失败,这里有俩个解决方法,都是用淘宝源(马云爸爸不是白叫的😄)。

    一、先将npm换成淘宝源再安装:

    npm config set registry http://registry.npm.taobao.org/
    npm install -g cheerio
    npm i -g puppeteer
    npm i -g fs
    npm i -g cron

    二、用cnpm进行安装:

    npm install cnpm -g --registry=https://registry.npm.taobao.org/
    cnpm install -g cheerio
    cnpm i -g puppeteer
    cnpm i -g fs
    cnpm i -g cron

    具体操作:

    用puppeteer爬取:

    puppeteer本质上是一个chrome浏览器,网页很难分清这是人类用户还是爬虫,我们可以用它来加载动态网页。

    先来一个简单的例子,用puppeteer截图:

    const puppeteer = require('puppeteer');
     
    (async () => {
     const browser = await puppeteer.launch({args: ['--no-sandbox', '--disable-setuid-sandbox']});  //启动浏览器实例
      /* puppeteer.launch()的可选参数如下:
      headless: 是否打开浏览器,默认为true
      ignoreHTTPSErrors: 是否忽略https错误,默认为true
      executablePath: 配置要调用浏览器的可执行路径,默认是同Puppeteer一起安装的Chromeium
      slowMo:指定的毫秒延缓Puppeteer的操作
      args:设置浏览器的相关参数,比如是否启动沙箱模式“--no-sandbox”,是否更换代理“--proxy-server”,
      */
     const page = await browser.newPage();  //新建页面
     await page.goto('https://ncov.dxy.cn/');  //访问目标网页:丁香医生
     await page.screenshot({  //进行截图
      path: 'p1.png',
      type: 'png',
      // quality: 100, 只对jpg有效
      // 指定区域截图,clip和fullPage两者只能设置一个
      // fullPage: true,
      clip: {
       x: 0,
       y: 0,
       width: 1000,
       height: 1000
      }
     });
     browser.close();  //关闭浏览器
    })();

    用puppeteer获取网页源代码:

    const puppeteer = require('puppeteer');
     
    (async () => {
     const browser = await puppeteer.launch();
     const page = await browser.newPage();
     await page.goto('https://ncov.dxy.cn/');
     //page.frames() 获取当前页面所有的 iframe,然后根据 iframe 的名字精确获取某个想要的 iframe
     const frame = await page.mainFrame();
     const bodyHandle = await frame.$('html');  //获取所有的html
     //frame.evaluate()在浏览器中执行函数,相当于在控制台中执行函数,返回一个Promise
     const html = await frame.evaluate(body=>body.innerHTML,bodyHandle);
     await bodyHandle.dispose();
     browser.close();
     console.log(html);
    })();

    用cheerio解析html:

    // 使用cheerio模块装载我们得到的页面源代码,返回的是一个类似于jquery中的$对象
    // 使用这个$对象就像操作jquery对象一般去操作我们获取得到的页面的源代码
    var $ = cheerio.load(html);
    var $menu_box = $(".statistics___1cFUQ");
    console.log($menu_box.html());
    
    
    
我有一卡车的娇无处可撒 - 抖音女生个性签名可爱又好听 有仇必报有爱必抱 - 抖音最火女生个性签名2019最新 慢慢变好才是给自己最好的礼物 - 抖音个性签名女简短励志2019 嘲讽也好掌声也好做好自己 - 微信女生个性签名奋斗励志 我不是个温柔的人可不妨碍我喜欢你呀 - 2019网红都在发的QQ个性 确认过眼神是可以尬聊的人 - 快手个性签名女生可爱幽默 女生专属抖音个性签名大全 - 抖音个性签名女生简短小清新 我这个该死的漂亮女孩 - qq扩列宣言女生可爱撩人签名 你比一大推零食还有诱惑力 - qq女生个性签名可爱好听 女生个性签名独一无二 - 女生一句话签名可爱霸气 、唐城:SVN没有update和commit 、唐城:Idea 使用SVN教程(有图) 、唐城:IDEA集成git和使用步骤(有图) 、唐城:mysql 内连接、左连接(左外连接)、右连接(右外连接) 、唐城:Spring Boot框架入门教程(快速学习版) 、唐城:构建微服务:Spring boot 入门篇 、唐城:拿来就能跑,1200多套微信小程序源码-史上最全的不同行 、唐城:老兵的经验之谈,成长路上这个道理越早知道越好 、唐城:(转发)Java开发、工作经验面试总结、[推荐阅读] 、唐城:远程debug调试,小伙伴们都很惊讶! 、唐城:清华学姐熬了一个月肝出这份32W字Linux知识手册,在 Git 、唐城:高薪程序员也躲不过35岁这一关..当能力与年龄脱节,我们 晴天的专栏:怎样规划你毕业以后的人生 流年的博客:C++语言篇 字符串及字符数组练习 blackball1998的博客:自动封装前端参数 blackball1998的博客:转发和重定向中携带变量 blackball1998的博客:设置Session和Cookie blackball1998的博客:扩展Spring MVC blackball1998的博客:添加拦截器 blackball1998的博客:文件上传下载 blackball1998的博客:全局异常处理 blackball1998的博客:请求异步处理 zhang_sheng_nian的博客:前端传后台的时间格式(如:2019-05-01 ModelMapper从Map转实体,数据类型转换出错failed to convert ja Samuel丶Zhou的博客:“2021-01-30T16:00:00.000Z“: expected f string佳佳的博客:“2021-01-28 18:34:28”时间转化成时间戳格 Sock的博客:用C语言写一个简单的扫雷小游戏 Anton的博客:【C语言初阶】扫雷小游戏(C语言简易版) 404name的博客:【C语言】从零开始的C语言小游戏之路(总) 使用python的chardet库获得文件编码并修改编码 忘记ftp密码使用python ftplib库暴力破解密码的方法示例 python使用rsa加密算法模块模拟新浪微博登录 python检测lvs real server状态 pyqt和pyside开发图形化界面 pyside写ui界面入门示例 python3使用urllib示例取googletranslate(谷歌翻译) python使用beautifulsoup从爱奇艺网抓取视频播放 python生成指定长度的随机数密码 python写的一个文本编辑器 python实现批量转换文件编码(批转换编码示例) 怎么判断一个网站seo的好坏? 很多企业为什么都忽视网站运营甚至说放弃? php make test 报错怎么办 Springboot项目中运用vue+ElementUI+echarts前后端交互实现动态圆环图(推荐) php怎么删除对象中的元素 mac怎么修改php环境变量 Unity连接MySQL并读取表格数据的实现代码 Java正则表达式实现经纬度的合法性操作 SpringCloud Alibaba使用Seata处理分布式事务的技巧 详解php如何实现一个简单的图片边缘检测 浅谈StringEntity 和 UrlEncodedFormEntity之间的区别 你究竟是否适合网络创业 七牛云存储——与创业精神一起前行 关于JDK+Tomcat+eclipse+MyEclipse的配置方法 一文搞懂C#实现读写文本文件中的数据 JDK8中的HashMap初始化和扩容机制详解 .net core中编辑json配置文件的方法 Java中HashMap的初始容量设置方式 把自己打造一个高效率的站长 php artisan 不能用怎么办