导航菜单

  • 0.api
  • 0.Async
  • 0.module
  • 1.ES2015
  • 2.Promise
  • 3.Node
  • 4.NodeInstall
  • 5.REPL
  • 6.NodeCore
  • 7.module&NPM
  • 8.Encoding
  • 9.Buffer
  • 10.fs
  • 11.Stream-1
  • 11.Stream-2
  • 11.Stream-3
  • 11.Stream-4
  • 12-Network-2
  • 12.NetWork-3
  • 12.Network-1
  • 13.tcp
  • 14.http-1
  • 14.http-2
  • 15.compress
  • 16.crypto
  • 17.process
  • 18.yargs
  • 19.cache
  • 20.action
  • 21.https
  • 22.cookie
  • 23.session
  • 24.express-1
  • 24.express-2
  • 24.express-3
  • 24.express-4
  • 25.koa-1
  • 26.webpack-1-basic
  • 26.webpack-2-optimize
  • 26.webpack-3-file
  • 26.webpack-4.tapable
  • 26.webpack-5-AST
  • 26.webpack-6-sources
  • 26.webpack-7-loader
  • 26.webpack-8-plugin
  • 26.webpack-9-hand
  • 26.webpack-10-prepare
  • 28.redux
  • 28.redux-jwt-back
  • 28.redux-jwt-front
  • 29.mongodb-1
  • 29.mongodb-2
  • 29.mongodb-3
  • 29.mongodb-4
  • 29.mongodb-5
  • 29.mongodb-6
  • 30.cms-1-mysql
  • 30.cms-2-mysql
  • 30.cms-3-mysql
  • 30.cms-4-nunjucks
  • 30.cms-5-mock
  • 30.cms-6-egg
  • 30.cms-7-api
  • 30.cms-8-roadhog
  • 30.cms-9-yaml
  • 30.cms-10-umi
  • 30.cms-12-dva
  • 30.cms-13-dva-ant
  • 30.cms-14-front
  • 30.cms-15-deploy
  • 31.dva
  • 31.cms-13-dva-antdesign
  • 33.redis
  • 34.unittest
  • 35.jwt
  • 36.websocket-1
  • 36.websocket-2
  • 38.chat-api-1
  • 38.chat-api-2
  • 38.chat-3
  • 38.chat-api-3
  • 38.chat
  • 38.chat2
  • 38.chat2
  • 39.crawl-0
  • 39.crawl-1
  • 39.crawl-2
  • 40.deploy
  • 41.safe
  • 42.test
  • 43.nginx
  • 44.enzyme
  • 45.docker
  • 46.elastic
  • 47.oauth
  • 48.wxpay
  • index
  • 52.UML
  • 53.design
  • index
  • 54.linux
  • 57.ts
  • 56.react-ssr
  • 58.ts_react
  • 59.ketang
  • 59.ketang2
  • 61.1.devops-linux
  • 61.2.devops-vi
  • 61.3.devops-user
  • 61.4.devops-auth
  • 61.5.devops-shell
  • 61.6.devops-install
  • 61.7.devops-system
  • 61.8.devops-service
  • 61.9.devops-network
  • 61.10.devops-nginx
  • 61.11.devops-docker
  • 61.12.devops-jekins
  • 61.13.devops-groovy
  • 61.14.devops-php
  • 61.15.devops-java
  • 61.16.devops-node
  • 61.17.devops-k8s
  • 62.1.react-basic
  • 62.2.react-state
  • 62.3.react-high
  • 62.4.react-optimize
  • 62.5.react-hooks
  • 62.6.react-immutable
  • 62.7.react-mobx
  • 62.8.react-source
  • 63.1.redux
  • 63.2.redux-middleware
  • 63.3.redux-hooks
  • 63.4.redux-saga
  • 63.5.redux-saga-hand
  • 64.1.router
  • 64.2.router-connected
  • 65.1.typescript
  • 65.2.typescript
  • 65.3.typescript
  • 65.4.antd
  • 65.4.definition
  • 66-1.vue-base
  • 66-2.vue-component
  • 66-3.vue-cli3.0
  • 66-4.$message组件
  • 66-5.Form组件
  • 66-6.tree
  • 66-7.vue-router-apply
  • 66-8.axios-apply
  • 66-9.vuex-apply
  • 66-10.jwt-vue
  • 66-11.vue-ssr
  • 66-12.nuxt-apply
  • 66-13.pwa
  • 66-14.vue单元测试
  • 66-15.权限校验
  • 67-1-network
  • 68-2-wireshark
  • 7.npm2
  • 69-hooks
  • 70-deploy
  • 71-hmr
  • 72.deploy
  • 73.import
  • 74.mobile
  • 75.webpack-1.文件分析
  • 75.webpack-2.loader
  • 75.webpack-3.源码流程
  • 75.webpack-4.tapable
  • 75.webpack-5.prepare
  • 75.webpack-6.resolve
  • 75.webpack-7.loader
  • 75.webpack-8.module
  • 75.webpack-9.chunk
  • 75.webpack-10.asset
  • 75.webpack-11.实现
  • 76.react_optimize
  • 77.ts_ketang_back
  • 77.ts_ketang_front
  • 78.vue-domdiff
  • 79.grammar
  • 80.tree
  • 81.axios
  • 82.1.react
  • 82.2.react-high
  • 82.3.react-router
  • 82.4.redux
  • 82.5.redux_middleware
  • 82.6.connected
  • 82.7.saga
  • 82.8.dva
  • 82.8.dva-source
  • 82.9.roadhog
  • 82.10.umi
  • 82.11.antdesign
  • 82.12.ketang-front
  • 82.12.ketang-back
  • 83.upload
  • 84.graphql
  • 85.antpro
  • 86.1.uml
  • 86.2.design
  • 87.postcss
  • 88.react16-1
  • 89.nextjs
  • 90.react-test
  • 91.react-ts
  • 92.rbac
  • 93.tsnode
  • 94.1.JavaScript
  • 94.2.JavaScript
  • 94.3.MODULE
  • 94.4.EventLoop
  • 94.5.文件上传
  • 94.6.https
  • 94.7. nginx
  • 95.1. react
  • 95.2.react
  • 96.1.react16
  • 96.2.fiber
  • 96.3.fiber
  • 97.serverless
  • 98.websocket
  • 100.1.react-basic
  • 101.1.monitor
  • 101.2.monitor
  • 102.java
  • 103.1.webpack-usage
  • 103.2.webpack-bundle
  • 103.3.webpack-ast
  • 103.4.webpack-flow
  • 103.5.webpack-loader
  • 103.6.webpack-tapable
  • 103.7.webpack-plugin
  • 103.8.webpack-optimize1
  • 103.9.webpack-optimize2
  • 103.10.webpack-hand
  • 103.11.webpack-hmr
  • 103.11.webpack5
  • 103.13.splitChunks
  • 103.14.webpack-sourcemap
  • 103.15.webpack-compiler1
  • 103.15.webpack-compiler2
  • 103.16.rollup.1
  • 103.16.rollup.2
  • 103.16.rollup.3
  • 103.16.vite.basic
  • 103.16.vite.source
  • 103.16.vite.plugin
  • 103.16.vite.1
  • 103.16.vite.2
  • 103.17.polyfill
  • 104.1.binary
  • 104.2.binary
  • 105.skeleton
  • 106.1.react
  • 106.2.react_hooks
  • 106.3.react_router
  • 106.4.redux
  • 106.5.redux_middleware
  • 106.6.connected-react-router
  • 106.6.redux-first-history
  • 106.7.redux-saga
  • 106.8.dva
  • 106.9.umi
  • 106.10.ketang
  • 106.11.antdesign
  • 106.12.antpro
  • 106.13.router-6
  • 106.14.ssr
  • 106.15.nextjs
  • 106.16.1.cms
  • 106.16.2.cms
  • 106.16.3.cms
  • 106.16.4.cms
  • 106.16.mobx
  • 106.17.fomily
  • 107.fiber
  • 108.http
  • 109.1.webpack_usage
  • 109.2.webpack_source
  • 109.3.dll
  • 110.nest.js
  • 111.xstate
  • 112.Form
  • 113.redux-saga
  • 114.react+typescript
  • 115.immer
  • 116.pro5
  • 117.css-loader
  • 118.1.umi-core
  • 119.2.module-federation
  • 119.1.module-federation
  • 120.create-react-app
  • 121.react-scripts
  • 122.react-optimize
  • 123.jsx-runtime
  • 124.next.js
  • 125.1.linux
  • 125.2.linux-vi
  • 125.3.linux-user
  • 125.4.linux-auth
  • 125.5.linux-shell
  • 125.6.linux-install
  • 125.7.linux-system
  • 125.8.linux-service
  • 125.9.linux-network
  • 125.10.nginx
  • 125.11.docker
  • 125.12.ci
  • 125.13.k8s
  • 125.14.k8s
  • 125.15.k8s
  • 125.16.k8s
  • 126.11.react-1
  • 126.12.react-2
  • 126.12.react-3
  • 126.12.react-4
  • 126.12.react-5
  • 126.12.react-6
  • 126.12.react-7
  • 126.12.react-8
  • 127.frontend
  • 128.rollup
  • 129.px2rem-loader
  • 130.health
  • 131.hooks
  • 132.keepalive
  • 133.vue-cli
  • 134.react18
  • 134.2.react18
  • 134.3.react18
  • 135.function
  • 136.toolkit
  • 137.lerna
  • 138.create-vite
  • 139.cli
  • 140.antd
  • 141.react-dnd
  • 142.1.link
  • 143.1.gulp
  • 143.2.stream
  • 143.3.gulp
  • 144.1.closure
  • 144.2.v8
  • 144.3.gc
  • 145.react-router-v6
  • 146.browser
  • 147.lighthouse
  • 148.1.basic
  • 148.2.basic
  • 148.3.basic
  • 148.4.basic
  • 148.5.basic
  • 149.1.vite
  • 149.2.vite
  • 149.3.vite
  • 149.4.vite
  • 150.react-window
  • 151.react-query
  • 152.useRequest
  • 153.transition
  • 154.emotion
  • 155.1.formily
  • 155.2.formily
  • 155.3.formily
  • 155.3.1.mobx.usage
  • 155.3.2.mobx.source
  • 156.vue-loader
  • 103.11.mf
  • 157.1.react18
  • 158.umi4
  • 159.rxjs
  • 159.rxjs2
  • 160.bff
  • 161.zustand
  • 162.vscode
  • 163.emp
  • 164.cors
  • 1. 掘金爬虫
  • 2. 核心步骤
  • 3. 核心类库
    • 3.1 request
      • 3.1.1 安装
      • 3.1.2 GET请求
      • 3.1.3 POST application/json
      • 3.1.4 POST application/x-www-form-urlencoded
      • 3.1.5 POST multipart/form-data
    • 3.2 cheerio
      • 3.2.1 安装
      • 3.2.2 load装载DOM
      • 3.2.3 选择器
      • 3.2.5 attr修改属性
      • 3.2.6 removeAttr(name)
      • 3.2.7 prop()修改状态值
      • 3.2.8 data()自定义属性
      • 3.2.9 val()赋值
      • 3.2.10 hasClass( className )
      • 3.2.11 addClass(name)
      • 3.2.12 emoveClass([className])
      • 3.2.13 find(selector)
      • 3.2.14 parent([selector])
      • 3.2.15 next()获得第一个本元素之后的同级元素
      • 3.2.16 .nextAll()
      • 3.2.17 prev()
      • 3.2.18 preAll()
      • 3.2.19 slice(start,[end])
      • 3.2.20 siblings(selector)
      • 3.2.21 first()
      • 3.2.22 last()
      • 3.2.23 eq(i)
      • 3.2.24 children(selector)
      • 3.2.25 each(function(index,element))
      • 3.2.26 map(function(index,element))
      • 3.2.27 filter(selector)
      • 3.2.28 append(content,[content…])
      • 3.2.29 prepend(content,[content,…])
      • 3.2.30 after(content,[content,…])
      • 3.2.31 before(content,[content,…])
      • 3.2.32 remove( [selector] )
      • 3.2.33 replaceWith( content )
      • 3.2.34 empty()
      • 3.2.35 html( [htmlString] )
      • 3.2.36 text( [textString] )
    • 3.3 debug
    • 3.4 corn
    • 3.5 监听未知错误
    • 3.6 pm2
    • 3.7 编码(iconv-lite)
    • 3.8 发送邮件
  • 3.9 HTTP代理工具
    • 3.9.1 https抓包设置
      • 3.9.1.1 Fiddler
      • 3.9.1.2 Android
      • 3.9.1.3 抓取接口
  • 参考

1. 掘金爬虫 #

通过一个实例来介绍如何编写网络爬虫抓去掘金数据,并存储到MySQL数据库中,以及定时任务爬虫来更新内容

2. 核心步骤 #

  1. 发起HTTP请求获取网页内容
  2. 使用类似jQuery的语法来操作网页提取需要的数据
  3. 把数据保存到数据库中以供查询
  4. 建立一个服务器来显示这些数据
  5. 可以定时爬取数据
  6. 让程序稳定运行
  7. 对编码进行转换

3. 核心类库 #

3.1 request #

  • npm request
  • github request

3.1.1 安装 #

npm install --save request

3.1.2 GET请求 #

var request = require('request');
request('http://www.baidu.com', function (error, response, body) {
  if (!error && response.statusCode == 200) {
    console.log(body);
  }

3.1.3 POST application/json #

const request=require('request');
const options={
    url: 'http://localhost:8080/post',
    method:'POST',
    json: true,
    headers: {
        "Content-Type":"application/json"
    },
    body: {name:"zfpx",age:8}
}
request(options,function (error,response,body) {
    if (!error && response.statusCode == 200) {
        console.log(body);
    } else {
        console.error(error);
    }
});

3.1.4 POST application/x-www-form-urlencoded #

const request=require('request');
const options={
    url: 'http://localhost:8080/form',
    method:'POST',
    json: true,
    form:{name:'zfpx',age:10}
}
request(options,function (error,response,body) {
    if (!error && response.statusCode == 200) {
        console.log(body);
    } else {
        console.error(error);
    }
});

3.1.5 POST multipart/form-data #

const request=require('request');
const fs=require('fs');
var formData = {
    name: 'zfpx',
    avatar:{
      value:  fs.createReadStream('avatar.jpg'),
      options: {
        filename: 'avatar.jpg',
        contentType: 'image/jpeg'
      }
  }
};
request.post({url:'http://localhost:8080/upload', formData}, function (error, response, body) {  
    if (!error&&response.statusCode==200) {
        console.log(body);
    } else {
        console.log(error);
    }
})

3.2 cheerio #

cheerio是一个node的库,可以理解为一个Node.js版本的jquery,使用方式和jquery基本相同。

3.2.1 安装 #

npm install cheerio

3.2.2 load装载DOM #

let str=`
<h2 class="title">Hello world</h2>
`;
const cheerio=require('cheerio');
const $=cheerio.load(str);
$('h2.title').text('hello there!');
$('h2').addClass('welcome');
console.log($.html());

3.2.3 选择器 #

  • 选择器在 Context 范围内搜索,Context又在Root范围内搜索。
  • root在右,context在左
  • selector 和context可以是一个字符串表达式,DOM元素,和DOM元素的数组,或者chreeio对象。
  • root 是通常是HTML 文档字符串。
$(selectior,[context],[root])
let html=`
<ul id="fruits">
  <li class="apple">Apple</li>
  <li class="orange">Orange</li>
  <li class="pear">Pear</li>
</ul>
`;

let cheerio=require('cheerio');
let $=cheerio.load(html);
console.log($('.apple','#fruits').text());

3.2.5 attr修改属性 #

  • 获得和修改属性
  • 在匹配的元素中只能获得第一元素的属性。
  • 如果设置一个属性的值为null,则移除这个属性
  • 你也可以传递一对键值,或者一个函数。
    attr(name,value)
console.log($('ul').attr('id'));
$('.apple').attr('id','favorite').attr('class','favorite');
$('.apple').attr({id:'favorite',class:'favorite'});
console.log($('.favorite').html());
console.log($('ul').html());

3.2.6 removeAttr(name) #

通过name删除属性

$('.favorite').removeAttr('id');

3.2.7 prop()修改状态值 #

$('input[type="checkbox"]').prop('checked')
//=> false

$('input[type="checkbox"]').prop('checked', true).val()
//=> ok

3.2.8 data()自定义属性 #

$('<div data-apple-color="red"></div>').data()
//=> { appleColor: 'red' }

$('<div data-apple-color="red"></div>').data('apple-color')
//=> 'red'

var apple = $('.apple').data('kind', 'mac')
apple.data('kind')
//=> 'mac'

3.2.9 val()赋值 #

$('input[type="text"]').val()
//=> input_text

$('input[type="text"]').val('test').html()
//=> <input type="text" value="test"/>

3.2.10 hasClass( className ) #

检查匹配的元素是否有给出的类名

$('.pear').hasClass('pear')//=> true
$('apple').hasClass('fruit')//=> false
$('li').hasClass('pear')//=> true

3.2.11 addClass(name) #

增加class(es)给所有匹配的elements.也可以传函数。

$('.pear').addClass('fruit').html()//=> <li class="pear fruit">Pear</li>
$('.apple').addClass('fruit red').html()//=> <li class="apple fruit red">Apple</li>

3.2.12 emoveClass([className]) #

从选择的elements里去除一个或多个有空格分开的class。如果className 没有定义,所有的classes将会被去除,也可以传函数

$('.pear').removeClass('pear').html()//=>Pear
$('.apple').addClass('red').removeClass().html()//=>Apple

3.2.13 find(selector) #

获得一个在匹配的元素中由选择器滤过的后代

$('#fruits').find('li').length//=> 3

3.2.14 parent([selector]) #

获得通过选择器筛选匹配的元素的parent集合

$('.orange').parents().length// => 2
$('.orange').parents('#fruits').length// => 1

3.2.15 next()获得第一个本元素之后的同级元素 #

$('.apple').next().hasClass('orange')//=> true
$('.pear').next().html()//=> null

3.2.16 .nextAll() #

获得本元素之后的所有同级元素

$('.apple').nextAll()//=> [<li class="orange">Orange</li>, <li class="pear">Pear</li>]
$('.apple').nextAll().length//=>2

3.2.17 prev() #

获得本元素之前的第一个同级元素

$('.orange').prev().hasClass('apple')//=> true

3.2.18 preAll() #

获得本元素前的所有同级元素

$('.pear').prevAll()//=> [<li class="orange">Orange</li>, <li class="apple">Apple</li>]

3.2.19 slice(start,[end]) #

获得选定范围内的元素数组

$('li').slice(1).eq(0).text()//=> 'Orange'
$('li').slice(1, 2).length//=> 1

3.2.20 siblings(selector) #

获得被选择的同级元素(除去自己)

$('.pear').siblings().length//=> 2
$('.pear').siblings('.orange').length//=> 1
$('.pear').siblings('.pear').length//=> 0

3.2.21 first() #

会选择chreeio对象的第一个元素

('#fruits').children().first().text()//=> Apple

3.2.22 last() #

会选择chreeio对象的最后一个元素

$('#fruits').children().last().text()//=> Pear

3.2.23 eq(i) #

通过索引筛选匹配的元素。使用.eq(-i)就从最后一个元素向前数。

$('li').eq(0).text()//=> Apple
$('li').eq(-1).text()//=> Pear

3.2.24 children(selector) #

获被选择元素的子元素

$('#fruits').children().length//=> 3
$('#fruits').children('.pear').text()//=> Pear

3.2.25 each(function(index,element)) #

迭代一个cheerio对象,为每个匹配元素执行一个函数。要提早跳出循环,返回false.

var fruits = [];

$('li').each(function(i, elem) {
  fruits[i] = $(this).text();
});

fruits.join(', ');
//=> Apple, Orange, Pear

3.2.26 map(function(index,element)) #

迭代一个cheerio对象,为每个匹配元素执行一个函数。Map会返回一个迭代结果的数组。

$('li').map(function(i, el) { 
  return $(this).attr('class');
}).join(', ');
//=> apple, orange, pear

3.2.27 filter(selector) #

  • 迭代一个cheerio对象,滤出匹配选择器或者是传进去的函数的元素。
  • 如果使用函数方法,这个函数在被选择的元素中执行,所以this指向的手势当前元素。
$('li').filter('.orange').attr('class');//=> orange

$('li').filter(function(i, el) { 
    // this === el 
    return $(this).attr('class') === 'orange';
}).attr('class');


//=> orange

3.2.28 append(content,[content…]) #

在每个元素最后插入一个子元素

$('ul').append('<li class="plum">Plum</li>')
$.html()
//=>
// <li class="apple">Apple</li>
// <li class="orange">Orange</li>
// <li class="pear">Pear</li>
// <li class="plum">Plum</li>//

3.2.29 prepend(content,[content,…]) #

在每个元素最前插入一个子元素

$('ul').prepend('<li class="plum">Plum</li>')
$.html()
//=>
// <li class="plum">Plum</li>
// <li class="apple">Apple</li>
// <li class="orange">Orange</li>
// <li class="pear">Pear</li>

3.2.30 after(content,[content,…]) #

在每个匹配元素之后插入一个元素

$('.apple').after('<li class="plum">Plum</li>')
$.html()
//=>
// <li class="apple">Apple</li>
// <li class="plum">Plum</li>
// <li class="orange">Orange</li>
// <li class="pear">Pear</li>

3.2.31 before(content,[content,…]) #

在每个匹配的元素之前插入一个元素

$('.apple').before('<li class="plum">Plum</li>')
$.html()
//=>
// <li class="plum">Plum</li>
// <li class="apple">Apple</li>
// <li class="orange">Orange</li>
// <li class="pear">Pear</li>

3.2.32 remove( [selector] ) #

从DOM中去除匹配的元素和它们的子元素。选择器用来筛选要删除的元素。

$('.pear').remove()
$.html()//=>

// <li class="apple">Apple</li>
// <li class="orange">Orange</li>

3.2.33 replaceWith( content ) #

替换匹配的的元素

var plum = $('<li class="plum">Plum</li>')
$('.pear').replaceWith(plum)
$.html()
//=>
// <li class="apple">Apple</li>
// <li class="orange">Orange</li>
// <li class="plum">Plum</li>//

3.2.34 empty() #

清空一个元素,移除所有的子元素

$('ul').empty()$.html()

3.2.35 html( [htmlString] ) #

获得元素的HTML字符串。如果htmlString有内容的话,将会替代原来的HTML

$('.orange').html()
//=> Orange
$('#fruits').html('<li class="mango">Mango</li>').html()
//=> <li class="mango">Mango</li>

3.2.36 text( [textString] ) #

获得元素的text内容,包括子元素。如果textString被指定的话,每个元素的text内容都会被替换。

$('.orange').text()//=> Orange
$('ul').text()//=> Apple// Orange// Pear

3.3 debug #

  • 在编写程序的时候,有时候需要输出一些调试信息,以便排查问题。
  • 但是在程序运行过程中又不需要这些信息,为了方便切换而且不需要改代码,可以使用debug模块
    let debug = require('debug')('app:main');
    debug('现在的时间是%s',new Date());
  • Window系统在命令行中执行 SET DEBUG=app:*
  • Mac系统在命令行中执行 export DEBUG=app:*

3.4 corn #

cron用来周期性的执行某种任务或等待处理某些事件的一个守护进程

符号 含义
星号(*) 代表所有可能的值
逗号(,) 可以用逗号隔开的值指定一个列表范围,例如,“1,2,5,7,8,9”
中杠(-) 可以用整数之间的中杠表示一个整数范围,例如“2-6”表示“2,3,4,5,6”
正斜线(/) 可以用正斜线指定时间的间隔频率,*/10,如果用在minute字段,表示每十分钟执行一次
单位 范围
Seconds 0-59
Minutes 0-59
Hours 0-23
Day 1-31
Months 0-11
Day of Week 0-6
var cronJob = require('cron').CronJob;
var job1 = new cronJob("* * * * * *",function(){
  console.log('每秒');
});
job1.start();

3.5 监听未知错误 #

  • 大部分情况下,异步的IO操作发生的错误无法被try catch捕获,如果没有捕获会导致程序退出
  • 在Node.js中,如果一个抛出的异常没有被try catch捕获,会尝试将错误交给uncaughtException事件处理函数来进行处理,仅当没有注册该事件处理函数时才会导致进程直接退出。
process.on('uncaughtException',function (err) {
    console.error('uncaughtException: %s',erro.stack);
});

3.6 pm2 #

pm2是一个功能强大的进程管理器,通过pm2 start来启动程序, 当该进程异常退出时,pm2会自动尝试重启进程。

npm install pm2 -g
npm2 start 
pm2 stop 

3.7 编码(iconv-lite) #

var request = require('request');
var iconv=require('iconv-lite');
let cheerio=require('cheerio');
request({url: 'http://top.baidu.com/buzz?b=26&c=1&fr=topcategory_c1'
, encoding: null},function(err,response,body){
    if(err)
        console.error(err);
    body = iconv.decode(body, 'gbk').toString();
    let $=cheerio.load(body);
    let movies=[];
    $('.keyword .list-title').each((index,item) => {
        let movie=$(item);
        movies.push({
            name:movie.text()
        });
    });
    console.log(movies);
})

3.8 发送邮件 #

nodemailer是一个简单易用的Node.js邮件发送模块

const nodemailer = require('nodemailer');
let transporter = nodemailer.createTransport({
    // host: 'smtp.ethereal.email',
    service: 'qq', // 使用了内置传输发送邮件 查看支持列表:https://nodemailer.com/smtp/well-known/
    port: 465, // SMTP 端口
    secureConnection: true, // 使用了 SSL
    auth: {
        user: '83687401@qq.com',
        // 这里密码不是qq密码,是你设置的smtp授权码
        pass: 'gfndwuvvfpbebjdi',
    }
});

let mailOptions = {
    from: '"83687401" <83687401@qq.com>', // sender address
    to: '83687401@qq.com', // list of receivers
    subject: 'hello', // Subject line
    // 发送text或者html格式
    // text: 'Hello world?', // plain text body
    html: '<h1>Hello world</h1>' // html body
};

// send mail with defined transport object
transporter.sendMail(mailOptions, (error, info) => {
    if (error) {
        return console.log(error);
    }
    console.log('Message sent: %s', info.messageId);
    // Message sent: <04ec7731-cc68-1ef6-303c-61b0f796b78f@qq.com>
});

3.9 HTTP代理工具 #

  • Windows 平台有 Fiddler,macOS 有 Charles,阿里有AnyProxy
  • 基本原理就是通过在手机客户端设置好代理IP和端口,客户端所有的 HTTP、HTTPS 请求就会经过代理工具

3.9.1 https抓包设置 #

3.9.1.1 Fiddler #

  • Tools > Fiddler Options > Connections
    • Fiddler listens on port 8888
    • Allow remote computers to connect
  • Tools > Fiddler Options > HTTPS > Decrypt HTTPS traffic
    • Capture HTTPS CONNECTs
    • Decrypt HTTPS traffic

3.9.1.2 Android #

  • 进入手机的 WLAN 设置,选择当前所在局域网的 WiFi 链接,设置代理服务器的 IP 和端口
  • 访问http://192.168.31.236:8888/显示echo页面
  • 下载 FiddlerRoot certificate,下载并安装证书,并验证通过

3.9.1.3 抓取接口 #

  • 过滤 mp.weixin.qq.com 接口
  • 历史消息 https://mp.weixin.qq.com/mp/profile_ext
  • 文章详情 https://mp.weixin.qq.com/mp/getappmsgext

参考 #

  • fiddler
  • Fiddler抓取https设置详解

访问验证

请输入访问令牌

Token不正确,请重新输入