nodejs - 爬虫
继续上一篇写下爬虫的实现,网上找了一个爬虫的文章,然后从里面找了一个网址,https://www.lanvshen.com/,我们就从这个网址里面拉出来里面的图片和里面的图片里的信息然后我们要写爬虫的话,就需要把所需要的组件弄来,里面需要cheerio,我们可以去https://www.npmjs.com/package/cheerio里面查看怎么使用,其实用法很简单,就和jquery一样,只是用之前要把$声明下,代码:
这里面有相应的注释,所以在这里就不写了,主要就是请求页面,然后查找到相应元素里面的信息保存或进行其他操作 这个是我获取的,页面里面有些是href跳转到一个模特详情里面,有些是模特列表,这里我没有区分,所以都弄了这些,数据如下:
差不多有一点点吧,因为这里面有些图片点击之后的href也是一个列表,而不是写真图片,所以如果想要弄的仔细点,可以继续循环着去获取 简单来说这样的一个获取数据的爬虫就完成了,因为我这里都是异步的,当然,也可以像之前别人写的那个一样,直接把里面图片保存下来,保存起来,因为是异步的,所以,保存需要一定的时间,所以现在我这里就没写了,我这里获取的图片url都有了,保存应该也就不用我写了吧,简单的注意:此种行为好像是违法的,所以,如果想要用于商业或其他关于钱的地方,最好是不要弄,要不然被告了就不好了 好了,今天这里的爬虫就写到这里了,感兴趣的童鞋,可以自己找个网站试试,多学一样东西,多一份技能
发表评论 (审核通过后显示评论):