Skip to content

Latest commit

 

History

History
173 lines (118 loc) · 6.37 KB

File metadata and controls

173 lines (118 loc) · 6.37 KB

Webscraper

Web Scraper 是一款免费的,适用于普通用户(不需要专业 IT 技术的)的爬虫工具,可以方便的通过鼠标和简单配置获取你所想要数据,属于信息时代获取数据必备神器。淘宝、天猫、亚马逊等电商网站商品信息、知乎回答列表、微博热门、微博评论、博客文章列表等等,只有你想不到,没有它办不到的!

写在做前面

Webscraper是一位叫“明白”的大佬发现,并分享了它的详细操作。明白老师创建了知识星球精选站http://www.zsxq100.com/,创建了Webscraper中文网http://www.iwebscraper.com。如果从网页抓取数据是你的工作,那你可以选择学习明白老师的关于Webscraper的爬虫课程。课程所讲的内容如下:

有兴趣的朋友可以详细的学习一下Webscraper抓取网页数据。扫描下面的二维码即可进入他的课程。

明白老师也是善于善于思考,乐于分享他的赚钱之道的人。他的知识星球有一个付费的和一个免费的,有兴趣的朋友可以加入一下,进入大佬的圈子。

实战

1.插件下载

安装地址:

https://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn?hl=en(注:不用代理工具的小伙伴,可能访问不了,获取免费的代理工具,关注我的公众号“不安分的猿人”,回复“科学上网”,即可获取上网插件)

当然,你也可以通过这里获取插件:https://pan.baidu.com/s/133qCd3Bb9gaapqxcRk7aGw 提取码: kg61

google浏览器安装插件这里就略过了。

2.实战操作

以抓取知乎大V陈素封文章前 3 页标题、正文全文、点赞数为例。(https://www.zhihu.com/people/Feat/posts

imgimg

1.抓取流程

1)第一步:了解网址规则,建立 Sitemap,名称可根据每个人的习惯自己来定义。

img

2)第二步:熟悉网页结构,按下图顺序创建选择器

img 元素选择器 ① post-element,用于选择文章元素块。

img

为元素选择器 post-element 建立 3 个子选择器,分别为文本选择器post-title、链接选择器full-content-link、文本选择器link-count。

img

img

img

2.操作技巧

1.鼠标选择要抓取的元素,制定抓取规则;

img

2.检查写好的选择器是否正确,可点击“Element preview”按钮,对数据进行预览。

img

img

3.导出siteMap

{
    "_id": "chensufeng-zhihu-post", 
    "startUrl": [
        "https://www.zhihu.com/people/Feat/posts?page=[1-3]"
    ], 
    "selectors": [
        {
            "id": "post-element", 
            "type": "SelectorElement", 
            "parentSelectors": [
                "_root"
            ], 
            "selector": "div.List-item", 
            "multiple": true, 
            "delay": 0
        }, 
        {
            "id": "post-title", 
            "type": "SelectorText", 
            "parentSelectors": [
                "post-element"
            ], 
            "selector": "h2.ContentItem-title a", 
            "multiple": false, 
            "regex": "", 
            "delay": 0
        }, 
        {
            "id": "full-content-link", 
            "type": "SelectorLink", 
            "parentSelectors": [
                "post-element"
            ], 
            "selector": "h2.ContentItem-title a", 
            "multiple": false, 
            "delay": 0
        }, 
        {
            "id": "link-count", 
            "type": "SelectorText", 
            "parentSelectors": [
                "post-element"
            ], 
            "selector": "span.Voters button.Button", 
            "multiple": false, 
            "regex": "", 
            "delay": 0
        }, 
        {
            "id": "post-full-content", 
            "type": "SelectorText", 
            "parentSelectors": [
                "post-element"
            ], 
            "selector": "span.RichText ", 
            "multiple": false, 
            "regex": "", 
            "delay": 0
        }, 
        {
            "id": "test1", 
            "type": "SelectorText", 
            "parentSelectors": [
                "post-element"
            ], 
            "selector": ".Voters button", 
            "multiple": false, 
            "regex": "", 
            "delay": 0
        }
    ]
}

4.数据导出

Web Scraper 支持将数据导出为excel,也支持将数据导出到CouchDB (一个面向文档的数据库 )。

3.其他工具

八爪鱼,官网:https://www.bazhuayu.com/

后羿采集器:官网:http://www.houyicaiji.com/

GooSeeker (集搜客),官网:http://www.jisouke.com/

附:

Web Scraper 官方文档中文版.pdf文档

百度链接: https://pan.baidu.com/s/1fYRi8B4irtMqvlgV0Ix5Jg 提取码: cv43

img点击并拖拽以移动