【从零开始学爬虫】采集亚马逊商品信息

置顶 “前嗅大数据”
数据大牛一起成长,做牛气哄哄的大数据人

【从零开始学爬虫】采集亚马逊商品信息 -1

l 采集网站

【场景描述】采集亚马逊搜索关键词出来的商品信息。

【入口网址】https://www.amazon.com/-/zh/ref=nav_logo


【从零开始学爬虫】采集亚马逊商品信息 -2


【采集内容】采集亚马逊搜索关键词搜索出来的商品信息,包括商品名称、价格、型号、星级和商品链接。


【从零开始学爬虫】采集亚马逊商品信息 -3

【从零开始学爬虫】采集亚马逊商品信息 -4

l 思路分析

【从零开始学爬虫】采集亚马逊商品信息 -5

l 配置步骤

一.新建采集任务

选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

 

【从零开始学爬虫】采集亚马逊商品信息 -6

 

二.关键词配置及翻页链接

1.查找规律

在亚马逊首页页搜索不同关键词,发现不同关键词搜索结果的链接,只更换了图中红框部分,而红框部分正是经过转码后的关键词。


关键词为:女装第一页链接

【从零开始学爬虫】采集亚马逊商品信息 -7


关键词为:女装第二页链接

【从零开始学爬虫】采集亚马逊商品信息 -8


关键词为:男装第一页链接

https://www.amazon.com/s?k=%E7%94%B7%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_1

【从零开始学爬虫】采集亚马逊商品信息 -9


关键词为:男装第二页链接

【从零开始学爬虫】采集亚马逊商品信息 -10


说明不同关键词和页数搜索出来的链接规律为

https://www.amazon.com/s?k=【关键词转码】&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_【页数】

 

2.高级配置

得到关键词链接拼接规则后,开始配置关键词搜索:

点击屏幕右下角【高级配置】,将采集地址填写到【请求地址】中,点击【+】添加一个参数,名称可以自定义。

此项配置是用于后期脚本能将关键词从关键词列表中取出,配置完成点击【确定】即可。

 

【从零开始学爬虫】采集亚马逊商品信息 -11


3.设置搜索关键词

在关键词列表添加多个关键词用英文分号或换行隔开。

 

【从零开始学爬虫】采集亚马逊商品信息 -12


4.新建脚本

关键词需要写脚本,新建一个脚本,如下所示:


【从零开始学爬虫】采集亚马逊商品信息 -13


5.脚本配置

根据刚才的链接规律,具体配置脚本如下:

 

【从零开始学爬虫】采集亚马逊商品信息 -14


脚本文本如下:

    var ks = EXTRACT.GetSearch(this);var k = ks.Search();while(k)//while循环将所有关键词拼一遍{  url u;  var kw = k.wd;    var wd= u.UnEscape( kw);    for(var i=1;i<=10;i++)//for循环采集前10页数据   {     var ur = "https://www.amazon.com/s?k="+u.Escape(wd)+"&language=zh&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99"+"&qid=1624946018&ref=sr_pg_"+i;//根据链接规律拼链接  u.title = wd+"第"+i+"页"; //返回链接title    u.urlname = ur;//返回链接    u.entryid = this.id;//返回id    u.tmplid = 1;//关联模板01    RESULT.AddLink(u);    }    k = ks.Search();}ks.End();


    6.效果预览:

    点击【采集预览】,即可看到配置效果。

     

    【从零开始学爬虫】采集亚马逊商品信息 -15


    三.商品链接抽取

    1.从采集预览中任意复制一条链接。

     

    【从零开始学爬虫】采集亚马逊商品信息 -16


    2.将链接复制到默认模板01的示例地址中。

     

    【从零开始学爬虫】采集亚马逊商品信息 -17


    3.右击采集预览,可以看到爬虫抓取出来的所有链接。


    【从零开始学爬虫】采集亚马逊商品信息 -18【从零开始学爬虫】采集亚马逊商品信息 -19

     

    4.观察发现,这些链接就是关键词搜索出来的商品链接。并且链接中都含有【/zh/dp/】。

     

    【从零开始学爬虫】采集亚马逊商品信息 -20


    5.选择地址过滤,选择【包含】,填入【/zh/dp/】,点击保存。则筛选出所有商品链接,商品链接就抽取出来了。

     

    【从零开始学爬虫】采集亚马逊商品信息 -21


    6.关联模板,将模板01链接抽取关联至模板02,具体操作如下图所示:

     

    【从零开始学爬虫】采集亚马逊商品信息 -22


    四.商品数据抽取

    1.新建数据抽取

    新建模板02,在模板02下建一个数据抽取,具体操作如下图所示。

     

    【从零开始学爬虫】采集亚马逊商品信息 -23


    2.数据建表

    点击图中加号,新建一个数据表,然后添加字段,各字段属性如下图所示:


    【从零开始学爬虫】采集亚马逊商品信息 -24


    3.关联表单

    将新建好的数据表,关联到模板中去,如下图所示:

     

    【从零开始学爬虫】采集亚马逊商品信息 -25


    4.填写示例地址

    从采集预览中任意复制一条商品的链接,填写到模板02的示例地址中。

     

    【从零开始学爬虫】采集亚马逊商品信息 -26

    【从零开始学爬虫】采集亚马逊商品信息 -27


    5.字段抽取

    字段抽取使用定位抽取的方法,选中选区后,点击【确认选区】按钮即可。

     

    【从零开始学爬虫】采集亚马逊商品信息 -28


    【从零开始学爬虫】采集亚马逊商品信息 -29


    【从零开始学爬虫】采集亚马逊商品信息 -30

     

    6.采集预览

    如下图所示,一层一层双击,进入最后数据页,即取到了数据。

     

    【从零开始学爬虫】采集亚马逊商品信息 -31

     

    l 采集步骤

    模板配置完成,采集预览没有问题后,可以进行数据采集。

    1.建立采集数据表

    选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为amazon(注意命名不能用数字和特殊符号),点击【确定】。

     

    【从零开始学爬虫】采集亚马逊商品信息 -32


    2.关联数据表

    创建完成,勾选数据表并保存。

     

    【从零开始学爬虫】采集亚马逊商品信息 -33


    3.开始采集

    选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

     

    【从零开始学爬虫】采集亚马逊商品信息 -34


    4.导出数据

    可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据。


    【从零开始学爬虫】采集亚马逊商品信息 -35

     【从零开始学爬虫】采集亚马逊商品信息 -1


    导出的文件打开如下图所示:


    【从零开始学爬虫】采集亚马逊商品信息 -37



    点击下方即可免费下载
    【从零开始学爬虫】采集亚马逊商品信息 -38



    关注公众号

    回复“亚马逊”

    免费领取【亚马逊】采集模板

    如需定制点击

    欢迎大家前来咨询

    【从零开始学爬虫】采集亚马逊商品信息 -39

    点击,进入前嗅大数据官方网站

    【从零开始学爬虫】采集亚马逊商品信息 -40