php小小的数据采集功能。QueryList 炒鸡简单 2018-09-06

    首先要准备点东西,,,我用的是querylist 3.0  


    下载链接在这里

    https://github.com/jae-jae/QueryList/tree/V3.2.1


    当然QueryList是基于phpQuery的,所以我们还得再下载phpquery 

    https://code.google.com/archive/p/phpquery/downloads  

     我是点这个下载的 https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/phpquery/phpQuery-0.9.5.386.zip


    下载后解压后 

    image.png


    test是我自己写的代码。


    OK,下载的东西我们都准备好了,接下来我们该如何去用querylist来抓数据呢?

    看下我的小demo

    <?php
    include 'QueryList.php';
    include 'phpQuery/phpQuery/phpQuery.php';
    $mod = new \QL\QueryList();
    for ($i = 1; $i  ['.cbp_tmtimeline>li>div>h2', 'html'],
            'link' => ['.cbp_tmtimeline>li>div>p>span>a', 'href'],
            'last_page'
        ];
        $res[$i] = $mod->Query($url, $rules)->data;
    }
    
    
    echo '';
    print_r($res);
    echo '';

    image.png


    首先我们得引入我们下载的两个小东西

    以我的个人博客为例,我抓取我网站的学无止境模块。 由于简单的demo就不写判断了,总共也就5页,写个for循环 从1页到5页的都去抓。 


    这个应该很好理解。 rules就是抓取规则。 title的抓取规则为 .cbp_tmtimeline下面的li标签下面的div下面的h2 的html内容


    image.png

      就这么简单好理解把。。

    link同理 就是下面的a标签的内容。 OK 我们来看下抓到了什么效果


    image.png



    OK,大概用法就是这样,具体要怎么抓大家再细细研究哈哈。


    QuerList 3 的文档地址 :https://v3.querylist.cc/site/index/doc/6


    QuerList 4 的文档地址 : https://doc.querylist.cc/   


    推荐用4的,文档由于怕有的人没用过composer或者用的php版本低于7的所以以3为例子。