洞悉互聯(lián)網(wǎng)前沿資訊,探尋網(wǎng)站營(yíng)銷規(guī)律
作者:狐靈科技 | 2019-08-26 23:12 |點(diǎn)擊:
深維全能信息采集軟件官網(wǎng):www.sumwill.com
今天寫一篇深維全能信息采集軟件的教程
采集的方法其實(shí)很簡(jiǎn)單 和火車頭類似 織夢(mèng)的采集俠也是這樣的
今天我拿順企網(wǎng)為例
首先打開(kāi)深維全能信息采集軟件
新建一個(gè)采集任務(wù) 如下圖
任務(wù)名稱可以隨意填寫 網(wǎng)站首頁(yè)一般是采集網(wǎng)站域名即可 備注隨意
例如我的
任務(wù)名稱:重慶順企網(wǎng)制造業(yè)
網(wǎng)站首頁(yè):www.11467.com
備注說(shuō)明:順企網(wǎng)制造業(yè)
這里的網(wǎng)頁(yè)編碼 一般都是默認(rèn)的 如果發(fā)現(xiàn)采集是亂碼 那么自己更改一下編碼
然后就是起始地址
因?yàn)槲也杉氖琼樒缶W(wǎng)的重慶制造業(yè) 他的地址是
https://www.11467.com/chongqing/dir/c.htm
然后我們多看看下一頁(yè) 看網(wǎng)址會(huì)發(fā)生什么變化 如果是頁(yè)面變化是數(shù)字 并且是規(guī)則的那么就可以采集
第二頁(yè)是:https://www.11467.com/chongqing/dir/c-p2.htm
第三頁(yè)是:https://www.11467.com/chongqing/dir/c-p3.htm
第四頁(yè)是:https://www.11467.com/chongqing/dir/c-p4.htm
可以發(fā)現(xiàn)是規(guī)則的 我們輸入p1也就是第一頁(yè)
那么起始地址就是https://www.11467.com/chongqing/dir/c-p1.htm
要把其中的p1當(dāng)中的1改成可以變動(dòng)的 我們也要看下最后又多少頁(yè)
這個(gè)最后就20頁(yè) 因此 頁(yè)碼范圍就是從1--20
再把p改成插入變量 會(huì)變成{page}符號(hào) 在點(diǎn)擊添加
不懂得可以看我得配置圖
然后就是導(dǎo)骯頁(yè)面 這個(gè)也要一定要配置好 不然會(huì)出很大得問(wèn)題
最主要得就是頁(yè)面名稱 (頁(yè)面標(biāo)識(shí)是進(jìn)入文章頁(yè)面必須有得鏈接標(biāo)識(shí))
這里說(shuō)明一下:如果你的列表頁(yè) 點(diǎn)進(jìn)去后可以直接 看到你想要采集得內(nèi)容 那頁(yè)面名稱 就選擇列表頁(yè) 頁(yè)面類型選擇最終頁(yè)面
然后在添加一個(gè) 頁(yè)面名稱 文章頁(yè)面 頁(yè)面類型選擇最終頁(yè)面
如圖所示
如果你采集得頁(yè)面 點(diǎn)進(jìn)去后 還要再次點(diǎn)擊一個(gè)頁(yè)面才能采集到內(nèi)容 那頁(yè)面名稱 就選擇列表頁(yè) 頁(yè)面類型選擇 導(dǎo)航頁(yè)
最后就是采集數(shù)據(jù)了 把我們想要采集得內(nèi)容填寫上即可
比如我要采集公司名稱 打開(kāi)得內(nèi)容頁(yè)是:https://www.11467.com/chongqing/co/300685.htm
在最下面我們可以看到公司名稱 聯(lián)系人電話 地址 QQ 工商信息
記住 我們要找唯一 查看網(wǎng)頁(yè)源代碼很多公司名字 我們必須找到唯一識(shí)別得
這里面他的法人這個(gè)字段是唯一得 所以我們可以用這個(gè)
記得把html去除即可 如果你有其他用途 不去除也可以 根據(jù)需求來(lái)
以上就是深維全能信息采集軟件使用教程