洞悉互聯網前沿資訊,探尋網站營銷規律
作者:Smileby陌少羽 | 2019-04-21 10:21 |點擊:
首先這個規則采集俠默認都是自動識別的,但是自動識別的效果有可能沒有自己設置的好,也有可能有的網站采集俠識別不了,如果標題和內容采集俠識別不到那么就什么都采集不到了!所以這里建議是內容規則最好手工設置,而作者和來源規則可以不設置,也可以到采集俠的高級設置菜單里設置成固定的作者以及來源。
標題、作者、來源、內容和分頁規則的寫法都是一樣的,懂得其中一項的寫法,其他幾項都懂得了,所以這里就以內容規則來舉例說明。
采集俠是怎么根據你的規則找到文章內容的呢,其實就是你寫個規則告訴它文章從哪里開始,從哪里結束,最后寫成規則就是 開始的地方的代碼[內容]結束的地方的代碼,
比如我要采集站長之家優化欄目里面的文章,打開文章列表中其中一篇,
如:
http://www.chinaz.com/web/2015/0702/418785.shtml
打開后,右鍵查看源碼,通過查看源碼找到文章處,你可以通過搜索文章中的句子去找文章所在的大概位置
最后我們把前后的代碼做成規則,就是
<div class="article-detail-bd">[內容]</div>
最后點擊測試,如果測試成功了點擊保存即可采集