精品国产免费观看久久久_久久天天躁狠狠躁夜夜爽_无码人妻少妇久久中文字幕_狠狠做深爱婷婷久久综合一区

網絡建站知識

精準傳達 ? 價值共享

洞悉互聯網前沿資訊,探尋網站營銷規律

查看其它板塊

Dedecms織夢采集功能的使用方法不包含分頁

作者:Smileby陌少羽 | 2017-10-06 18:08 |點擊:

前言:這篇文章是為了初次接觸Dedecms采集功能的朋友所寫的。所選取的目標站點為文章內容頁面不含有分頁的Dedecms官方網站的dreameaver欄目文章,通過圖文并茂的形式,詳細地介紹了如何創建一個基本的采集規則。本文共分為三節:第一節,主要是介紹如何進入采集界面和新增采集節點中的第一步:設置基本信息及網址索引頁規則;第二節,主要是介紹新增采集節點中的第二步:設置字段獲取規則;第三節,主要是介紹如何采集指定節點和如何導出采集內容。下面進入第一節。

 

1.1進入采集節點管理界面

 

如(圖1)所示,在后臺管理界面的主菜單中單擊“采集”,然后單擊“采集節點管理”,即可進入采集節點管理界面,如(圖2)所示。

Dedecms織夢采集功能的使用方法不包含分頁

圖1-后臺管理界面

 

圖2-采集節點管理界面

 

1.2. 增加新節點

 

在采集節點管理界面中,單擊左下角的“增加新節點”或者右上角的“添加新節點”(如圖2),都可進入“選擇內容模型”界面,如(圖3)所示,

圖3-選擇內容模型界面

 

在“選擇內容模型”界面的下拉列表框中,有“普通文章”和“圖片集”可供選擇。根據被采集頁面的類型,選擇相應的內容模型。本文這里選擇“普通文章”,單擊確定后,便可進入“新增采集節點:第一步設置基本信息及網址索引頁規則”界面,如(圖4)所示,

圖4-新增采集節點:第一步設置基本信息及網址索引頁規則

 

1.2.1 設置節點基本信息

 

圖5-節點基本信息

如(圖5)所示,

節點名稱:給新建立的節點起一個名字,這里填上“采集測試(一)”;

 

目標頁面編碼:設定被采集目標頁的編碼格式,有GB2312、UTF8和BIG5三種。可通過在被采集目標頁面上,單擊右鍵后選擇“查看源文件”來獲取。

操作步驟:

(a)打開被采集的目標頁:http://www.dedecms.com/knowledge/web-based/dreamweaver/

 

(b)單擊右鍵后選擇“查看源文件”,找到“charset”, 如(圖6)所示,

圖6-查看源文件

 

其等號后面的代碼就是所需的“編碼格式”,這里是“gb2312”。

 

 “區域匹配模式”:設定如何匹配所需采集的內容部分,可采用字符串或者正則表達式。系統默認的模式是字符串。如果比較了解正則表達式的朋友,可以在這里選擇正則表達式的模式。

 

“內容導入順序”:指定文章列表導入時候的順序,可以選擇“與目標站一致”或“與目標站相反”。

 

“防盜鏈模式”:針對被采集的目標站點有無刷新限制。一開始很難判斷出來,需要測試后才能知道。如果有的話,這里需要設置一下“資源下載超時時間”。

“引用網址”:填入任何一個即將被采集的文章內容頁面的網址。

 

具體操作步驟:

(a)在已打開的文章列表頁中,單擊第一篇文章的

標題“在Dreamweaver中為插入的Flash添加透明”,以打開文章內容頁面,如(圖7)所示,

Dedecms織夢采集功能的使用方法不包含分頁

 

圖7-文章內容頁面

 

(b)此時在瀏覽器的URL地址欄中顯示的網址,即為需要填寫在“引用網址”處的網址,如(圖8)所示,

圖8-瀏覽器的URL地址欄

 

到這里,“節點基本信息”就設置完成了。最后結果,如(圖9)所示,

圖9-設置后的節點基本信息

 

檢查無誤后,進入下一步設置。

 

1.2.2 設置列表網址獲取規則

 

如(圖10)所示,

Dedecms織夢采集功能的使用方法不包含分頁

圖10-列表網址獲取規則

 

這里是設置被采集的文章列表頁的匹配規則。如果被采集的文章列表頁有一定的規律,可選擇“批量生成列表網址”;如果被采集的文章列表頁完全沒有規律可循,那么可選擇“手工指定列表網址”;如果被采集的站點提供了RSS,則可以選擇“從RSS中獲取”。對于特殊情況,例如:部分列表頁有規律,而其余的又沒有規律,則可在“匹配網址”中填上有規律的部分,然后把沒有規律的部分填寫在“手動指定網址”。

具體操作步驟:

(a)首先,回到已打開的文章列表頁,找到瀏覽器的URL地址欄中顯示的網址(圖8)和頁面底部的換頁部分。如(圖11)所示,

圖11-換頁

 

(b)單擊“2”,打開文章列表頁的第二頁,此時瀏覽器的URL地址欄中所顯示的網址和頁面底部的換頁部分,如(圖12)和(圖13)所示,

圖12-第二頁的網址

 

圖13-第二頁的換頁部分

 

(c)在已打開的文章列表頁的第二頁上面,單擊(1),打開文章列表頁的首頁,這時頁面底部的換頁部分與圖11相同,而瀏覽器的URL地址欄中所顯示的網址與之前圖8并不相同,如(圖14)所示,

圖14-第一頁的網址

 

(d)由(b)和(c)推知,此處被采集的文章列表頁的網址所遵循規律為:

http://www.dedecms.com/knowledge/web-based/dreamweaver/list_47_(*).html。穩妥起見,請自行測試更多列表頁。確定規律后,在“匹配網址”中,填入文章列表頁所遵循的規律。

 

(e)最后,指定需要采集的頁碼或者規律數字,并設定其遞增規律。

到這里,“列表網址獲取規則”部分就設置結束了。最后結果,如(圖15)所示,

Dedecms織夢采集功能的使用方法不包含分頁

圖15-設置后的列表網址獲取規則

 

確定正確后,進入下一步設置。

 

1.2.3設置文章網址匹配規則

 

如(圖16)所示,

圖16-文章網址匹配規則

 

這里是設置被采集文章列表頁的匹配規則。

具體操作步驟:

(a)對于“區域開始的HTML”,可通過在打開的文章列表首頁上,單擊右鍵后選擇“查看源文件”。在源文件中,找到第一篇文章的標題“在Dreamweaver中為插入的Flash添加透明”,如(圖17)所示,

圖17-查看源文件中,第一篇文章的標題

 

通過觀察,不難看出“<div class=“arc_list”>”為整個文章列表的開始部分。因此,在“區域開始的HTML”中,填入”<div class=“arc_list”>”。

 

(b)在源文件中,找到最后一篇文章標題“通過Dreamweaver設計網頁時組織CSS的建議”,如(圖18)所示,

圖18-查看源文件中,最后一篇文章的標題

 

結合文章列表的開始部分并通過觀察可知,第一個“</div>”為整個文章列表的結束部分。因此,在“區域結束的HTML”中,應填入”</div>”。

 

“如果鏈接中含有圖片”:設置對鏈接中含有圖片的處理方式,有不處理和采集為縮略圖可選。可根據實際需要選擇。

 

“對區域網址進行再次篩選”:可以使用正則表達式對區域網站進行再次篩選,這是針對一些需要被保留或者需要濾掉的內容,尤其是混編的列表頁面,通過使用“必須包含”或者“不能包含”過濾掉所希望獲取或者不希望獲取的文章內容頁面的網址。

具體操作步驟:

回到正在打開的文章列表首頁的源文件,通過觀察可知,每一個文章內容頁面地址的擴展名均為.html。因此,可在“必須包含”中,填入“.html”。

到這里,“文章網址匹配規則“就設置結束了。最后結果, 如(圖19)所示,

圖19-設置后的文章網址匹配規則

 

通過1.2.1小節、1.2.2小節和1.2.3小節,新增采集節點的第一步就已經設置完成了。設置后的結果,如(圖20)所示,

圖20-設置后的新增采集節點:第一步設置基本信息及網址索引頁規則

 

全部完成并檢查無誤后,單擊“保存信息并進入下一步設置“。如果之前設置正確,單擊后,將會進入“新增采集節點:測試基本信息及網址索引頁規則設置的網址獲取規則測試”頁面并看到相應的文章列表地址。如(圖21)所示,

圖21-網址獲取規則測試

 

確定正確無誤后,單擊“保存信息并進入下一步設置”。否則,請單擊“返回上一步進行修改“。

如沒特殊注明,文章均為狐靈科技原創,轉載請注明?? "Dedecms織夢采集功能的使用方法不包含分頁
多一份免費策劃方案,總有益處。

請直接添加技術總監微信聯系咨詢

網站設計 品牌營銷

多一份參考,總有益處

聯系狐靈科技,免費獲得專屬《策劃方案》及報價

咨詢相關問題或預約面談,可以通過以下方式與我們聯系

業務熱線:15082661954 / 大客戶專線:15523356218