基于搜索代理的紡織企業信息庫的自動獲取系統與通用搜索引擎不同的是,它用搜索代理替代了搜索引擎中的“網絡蜘蛛”軟件,該代理除了能完成網頁收集和自動“爬行”外,還能利用專業關鍵詞和用戶的反饋信息自動過濾相關網頁,這樣使收集來的頁面均與專業相關,較大地縮小了對存儲空間的要求。
此外還增加了反饋信息、專業信息數據庫,以及收集這些信息的代理模塊。
紡織企業信息的自動獲取系統的工作原理代理又稱Agent,是一個具有自治能力的實體,一般表現為由軟件支持下的系統。在所設計的系統中,搜索代理是一個面向特定專業領域的信息獲取引擎。
與一般搜索引擎相比,它使用自動獲得的專業特征信息(如專業關鍵字、專業信息資源、頁面結構信息等)、用戶反饋信息(如專業信息格式、用戶興趣等)知識進行網頁信息搜集、過濾,并將自動提取網頁基本結構信息。