基于Java的低代碼主題爬蟲的設(shè)計與實現(xiàn)
打開文本圖片集
摘要:網(wǎng)頁數(shù)據(jù)提取是人工智能與大數(shù)據(jù)相關(guān)課題學(xué)習(xí)與研究的一項重要內(nèi)容。為了減輕編寫主題網(wǎng)絡(luò)爬蟲程序工作,該文在主題爬蟲的基礎(chǔ)原理上,設(shè)計一套通用的Java爬蟲程序。程序抽象了下載模塊、內(nèi)容處理模塊和結(jié)果操作等核心內(nèi)容,通過注解或xml配置等低代碼方式,即可實現(xiàn)不同主題內(nèi)容爬取工作。
關(guān)鍵詞:大數(shù)據(jù);Java;主題爬蟲;低代碼
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2022)30-0033-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
1 引言
大數(shù)據(jù)與人工智能是國家高度重視的熱門研究領(lǐng)域[1]。(剩余7464字)