注冊帳號丨忘記密碼?
1.點(diǎn)擊網(wǎng)站首頁右上角的“充值”按鈕可以為您的帳號充值
2.可選擇不同檔位的充值金額,充值后按篇按本計(jì)費(fèi)
3.充值成功后即可購買網(wǎng)站上的任意文章或雜志的電子版
4.購買后文章、雜志可在個(gè)人中心的訂閱/零買找到
5.登陸后可閱讀免費(fèi)專區(qū)的精彩內(nèi)容
打開文本圖片集
摘 要:目前大型企業(yè)存儲了大量的數(shù)據(jù),但是數(shù)據(jù)質(zhì)量令人擔(dān)憂,集中表現(xiàn)在相似重復(fù)冗余的數(shù)據(jù)特別多,以及多個(gè)數(shù)據(jù)源的合并加重?cái)?shù)據(jù)的冗余。大數(shù)據(jù)相似記錄檢測環(huán)節(jié)是數(shù)據(jù)清洗研究的重要方向。針對大數(shù)據(jù)中存在的相似重復(fù)數(shù)據(jù)的檢測問題,文章提出了一種基于k-means分組聚類的檢測算法,實(shí)驗(yàn)分析表明,該方法在確保精度不變的情況下提高了檢測效率。(剩余5588字)
登錄龍?jiān)雌诳W(wǎng)
購買文章
基于K-means的大數(shù)據(jù)相似重復(fù)記錄檢測
文章價(jià)格:4.00元
當(dāng)前余額:100.00
閱讀
您目前是文章會員,閱讀數(shù)共:0篇
剩余閱讀數(shù):0篇
閱讀有效期:0001-1-1 0:00:00
違法和不良信息舉報(bào)電話:400-106-1235
舉報(bào)郵箱:[email protected]