悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

基于K-means的大數(shù)據(jù)相似重復(fù)記錄檢測

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘  要:目前大型企業(yè)存儲了大量的數(shù)據(jù),但是數(shù)據(jù)質(zhì)量令人擔(dān)憂,集中表現(xiàn)在相似重復(fù)冗余的數(shù)據(jù)特別多,以及多個(gè)數(shù)據(jù)源的合并加重?cái)?shù)據(jù)的冗余。大數(shù)據(jù)相似記錄檢測環(huán)節(jié)是數(shù)據(jù)清洗研究的重要方向。針對大數(shù)據(jù)中存在的相似重復(fù)數(shù)據(jù)的檢測問題,文章提出了一種基于k-means分組聚類的檢測算法,實(shí)驗(yàn)分析表明,該方法在確保精度不變的情況下提高了檢測效率。(剩余5588字)

目錄
monitor