基于局部敏感哈希的K鄰近算法識別垃圾短信
打開文本圖片集
文章編號:1671-3559(2023)06-0746-06DOI:10.13349/j.cnki.jdxbn.20230816.002
摘要: 針對目前垃圾短信的識別算法存在的關(guān)鍵字及頻次的規(guī)則死板,易于被不法分子探測和規(guī)避等問題,提出將局部敏感哈希的K鄰近算法應(yīng)用于垃圾短信分類識別;首先定義特征,然后采用局部敏感哈希算法計算向量距離,通過得到的距離衡量矩陣的相似性,量化矩陣相似程度,對本文中提出的優(yōu)化模型進行實現(xiàn)和訓(xùn)練;基于短信文本內(nèi)容,運用詞頻-逆向文本頻率算法生成矩陣,利用局部敏感哈希算法求解最相似樣本,記錄樣本類別,將訓(xùn)練結(jié)果導(dǎo)入K鄰近算法分類器得到最優(yōu)近鄰,在測試集或驗證集上對優(yōu)化模型垃圾短信分類識別準(zhǔn)確率進行評測。(剩余11747字)