分位回歸基于最優(yōu)去相關(guān)得分的子抽樣算法
打開文本圖片集
摘要:針對(duì)海量數(shù)據(jù)下高維分位回歸模型,首先,構(gòu)造基于去相關(guān)得分函數(shù)的子抽樣算法,以估計(jì)感興趣的低維參數(shù);其次,推導(dǎo)所提估計(jì)的極限分布,并根據(jù)漸近協(xié)方差矩陣求出L-最優(yōu)準(zhǔn)則下的子抽樣概率,給出高效的兩步算法.模擬和實(shí)證分析結(jié)果表明,最優(yōu)子抽樣方法顯著優(yōu)于均勻子抽樣方法.
關(guān)鍵詞:去相關(guān)得分;高維;海量數(shù)據(jù);分位回歸;子抽樣
中圖分類號(hào):O212.2文獻(xiàn)標(biāo)志碼:A文章編號(hào):1671-5489(2024)05-1102-11
Subsampling Algorithm for Quantile Regression Based on Optimal Decorrelation Score
HUANG Xiaofeng,ZOUYuhao,YUAN Xiaohui
(School of Mathematics and Statistics,Changchun University of Technology,Changchun 130012,China)
Abstract:For the high-dimensional quantile regression model with massive data,firstly,a subsampling algorithm based on the decorrelation score function was constructed to estimate the low-dimensional parameters of interest.Secondly,we derived the limit distribution of the proposed estimates and calculated the subsampling probability under the L-optimal criterion according to the asymptotic covariance matrix,giving an efficient two-step algorithm.The simulation and empirical analysis results show that the optimal subsampling method is significantly superior to the uniform subsampling method.
Keywords:decorrelationscore;high-dimensional;massivedata;quantileregression;subsampling
目前海量數(shù)據(jù)的處理方式主要有三類方法:分布式計(jì)算[1-3]、子抽樣算法[47]和數(shù)據(jù)流估計(jì)[8-0],其中子抽樣方法可減少資源消耗,提高處理速度,降低成本,保持?jǐn)?shù)據(jù)代表性,因而受到廣泛關(guān)注,并已取得了許多研究結(jié)果.例如:Fithian等[4]將子抽樣方法推廣到邏輯回歸中;Ma等[0]探討了子抽樣算法在線性回歸中參數(shù)估計(jì)的統(tǒng)計(jì)特性;Ai等和Fan等[2]分別將子抽樣算法應(yīng)用到廣義線性模型和線性分位回歸中,并在一般抽樣方法下建立了估計(jì)量漸近正態(tài)性的理論基礎(chǔ);袁曉惠等[基于D-最優(yōu)準(zhǔn)則構(gòu)造了分位回歸中信息陣的最優(yōu)子抽樣方法;Wang等4構(gòu)造了基于L-最優(yōu)準(zhǔn)則下分位回歸模型的最優(yōu)子抽樣方法.雖然子抽樣算法在研究低維參數(shù)估計(jì)問題方面取得了一些成果,但對(duì)高維海量數(shù)據(jù)分析方法的研究目前仍處于探索階段,例如,Gao等5]研究了廣義線性模型中在干擾參數(shù)影響下對(duì)關(guān)注的低維參數(shù)實(shí)施最優(yōu)子抽樣估計(jì)及推斷的統(tǒng)一框架,但其研究主要集中在廣義線性模型參數(shù)的估計(jì),并未涉及其他類型的模型.
在眾多數(shù)據(jù)分析模型中,分位回歸6]因其能揭示響應(yīng)變量的全方位特征并從中獲取豐富信息而備受關(guān)注.它通常采用加權(quán)最小絕對(duì)差方法進(jìn)行估計(jì),因而對(duì)離群點(diǎn)不敏感,能提供更穩(wěn)健的結(jié)果,從而得到廣泛關(guān)注.例如,Wang等]分析了縱向數(shù)據(jù)中部分線性變系數(shù)模型的分位估計(jì);袁曉惠等在部分協(xié)變量隨機(jī)缺失機(jī)制下的分位回歸模型中,提出了回歸參數(shù)的誘導(dǎo)光滑加權(quán)估計(jì)及其漸近協(xié)方差估計(jì);Wang等[s]針對(duì)刪失分位回歸提出了一種新的基于多重穩(wěn)健傾向得分的估計(jì)方法;Cheng等[20]提出了正則化的投影評(píng)分方法,以解決高維混雜協(xié)變量存在下分位回歸的參數(shù)估計(jì)問題.但在高維海量數(shù)據(jù)下進(jìn)行分位回歸模型參數(shù)估計(jì)的研究目前文獻(xiàn)報(bào)道較少。(剩余9349字)