用户登录

|

“高维缺失数据的统计推断”项目通过科技成果评价

2022-04-24 浏览次数:1436

高维缺失数据的统计推断 xiao.jpg

  2022年4月23日,中科合创(北京)科技成果评价中心组织专家,在昆明召开由云南大学完成的“高维缺失数据的统计推断”项目科技成果评价会。经专家组审阅资料、听取汇报、质询、答疑和讨论,形成如下意见:

  一、项目成果资料齐全规范、数据翔实,符合科技成果评价要求。

  二、该项目受到国家自然科学基金资助,其研究既是大数据时代发展之所需,也是统计学自身发展之所需,属于统计学和数据科学的交叉领域。其主要创新性成果包括:

  1、针对超高维数据的稀疏性和异质性,提出了可用于属性变量数据、不依赖于模型假设的新筛选变量方法,克服了现有超高维数据变量筛选没有考虑数据异质性的缺陷。

  2、针对发散维数据,在条件矩模型不一定完全正确、变量相关的情况下,提出了同时筛选变量和估计模型参数的惩罚指数倾斜似然,证明了参数估计量的相合性和Oracle性质,导出了检验参数线性函数的惩罚倾斜似然比统计量的渐近分布,建立了删失数据模型非零参数估计量的半参数渐近有效界。

  3、针对抽样调查中高维过度识别的估计方程,发展了基于设计的两步经验似然法、两步广义矩估计法,提出了乘子Bootstrap渐近方差估计法,建立了其渐近理论,克服了现有方法没有充分融合设计效应的缺陷,为解决复杂抽样调查数据的统计推断提供了新理论、新方法,克服了经典方法对复杂抽样设计问题普适性较弱的缺陷。

  4、针对不可忽略缺失数据,基于指数倾斜模型提出了不依赖于倾向得分模型的估计方程整体插补方法,克服了传统倾向得分模型插补依赖于Logistic回归模型假设的局限性;同时,提出了基于缺失数据的条件分位数的插补新方法;基于这些插补方法,对线性模型、分位数回归模型、非光滑矩函数模型、半参数估计方程等提出了估计模型参数和筛选变量的稳健方法、半参数经验似然方法,解决了现有方法对异常点或重尾误差不稳健的问题。

  基于项目研究成果,负责人分别于2016、2021年入选国际统计学会当选会员、国际数理统计学会会士;团队成员中1人获国家自然科学基金海外优秀青年基金、1人获云南省杰出青年基金,1人入选云南省万人计划青年拔尖人才,1人获云南省中青年学术和技术带头人;培养毕业博士研究生12名、硕士研究生26名、博士后6名,其中,2名博士研究生的博士学位论文获云南省优秀博士学位论文,2名博士后获中国博士后科学基金面上项目。

  综上所述,专家组一致认为该项目总体达到国际先进水平,在高维缺失数据的统计推断方面达到国际领先水平。

专家组成员

  马志明 中国科学院院士

  徐宗本 中国科学院院士、西安交通大学教授

  陈松蹊 中国科学院院士、北京大学教授

  王兆军 南开大学教授

  朱仲义 复旦大学教授