【新智元导读】今天,KDD 2024大奖结果新鲜出炉!华人学者收获颇丰,浙大校友Jundong Li获新星奖,博士论文奖的冠亚军均有华人学者上榜。
今年的KDD大会是第30届,在西班牙巴塞罗那隆重举办。今天,KDD 2024宣布了今年六大奖项的获奖者,分别是研究创新奖、服务奖、新星奖、时间检验研究奖、时间检验应用科学奖和学位论文奖。
ACM SIGKDD会议始于1989年,作为AI领域的顶会,是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,也是首个引入大数据、数据科学、预测分析等概念的会议。
35年以来,KDD设立奖项表彰那些在数据科学、大数据分析、机器学习以及计算机科学领域做出杰出贡献的研究人员。
时间检验奖颁给了两个类别的两篇论文,分别是2014年发表的DeepWalk,以及2013年MSRA关于空气质量数据的研究。
此外,来自弗吉尼亚大学的华人学者孟瑜和北大校友Ziniu Hu分别获得博士论文奖的冠亚军,浙大校友Jundong Li获颁「新星奖」。
KDD研究创新奖是知识发现和数据挖掘领域技术卓越的最高荣誉,此次奖项授予给Lise Getoor。
Lise Getoor教授在斯坦福大学获得本科学士学位,在加州大学伯克利分校获得硕士学位,在加州大学圣巴巴拉分校获得博士学位。
Getoor拥有多项最佳论文奖、一项NSF职业奖,并且是人工智能促进协会(AAAI) 院士。作为加州大学圣巴巴拉分校计算机科学系杰出校友, 她被选为2018至2019年加州大学圣克鲁斯分校教师研究讲座教授,这是给予加州大学教师的最高认可之一。
为了表彰Getoor教授在不确定性机器学习和推理领域的贡献,她于2021年被任命为IEEE院士。2022年10月,Getoor当选美国科学促进会(AAAS)院士。2024年,她被任命为美国艺术与科学学院(AAA&S)院士。Lise Getoor还担任过《机器学习杂志》的行动编辑、JAIR副主编TKDD 副主编。
Lise Getoor是加州大学圣克鲁兹分校计算机科学系特聘教授、数据科学研究中心主任,学术成就斐然,在学术期刊和会议论文集上发表了许多高引用的论文,在谷歌学术上显示论文引用量达30971次。
Getoot的研究主要关注不确定性中的机器学习和推理,此外也从事数据管理、可视化分析和社交网络分析等方面的工作,在图数据和网络数据的机器学习和概率建模方面拥有丰富的经验。
新星奖从2020年起设立,该奖项的设立是为了表彰KDD社区中在博士毕业5年内取得卓越成就的学者,今年新星奖授予Jundong Li。
Jundong Li现任弗吉尼亚大学ECE系、CS系和数据科学学院助理教授。
Li本科毕业于浙江大学软件工程系,硕士毕业于加拿大阿尔伯塔大学,2019年从亚利桑那州立大学博士毕业,师从Huan Li。
他的研究兴趣主要包括图机器学习、可信和安全机器学习、LLM的模型编辑、知识增强和上下文学习,以及AI/ML+X等领域。
来自纽约石溪大学三位研究者获得了时间检验奖。这篇论文发表于2014年,在Google Scholar上的引用量是11426次,这篇论文也曾被收录进第20届KDD论文集。
论文提出的DeepWalk是一种学习网络节点潜在表示的新方法,这些潜在表示在连续向量空间中对社会关系进行编码,从而方便在统计模型中使用,为推进GNN研究奠定了基础。
DeepWalk涵盖了语言建模和无监督特征学习(或深度学习)领域从词序列到图的最新进展。在随机游走(random walk)过程中,将每一次行走轨迹视为句子的等价来学习潜在表示,将其截断后获得局部信息。
DeepWalk在BlogCatalog、Flickr和YouTube等平台的多标签网络分类任务中学习潜在表示,之后的实验结果表明,在信息丢失的情况下,其性能依旧保持远超基准线的水平。
在一些实验中,DeepWalk优于所有基线方法,同时使用的训练数据少60%。
由于DeepWalk是一种可扩展的在线学习算法,因此适合广泛的现实应用,例如网络分类和异常检测等等。
另一篇时间检验奖颁给了来自微软亚洲研究院的论文,发表于2013年,谷歌学术上被引用次数为1098。
论文一作郑宇是IEEE Fellow、ACM杰出科学家,现任京东副总裁和京东科技首席数据科学家。
论文提出用大数据模型监测城市空气质量,根据现有监测站报告的(历史和实时)空气质量数据以及城市中的各种数据源,例如气象、交通流量、人员流动性、道路网络结构和POI推断出整个城市实时的空气质量信息,克服了以往的空气质量监测站无法显示实时数据并且受到气象和交通状况限制的问题。
论文提出了一种基于协同训练框架的半监督学习方法,该框架由两个独立的分类器组成:一种是基于人工神经网络(ANN)的空间分类器,以空间相关特征(例如POI密度和高速公路的长度)作为输入,对不同地点的空气质量之间的空间相关性进行建模。
另一种是基于线性链条件随机场(CRF)的时间分类器,涉及时间相关的特征(例如交通和气象)来对某个位置的空气质量进行建模。
论文获取了北京和上海的五个真实数据源并进行了广泛的实验,实验结果显示出相对于四类基线的优势:包括线性/高斯插值、经典分散模型、决策树和CRF以及ANN。
由于大模型的预训练和微调需要使用大量文本数据,且模型的扩展涉及成百上千亿参数,因此LLM成本相当昂贵。这篇博士论文重点关注如何使用高效且有效的方法学习文本表示,包括以下几个子问题:
- 利用球面空间(spherical space)进行文本表示学习:传统上,对表示空间的选择通常是欧几里得空间,但非欧的球面空间更能通过方向相似性捕捉相关语义,论文主要就讨论了一种利用球面空间进行文本表示的自监督方法
本文作者Yu Meng的本科、硕士和博士均毕业于UIUC,曾在普林斯顿NLP小组担任访问研究员,与陈丹琦合作,在谷歌、微软、Meta等公司均有实习经历,今年加入弗吉尼亚大学CS系担任助理教授。
深度学习方法可以记忆大量世界知识,但对其进行符号推理时仍然存在局限性;而符号人工智能擅长解决推理任务,但适应新知识的效率较低。之前连接这两个领域的工作主要集中在构建基于解析的系统(parsing-based systems),这需要大量带注释的中间步骤标签并且难以扩展。
论文讨论了神经(neural)人工智能系统和符号(symbolic)人工智能系统的交叉点。这项研究的最终目标是使神经模型能够以可微分的方式与符号推理模块交互,并在没有中间标签的情况下端到端地训练神经符号模型( Neural-Symbolic model),研究的具体工作包括:
- 设计新颖的推理模块:可微分的、能进行符号推理的神经模块,包括知识图谱推理和复杂的逻辑推理
- 通过自我监督学习:通过结构和符号知识库的自我监督来训练神经模型,无需额外标注
- 跨领域泛化:神经符号系统的模块化设计本质上有助于更好地泛化到分布外、词库外、跨语言和跨类型的样本
将这些部分放在一起,最终目标是构建具有推理能力的端到端神经符号系统,将AI推进到真正的人类智能。
Ziniu Hu本科毕业于北京大学计算机科学系,博士毕业于加州大学洛杉矶分校,并在加州理工学院完成了博士后工作。他曾在DeepMind担任访问研究员,并获得过亚马逊博士奖学金、商汤科技奖学金和百度奖学金。
流行病的监测和预测是政府官员、企业和公众决策和规划的重要工具,但在许多方面,我们对流行病如何传播的理解仍处于起步阶段,其挑战性源于各种复杂的动态,例如流动模式、政策合规性,甚至数据收集程序的变化。
由于最近的研究收集和处理了新来源的数据,许多变量的细粒度数据变得越来越可用。然而,传统方法依然很难利用这些数据集。另外,流行病学中的人工智能方法也面临着数据稀疏、分布变化和数据质量差异的挑战。人工智能还缺乏对流行病动态的了解,这可能会导致不切实际的预测。
本文提出了几个框架来应对这些挑战,并转向更加以数据为中心的方法。具体来说,我们利用多个例子来展示,将AI领域中数据驱动的可表达性引入流行病学,可以使流行病的监测和预测更加灵敏和精确。
广义相加模型(GAM)采用神经网络单独学习每个特征的非线性函数,然后通过线性模型组合进行最终预测。尽管GAM可以在特征层面解释深度神经网络 (DNN),但需要大量模型参数,并且容易过度拟合,因此难以训练和扩展。
此外,在具有许多特征的现实数据集中,基于特征方法的可解释性会降低。为了解决这些问题,最近的研究已转向基于概念的可解释方法,试图将概念学习集成为预测前的中间步骤,并用人类可理解的概念来解释预测。然而,这种方法需要领域专家进行大量的概念标注工作。
为了解决以上问题,论文提出了一种可解释的基于概念的泰勒相加模型CAT(Concept-bAsed Taylor additive models),不需要领域专家标注概念或价值观,只需要用户将输入特征进行大致分组,就可以通过查看元数据进行解释。
具体来说,CAT首先将每组输入特征编码为一维的高层次概念表示,然后将其输入到新提出的「白盒」泰勒神经网络(TaylorNet)中。TaylorNet旨在使用多项式学习输入和输出之间的非线性关系。多个基准的评估结果表明,CAT的性能可与基线相当甚至优于基线,同时减少对大量模型参数的需求。重要的是,它可以通过人类能理解的高级概念来解释模型预测。
论文提出了LiGNN,一种大规模图神经网络(GNN)框架,并且提出了一系列针对GNN表示学习质量的算法改进,包括具有长期损失的时态图架构,以及通过图的致密化(graph densification)、ID嵌入和多跳邻居采样(multi-hop neighbor sampling)的有效冷启动解决方案。
论文解释了如何通过邻居的自适应采样、训练数据批的分组和切片、专门的共享内存队列和局部梯度优化,在 LinkedIn图上进行了7x加速的大规模训练。
这项技术在具体应用中使职位申请回复率大约相对提高了1%,广告点击率提升了2%,Feed参与的每日活跃用户数提升了0.5%,会线%,每周活跃用户数提升了0.1%。
毅力号火星探测器代表了火星测量规模的代际变化,但分辨率的提高给探索性数据分析技术(EDA)带来了新的挑战。
火星车上的多个不同仪器分别测量某种特定属性,因此需要分析底层的现象如何影响多个仪器的测量,这对理解全貌非常重要。此外,每种仪器都有独特的分辨率,将不同分辨率的数据放在一起进行映射、分析也是复杂的工作。
论文引入了Nested Fusion方法,将不同分辨率的任意层级的数据集组合在一起,并以尽可能高的分辨率产生潜在分布,对不同测量和尺度之间的复杂相互关系进行编码。
这种方法对于大型数据集非常高效,甚至可以对未见数据进行推理,并且优于现有的对真实火星漫游器数据进行降维和潜在分析的方法。
Nested Fusion已在NASA喷气推进实验室 (JPL) 的火星科学团队中部署使用,并通过多轮研究和设计,极大地增强了科学家的探索性分析工作流程。
顺序推荐器(sequential recommender,SR)是现代推荐系统的重要组成部分,旨在捕获用户偏好的演变过程。
之前的研究为增强SR系统的能力做出了许多努力,这些方法通常遵循以模型为中心的范式,基于固定数据集开发模型。然而,这种方法常常忽视数据中潜在的质量问题和固有缺陷。
本文提出了一种新颖的以数据为中心的范式,使用一种「模型无关」(model-agnostic)的数据集再生框架来开发理想的训练数据集。该框架被称为DR4SR,重新生成的数据集对不同架构的模型具有卓越的泛化性能。
此外,论文还引入了DR4SR+框架,包含一个有模型感知(model-aware)的数据集个性化工具,可以专门针对目标模型定制数据集。实验中,将DR4SR系列框架与各种以模型为中心的方法集成,在4个流行数据集上看到了显著的性能改进。此外,文章还进行了深入分析,探索以数据为中心的范式的潜力并提供有价值的见解。
KDD服务奖是该领域对学者们进行专业服务的最高认可,比如专业协会和会议的运营、学生和专业人士的教育、研发活动的资助等。本届服务奖授予给Faisal Farooq。
Faisal Farooq是现任Pinterest高级工程总监和ACM KDD的主席,在构建机器学习(包括深度学习)产品方面拥有10年以上的领导经验。
他拥有20多项专利,发表了40多篇论文,在NIPS、ICML、KDD、ICPR组织了多次会议,担任过2018年KDD会议主席。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。