當前位置: 首 頁 - 科學研究 - 學術報告 - 正文

伟德线上平台、所2024年系列學術活動(第050場):練恒 教授 香港城市大學

發表于: 2024-05-14   點擊: 

報告題目:Kernel-based Decentralized Policy Evaluation for Reinforcement Learning

報 告 人: 練恒 教授 香港城市大學

報告時間:2024年5月23日 上午10:10-11:10

報告地點:騰訊會議 ID:336-320-506

或點擊鍊接直接加入會議:https://meeting.tencent.com/dm/4zmgvRjJ5A1g

校内聯系人:趙世舜 zhaoss@jlu.edu.cn


報告摘要:

We investigate the decentralized nonparametric policy evaluation problem within reinforcement learning, focusing on scenarios where multiple agents collaborate to learn the state-value function using sampled state transitions and privately observed rewards. Our approach centers on a regression-based multi-stage iteration technique employing infinite-dimensional gradient descent within a reproducing kernel Hilbert space (RKHS). To make computation and communication more feasible, we employ Nystrom approximation to project this space into a finite-dimensional one. We establish statistical error bounds to describe the convergence of value function estimation, marking the first instance of such analysis within a fully decentralized nonparametric framework. We compare the regression-based method to the kernel temporal difference (TD) method in some numerical studies.


報告人簡介:

練恒,現任香港城市大學數學系教授,于2000年在中國科學技術大學獲得數學和計算機學士學位,2007年在美國布朗大學獲得計算機碩士,經濟學碩士和應用數學博士學位。先後在新加坡南洋理工大學,澳大利亞新南威爾士大學,和香港城市大學工作。在高水平國際期刊上發表學術論文30多篇,包括《Annals of Statistics》《Journal of the Royal Statistical Society,Series B》、《Journal of the American Statistical Association》《Journal of Machine Learning Research》《IEEE Transactions on Pattern Analysis and Machine Intelligence》. 研究方向包括高維數據分析,函數數據分析,機器學習等。


Baidu
sogou