光華講壇——社會(huì)名流與企業(yè)家論壇第6718期
主 題:Recent advances in Distributional Reinforcement Learning分布式強(qiáng)化學(xué)習(xí)的最新進(jìn)展
主講人:上海財(cái)經(jīng)大學(xué) 周帆副教授
主持人:統(tǒng)計(jì)學(xué)院 林華珍教授
時(shí)間:1月22日 15:00-16:00
舉辦地點(diǎn):柳林校區(qū)弘遠(yuǎn)樓408會(huì)議室
主辦單位:統(tǒng)計(jì)研究中心和統(tǒng)計(jì)學(xué)院 科研處
主講人簡(jiǎn)介:
周帆,上海財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與管理學(xué)院副教授,博士畢業(yè)于美國(guó)北卡羅萊納大學(xué)教堂山分校。主要研究方向包括強(qiáng)化學(xué)習(xí),深度學(xué)習(xí),因果推斷。在Journal of American Statistical Association,Journal of Machine Learning Research, Biometrics等統(tǒng)計(jì)學(xué)機(jī)器學(xué)習(xí)期刊以及NeurIPS, ICML, KDD等國(guó)際人工智能頂會(huì)接收發(fā)表一作通訊文章數(shù)十篇,曾獲得國(guó)際泛華統(tǒng)計(jì)協(xié)會(huì)新研究者獎(jiǎng),北卡教堂山分校Barry H. Margolin Award,并入選上海市人才計(jì)劃(青年)。
內(nèi)容簡(jiǎn)介:
Although distributional reinforcement learning (DRL) has been widely examined in the past few years, very few studies investigate the validity of the obtained Q-function estimator in the distributional setting. We discuss some of our works in ensuring the monotonicity of the obtained quantile estimates and the theoretical necessity. Moreover, we undertake a comprehensive analysis of how the approximation errors within the Q-function impact the overall training process in DRL. We both theoretically analyze and empirically demonstrate techniques to reduce both bias and variance in these error terms, ultimately resulting in improved performance in practical applications.
分布式強(qiáng)化學(xué)習(xí)(DRL)在過(guò)去幾年里得到了廣泛的研究,但很少有研究調(diào)查在分布式環(huán)境中獲得的 Q 函數(shù)估計(jì)器的有效性。主講人將介紹為確保所獲得的分位數(shù)估計(jì)的單調(diào)性方面所做的一些工作并探討理論上的必要性。此外,主講人對(duì)Q函數(shù)中的近似誤差如何影響DRL的整體訓(xùn)練過(guò)程進(jìn)行了全面分析。主講人將對(duì)減少這些誤差項(xiàng)中的偏差和方差的技術(shù)進(jìn)行理論分析和實(shí)證演示,并展示這一技術(shù)最終在實(shí)際應(yīng)用中實(shí)現(xiàn)了性能的提高。