强化学习读书笔记,南京师范大学博士生导师高洪俊教授来我校讲学

1月26日,应数学与音信科学大学诚邀,南师博士生导师高洪俊教授在数学高校南楼s103开会地点作了题为“Stochastic
strong solutions for stochastic transport
equations”的学术报告。高校相关专门的职业的名师、本科生、硕士等40余名倾听了本次报告。

火上加油学习读书笔记 – 09 – on-policy预测的好像方法

报告中,高洪俊介绍了一类乘法噪声驱动的跋扈输运方程的强解的有关内容。对于在半空中$L^q(0,T;{
mathcal C}^alpha_b({ mathbb R}^d))$
($阿尔法>2/q$)中的漂移周到及在上空$W^{1,r}({ mathbb
奥迪Q3}^d)$中的初值,高洪俊给出了自由强解的留存唯一性的验证。相同的时间,高洪俊提议与在同等条件下的明确的情景反而的是,那类乘法的率性Brown型运动扰动足以促使方程的解适定。对于$阿尔法+1<2/q$且空间维数高于1的景况,可选用适当的初值条件及漂移周详获得强解的一纸空文性。另外,若漂移周密属于$L^q(0,T;W^{1,p}({
mathbb CRUISER}^d))$可收获随机强解的全体可积性,此结果答复了Fedrizzi
和Flandoli建议的上浮全面在$L^q(0,T;L^p({ mathbb
本田UR-V}^d))$空间中的难点,由此一些地推广了他们最早的结果。

参照

  • Reinforcement Learning: An Introduction, Richard S. Sutton and
    Andrew G. Barto c 2014, 2015,
    2016
  • 加强学习读书笔记 – 00 –
    术语和数学符号
  • 加强学习读书笔记 – 01 –
    加强学习的难题
  • 火上加油学习读书笔记 – 02 –
    多臂老O虎O机难题
  • 加重学习读书笔记 – 03 –
    有限Marco夫决策进程
  • 加强学习读书笔记 – 04 –
    动态规划
  • 火上加油学习读书笔记 – 05 – 蒙特Carlo方法(Monte CarloMethods)
  • 火上加油学习读书笔记 – 06~07 – 时序差分学习(Temporal-Difference
    Learning)
  • 抓牢学习读书笔记 – 08 –
    规划式方法和学习式方法

须求了解加强学习的数学符号,先看看这里:

  • 火上加油学习读书笔记 – 00 –
    术语和数学符号

这一章开头了第二机构 – 好像施工方案

讲座甘休后,部分老师与学生组成讲座内容与高洪俊举办了霸气的沟通。

恍如方法的第一

大家先看看古板办法中留存的题目:

  • 不适用复杂的碰着。首要缘由是情状和行进太多,计策需求多量空中来回忆战略价值。
  • 景况只怕是不安宁的,过去的阅历不能适用于以后的场合。须求三个通用性的措施来更新战术价值。
  • 战术价值是一个数值,缺少通用性。期待有多个通用的法子来总计计谋价值。

故而对类似预测方法的敞亮是,找到贰个通用的章程(hat{v}(s, theta))。
数学表示
[ hat{v}(s, theta) approx
v_{pi}(s) \ where \ theta text{ – a weight vector} \
theta doteq (theta_1, theta_2, …, theta_n)^T ]

解释
类似预测方法是指求攻略的气象价值的近似值。
求计策的走动意况价值的近似值叫做近似调节措施(Control
Methods)(下一章的开始和结果)。

大家简单介绍:

看似预测方法的对象

第一,我们须求找到一个论断近似预测方法品质的总计公式。

价值均方引用误差(Mean Squared Value Error)
[ MSVE(theta) = sum_{s in
mathcal{S}} d(s) [v_{pi} – hat{v}(s, theta)]^2 \ where
\ d(s) text{ – on-policy distribution, the fraction of time spent
in s under the target policy } pi \ ]

  • 在剧情性职务中
    [ eta(s) = h(s) + sum_{bar{s}}
    eta(bar{s}) sum_{a} pi(a|bar{s})p(s|bar{s}, a),
    forall s in mathcal{S} \ d(s) =
    frac{eta(s)}{sum_{s’} eta(s’)} \ where \ eta(s)
    text{ – the number of time steps spent in state s in a single
    episode} \ h(s) text{ – time spent in a state s if episodes
    start in it} ]

  • 在一连性职分中
    [ d(s) = text{ the stationary
    distribution under } pi \ ]

解释:
(eta(s) = h(s) + sum_{bar{s}}
eta(bar{s}) sum_{a} pi(a|bar{s})p(s|bar{s}, a), forall
s in mathcal{S})
状态s的发生时间(次数) = 在内容中状态s产生在最早的时日(次数) +
状态s产生在别的的日子(次数)

高洪俊,南师传授、博导,科学技术处处长。美国数学批评商酌员,Stochastics
and
Dynamics编辑委员会委员,南师学报自然科学版副小编,新疆省工业与应用数学学会副管事人长,吉林省高校“大面积复杂系统数值模拟”注重实验室副总管,恒河省“中湖蓝工程”中国弱冠之年年学术首领,广西省“333”工程第三档期的顺序培育人选,国防科工作委员会科学和技术提升奖一等奖获得者.近些日子商讨兴趣为非线性发展方程和无穷维引力系统,物理、力学和地学(吉优science)中的随机偏微分方程和无穷维随机重力学。已刊登包罗Adv.
Math.、SIAM J. Math. Anal.、J.Differential
Equations和中华夏族民共和国不利在内的本国外重大期刊散文160多篇。数次掌管国家基金项目,参与973连串,最近主办国家自然科学基金珍惜项目,广西省自然科学基一项,福建省豆沙色工程应用切磋资金一项。

率性梯度递减方法(Stochastic gradient descend method)

那正是说什么样求(theta)呢?三个大面积的主意是通过梯度递减的法门,迭代的求解(theta)。

(数学与新闻科学大学 范丽丽 苗山根)

放肆梯度递减算法

Stochastic gradient descend
[ begin{align} theta_{t+1} & doteq
theta_{t} – frac{1}{2} alpha nabla [v_{pi}(S_t) –
hat{v}(S_t, theta_t)]^2 \ & = theta_{t} + alpha
[v_{pi}(S_t) – hat{v}(S_t, theta_t)] nabla hat{v}(S_t,
theta_t) \ end{align} \ where \ nabla f(theta) doteq
left ( frac{partial f(theta)}{partial theta_1},
frac{partial f(theta)}{partial theta_2}, cdots,
frac{partial f(theta)}{partial theta_n} right )^T \
alpha text{ – the step size, learning rate} ]

解释
其一措施能够在反复迭代后,让(theta)最优。
(v_{pi}(S_t))是实际值。
(hat{v}(S_t,
theta_t))是近日总结值。
轻巧梯度递减方法通过模型误差(实际值 – 当前总结值)周围最优值的法子。
正如麻烦的是:如何求(nabla hat{v}(S_t,
theta_t))。
历史观的法门是求(v_{pi}(s), q_{pi}(s,
a)),在类似方法中变为了求(theta,
hat{v}(s, theta), hat{q}(s, a,theta))。

蒙特Carlo

  • 算法描述

    Input: the policy (pi) to
    be evaluated
    Input: a differentiable function class=”math inline”>(hat{v} : mathcal{S} times
    mathbb{R^n} to mathbb{R})

    Initialize value-function weights class=”math inline”>(theta) arbitrarily (e.g. class=”math inline”>(theta = 0))
    Repeat (for each episode):
      Generate an episode (S_0, A_0,
    R_1 ,S_1 ,A_1, cdots ,R_t ,S_t) using class=”math inline”>(pi)
      For (t = 0, 1, cdots, T –
    1)
       (theta gets theta + alpha
    [G_t -hat{v}(S_t, theta)] nabla hat{v}(S_t,
    theta))

半梯度递减方法(Semi-gradient method)

故而叫半梯度递减的由来是TD(0)和n-steps
TD总括价值的公式不是纯正的(而蒙特卡罗艺术是纯粹的)。

相关文章