Steam 社区 :: Advanced Micro Devices

STEAM

Advanced Micro Devices

农企AMD

Chongqing, Chongqing, China

2017 年 Steam 大奖提名委员会

100 点经验值

超威半导体官方账号

查看更多信息

当前离线

5 名成员

A岛/MU/小海豹组

37 名成员

115

Raty
离线

108

БeБ
离线

87

黑白院清罗
离线

71

Luanru.Joestar
离线

53

ObscurMarasy
离线

52

鸭duck
离线

成就展柜

233

成就

游戏平均完成率

最新动态

0.9 小时（过去 2 周）

总时数 0.9 小时
最后运行日期：1 月 19 日

Sid Meier's Civilization VI

成就进度 0 / 320

总时数 21 小时
最后运行日期：1 月 12 日

Europa Universalis IV

成就进度 0 / 373

总时数 0.6 小时
最后运行日期：1 月 12 日

Goose Goose Duck

成就进度 1 / 38

查看所有最近玩过的 | 愿望单 | 评测

留言

查看所有 23 条留言

< >

kk 2024 年 3 月 15 日下午 5:52

从DDPG这个名字看，它是由D（Deep）+D（Deterministic ）+ PG(Policy Gradient)组成。PG(Policy Gradient)我们在强化学习(十三) 策略梯度(Policy Gradient)里已经讨论过。那什么是确定性策略梯度(Deterministic Policy Gradient，以下简称DPG)呢？

　　　　确定性策略是和随机策略相对而言的，对于某一些动作集合来说，它可能是连续值，或者非常高维的离散值，这样动作的空间维度极大。如果我们使用随机策略，即像DQN一样研究它所有的可能动作的概率，并计算各个可能的动作的价值的话，那需要的样本量是非常大才可行的。于是有人就想出使用确定性策略来简化这个问题。

kk 2021 年 9 月 18 日下午 8:14

你有毒啊啊啊啊啊啊

kk 2021 年 3 月 8 日下午 8:47

您儿子在我店赊账累计1583元，请即刻付款，谢谢！

kk 2021 年 2 月 25 日下午 12:05

我们注意到您已经近2周没有登入PornHub了，请允许我们问候一声您是否一切如常。从您上次访问我们以后，我们已经更新了很多您喜欢的男同性恋片。
希望能很快再见到你。 - ♥♥♥♥♥♥♥™ 管理员

SeBanki 2021 年 1 月 11 日下午 1:15

You Are An Idiot

kk 2018 年 9 月 14 日上午 3:38

早生贵子

< >