强化学习吧-百度贴吧

- 本吧吧主火热招募中，点击参加
- 0
  
  [公告]关于撤销 freedomagen 吧主管理权限的说明
  贴吧吧主...
  2023-08
- 0
  
  [公告]关于撤销 freedomagen 吧主管理权限的说明
  贴吧吧主...
  2023-08
9
深度学习机器学习强化学习答疑答疑答疑！
深度学习m... 11-21
有问题问我就完事了，兄弟萌！
深度学习m... 12-10
2
求强化学习资料！
贴吧用户_... 8-14
各位大佬，请问有没有如下电子版的强化学习入门资料，个人觉得这篇pdf讲的贼好，拜托各位佬了！
厉害了我... 11-30

2
深度强化学习
Aims 11-7
深度强化学习，只做擅长博士擅长1.强化学习领域算法，qlearning:policy gradient,算法应用，环境搭建，均可实现2.深度强化学习领域，算法如DQN算法，DDPG算法等均可实现，也可以结合gym实现，可以结合具体需求设计代码程序3.强化学习相关领域结合可以实现，难度太大不能搞4.其他：机器学习预测，房价预测，kaggle等问题均可实现5.rl dgn ppl ddpg td3sac等算法均可指导复观6.能源规划，路径观划，电网等可用实现7.多智能休算法，maddpg.Madqn.Mappoqmix等算法都可做
人工智能... 11-27
1
深度强化学习核心技术实战培训班
贴吧用户_... 2020-11
深度强化学习核心技术实战培训班时间地点：12 月 18 日— 12 月 21 日线上直播 (第一天报到授课三天；提前环境部署电脑测试) 课程一、强化学习简介课程二、强化学习基础课程三、深度强化学习基础课程四、多智能体深度强化学习课程五、多任务深度强化学习课程六、强化学习应用课程七、仿真实验课程八、辅助课程二：深度学习DeepLearning实战培训班时间地点：12 月 18 日— 12 月 21 日线上直播三、培训方式：（即日起，开始报名！） 1、远
爱时尚833 10-28
6
强化学习算法辅导
敲疯代码 3-28
支持强化学习方向算法辅导、指导、实战，MDP模型构建，包括单智能算法DQN，DDPG，SAC，PPO等，多智能体算法maddpg，qmix等强化学习算法辅导包含基础算法A3C，BC，SAC，PPO，DQN和DDPG等，及多智能体MADDPG，MAPPO等变体和改进。Deep Reinforcement Learning。Multi-Agent，Singel Agent。专注留学生辅导，诚信第一有问题直接留言非诚勿扰！#强化学习##算法##模型构建#
贴吧用户_... 10-13
2

在读萌新求助
月下尘缘
9-30

lz最近正在学习深度强化学习方面的知识，然后现在有个疑问，我在解读代码的时候，发现，代码中这只的reward根本和模型没有关联，那是怎么给模型奖励和惩罚呢？我一直很困惑，希望有大佬解答#强化学习#

贴吧用户_... 10-13
1

动作空间可变的问题，应该如何去做
ZY芾 3-7

请问各位大佬，通常强化学习模型的动作空间都是固定的，比如上下左右等动作。但是我现在要做一个复杂网络的路径决策场景，随机网络上的某一个点，要去另外几个指定的节点之一卸货。但是要考虑卸货点的收益，以及路径各方面因素。也就是说该模型的动作是路径的决策。但是这个动作空间会随着我随便点的位置变化而变化。这类动作空间可变的问题，各位大佬有没有什么论文可以提供参考的。

刀刀刀9 9-13
2

强化学习问题求助
誓翔 7-7

各位大佬好，我是毕业可能要用到强化学习算法的萌新我用matlab的强化学习工具箱，生成了Dqn智能体，自己在里面写了环境，用来求解一个分配问题。我将环境中的所有信息均作为状态输入 ,但发现在某些情况下，整个模型的泛化性仍然不好如果采用多个不同环境进行训练,感觉后续训练结果会覆盖前面的训练结果,使得智能体无法较好的处理原有工况这种情况下，原因是训练方法不对还是？

acasdasd8 9-10

5
强化学习指导
扬帆启航 3-19
强化学习指导，强化学习代码。博士在读，研究方向：强化学习（包括深度强化学习和多智能体强化学习），可接项目指导，调试环境等等相关技术服务#强化学习#
贴吧用户_... 8-9
1

强化学习在随机结束之后就一直只选择一个动作值了是为什么？
IIIvvyy 4-16

强化学习在随机结束之后就一直只选择一个动作值了是为什么？是因为根本就没学起来还是因为环境太简单了？并且在更改神经网络初始化的随机种子之后也会对选择的动作产生影响是为什么

嘀嘀嘀bbb哎 8-8
8
强化学习深度学习辅导
喜怒无常in 3-19
强化学习深度学习辅导本人上交本，top2硕，CV方向研二在读，主要研究兴趣为图像质量评估/视频理解/动作质量评估/动作识别等。提供深度学习指导，计算机视觉指导。cv各种算法，算法性能提升，算法优化，模型修改，调参，环境配置，代码解读，代码分析等等。有需要找我吧
websock 7-25
6
有没有c++深度强化学习的
77Fps丶 5-4
本人研究方向为车间调度，目前正在做深度强化学习，算法是近端策略优化，网络是Lstm长短期记忆网络，代码逻辑全部都是手动实现的，目前问题就是随着训练的增加，损失函数没有减小反而增大了，权重会向着负无穷大更新，怀疑是梯度爆炸，可能反向传播也没有写对。有没有懂这块的老哥解答一下，一个人学真的很困难，导师一点都不懂这块。给大佬跪了0.0
泠泷心 7-16
13
深度强化学习，多智能体，算法代码指导，计算机视觉路径规划
敲代码的... 4-25
深度强化学习，多智能体，算法代码指导，计算机视觉路径规划检测，分割，视频处理，估计，人脸，目标跟踪，图像&视频检索/视频理解，医学影像，GAN/生成式/对抗式，图像生成/图像合成，神经网络结构设计，数据处理，模型训练/泛化，图像特征提取与匹配，视觉表征学习，模型评估，多模态学习，视觉预测目标检测，行人重识别，车辆重识别，超分重建，图像分割，图像分类等等。算法性能提升，算法优化，模型修改，机器学习，数学建
123456p458 7-11
1
请教一下loss图异常该如何解决？
司马默与...
2023-10
如图，使用的是DQN算法，具体解决的是一个组合优化问题。
学习者 7-10

0
强化学习代码复现深度学习
努力改变44 6-21
python深度学习，python代码定制，代码改进跑通深度学习，创新点创新思路代码改进跑通深度学习 Python代跑时间序列预测分析代码编写 python编程深度学习算法自然语言处理神经网络跑通指导图神经网络gnn创新做gcn 复现代码交通流量预测，网络流量预测深度学习，机器学习指导，代码讲解、复现，图像分类，模型可解释，图sj网络等相关项目 gcn，gat，kgcn，kgat图网络代码，图卷积sj网络代码，创新，答疑，推荐算法，分类，关系预测，图谱补全
努力改变44 6-21
0

请问大佬，强化学习算法怎么和仿真模型结合
荒废无度1 5-24

纯小白，想用强化学习训练一个仿真模型，现在用modelica建好了模型，有没有办法把他交给强化学习进行训练。应该怎么做？谢谢大佬

荒废无度1 5-24
1

程序设计可帮忙
程序人生 5-12

小程序，安卓，系统开发，机器学习，深度学习，知识图谱，大数据，强化学习，等等都可（计算机除硬件都可）985本硕，个人#计算机毕设#[图片]

程序人生 5-17
0
Python 答疑解惑
贴吧用户_... 5-17
留学生辅导答疑人工智能计算机视觉机器学习深度学习计算机英文计算机R语言 Java C语言 C++ Python 编程大数据挖掘计算机视觉数据科学Mpi等二分类、多分类、检测、识别、数值预测、数据处理、数据分析、算法、数据结构回归、分类、预测、NLP自然语言处理、文本分析、情感分析、图像处理、可视化数据结构，操作系统，计算机组成原理，深度强化学习，统计数据分析，目标检测，实例分割等#人工智能#
贴吧用户_... 5-17
0

救命，救命
阿菊198 5-14

有没有大佬会citylearn的

阿菊198 5-14
1

急急急，求算法指导
灼妖 5-4

有没有了解ros，gazebo，td3的大佬，想请教一下如何改进td3，可有偿

琴音曲艺 5-4

0

强化学习和机器人运动控制
贴吧用户_... 2-26

想问下最新研究方向进展是什么，还有想问有没有强化学习的交流群呐，自己摸索太难了

贴吧用户_... 2-26
0

强化学习五子棋
手塚哈 2-26

兄弟们，强化学习一直训练不了有能调的吗？有吗，急急急急急急急急急急急，有偿有偿有偿

手塚哈 2-26
0
LLM大语言模型算法特训，带你转型AI大语言模型算法工程师
hifanquanchang 1-30
好课分享
hifanquanchang 1-30
0
AI最火Agent实战(打造你代理)课程下载
aiworsisl123 1-15
AI最火Agent实战(打造你代理)
aiworsisl123 1-15
3
目前有什么比较前沿的强化学习方法
渝yuyuyu 2023-12
鼠鼠最近在搞第一偏论文了，但鼠鼠的老师看不上DQN了，故来咨询一下8u，目前有什么比较前沿的强化学习方法
冷月寒涯 1-14
1

求教
贴吧用户_... 1-10

求教怎么用TensorFlow架构实现 SAC+ ERE(Emphasizing Recent Experience) + PER(Prioritized Experience Replay) 强化学习,SAC,ERE,PER

贴吧用户_... 1-10

1

你们的福利来了，本程序员强力入驻本吧
接程序设... 2023-12

接程序设... 12-21
2

求教mujoco怎么导入obj文件啊或者说，用vhacd把一
贴吧用户_... 2021-11

求教mujoco怎么导入obj文件啊或者说，用vhacd把一个大的mesh分解以后，在mujoco里面加载的时候，应该怎么保持为多个convex mesh啊

wangdx1026 11-5
0

求助，有没有入门的b站课程或者书推荐
我倒头就睡 2023-10

不是完全小白，之前学过深度学习，跑过论文代码

我倒头就睡 10-12
1

强化学习+交通信号控制优化
学不会不... 2023-07

有做这方面的老哥吗？或者懂强化学习的也可以，交流交流

Makodo 9-29
5

博弈 Q学习
流汗恐龙 2023-03

吧里有老哥会强化学习和博弈结合吗？希望可以请教一二

hdhbebyd 9-7
0

请教
烛影三生陌 2023-08

有没有会做ddpg+非平稳风信号的

烛影三生陌 8-24

3

有没有强化学习方向的交流群啊
完美e飞t
2023-04

带带萌新

落似雪... 8-15
9
请问一下，我最近在搞深度强化学习，跑代码需要什么样的电脑配置
坚韧自强... 2019-07
请问一下，我最近在搞深度强化学习，跑代码需要什么样的电脑配置呢？谢谢
专职养龟人 6-27
3

家人们这激活函数有啥用啊？
WAELIE 2023-06

以下是chatgpt给我的答案：问：在强化学习中，我如何判断什么时候该选择什么样的激活函数呢？答：在强化学习中选择激活函数通常是一个试错的过程，它取决于你所面对的具体问题和网络架构。激活函数对于神经网络的性能和收敛速度都有影响，因此选择适当的激活函数很重要。下面是一些常见的激活函数以及它们适用的情况： Sigmoid函数（逻辑函数）：它将输入值映射到0到1的范围内。适用于输出层的二分类问题，因为它可以将输出解释为概率

深园希衣... 6-19
2

强化学习中的探索噪声是什么啊
贴吧用户_... 2023-06

求指教

自由天空 6-16
11

有没有matlab强化学习的大佬
檸檬楠 2023-04

孩子最近搞毕设，强化学习微店网调度，用的matlab，属于是连环境都没创建下来啊

檸檬楠 6-4
1

古诗形容离开
馬大人高 2023-05

成都灬目... 5-30

1

梦见水和花生什么预兆
铮夸换鎬 2023-05

小楼夜... 5-30
1

汽车电子档杆的优缺点
1_23456kk49 2023-04

我樂苦多_ 5-30
1

DQN求助求助
嫉妒死我... 2023-04

我创建了一个gym环境，动作空间是多维离散的，例如(2,2,2,2,2,2,2)这样的一个7维空间，但是在选择最大q值对应的动作这一块，我想让他返回的动作也是这种7维数组的动作，但是因为输出层是128，因为是动作空间里包含动作的总数也就是128个，他输出的一直是0-127中的数，有会改的大佬吗，有偿

贴吧用户_... 5-27
1

圣剑使的禁咒咏唱结局在一起了吗
ivchinagao 2023-05

带带山_... 5-27
0

有没有211学校搞强化学习的老师推荐？
贴吧用户_... 2023-04

有没有211学校搞强化学习的老师

贴吧用户_... 4-25
2

少年的四字词语
陈汉池 2023-04

自由天空 4-22

4
小白求助！在学习sutton的《Reinforcement
墨寒临雪 2020-02
小白求助！在学习sutton的《Reinforcement Learning》，需要matlab仿真实现书中所有例子，得到和书上一致的图像与结论等等，但是完全没有用过matlab，无从下手。各位有什么学习建议？
自由天空 1-27
1

赤峰到呼伦贝尔土方工程中标方是谁
JO_KERJWB 2023-04

柠檬lo灬ve 4-10
0
深度强化学习极简入门与Pytorch实战
md44732 2023-03
深度强化学习极简入门与Pytorch实战
md44732 3-21
4

萌新一只，最近在看强化学习的东西！
clearbengi 2023-03

想问问8U们逆向强化学习的过程可以可视化吗，我如果只是拿他训练奖励函数。

mathyue 3-10