-
-
9
-
2
-
2
-
1
-
6
-
2lz最近正在学习深度强化学习方面的知识,然后现在有个疑问,我在解读代码的时候,发现,代码中这只的reward根本和模型没有关联,那是怎么给模型奖励和惩罚呢?我一直很困惑,希望有大佬解答#强化学习#
-
1请问各位大佬,通常强化学习模型的动作空间都是固定的,比如上下左右等动作。但是我现在要做一个复杂网络的路径决策场景,随机网络上的某一个点,要去另外几个指定的节点之一卸货。但是要考虑卸货点的收益,以及路径各方面因素。也就是说该模型的动作是路径的决策。但是这个动作空间会随着我随便点的位置变化而变化。这类动作空间可变的问题,各位大佬有没有什么论文可以提供参考的。
-
2各位大佬好,我是毕业可能要用到强化学习算法的萌新 我用matlab的强化学习工具箱,生成了Dqn智能体,自己在里面写了环境,用来求解一个分配问题。 我将环境中的所有信息均作为状态输入 ,但发现在某些情况下,整个模型的泛化性仍然不好 如果采用多个不同环境进行训练,感觉后续训练结果会覆盖前面的训练结果,使得智能体无法较好的处理原有工况 这种情况下,原因是训练方法不对还是?
-
5
-
1强化学习在随机结束之后就一直只选择一个动作值了是为什么?是因为根本就没学起来还是因为环境太简单了?并且在更改神经网络初始化的随机种子之后也会对选择的动作产生影响是为什么
-
8
-
6
-
13
-
1
-
0
-
0纯小白,想用强化学习训练一个仿真模型,现在用modelica建好了模型,有没有办法把他交给强化学习进行训练。应该怎么做?谢谢大佬
-
1小程序,安卓,系统开发,机器学习,深度学习,知识图谱,大数据,强化学习,等等都可(计算机除硬件都可)985本硕,个人#计算机毕设#[图片]
-
0
-
0有没有大佬会citylearn的
-
1有没有了解ros,gazebo,td3的大佬,想请教一下如何改进td3,可有偿
-
0想问下最新研究方向进展是什么,还有想问有没有强化学习的交流群呐,自己摸索太难了
-
0兄弟们,强化学习一直训练不了有能调的吗?有吗,急急急急急急急急急急急,有偿有偿有偿
-
0
-
3
-
1求教怎么用TensorFlow架构实现 SAC+ ERE(Emphasizing Recent Experience) + PER(Prioritized Experience Replay) 强化学习,SAC,ERE,PER
-
2求教mujoco怎么导入obj文件啊 或者说,用vhacd把一个大的mesh分解以后,在mujoco里面加载的时候,应该怎么保持为多个convex mesh啊
-
0不是完全小白,之前学过深度学习,跑过论文代码
-
1有做这方面的老哥吗?或者懂强化学习的也可以,交流交流
-
5吧里有老哥会强化学习和博弈结合吗?希望可以请教一二
-
0有没有会做ddpg+非平稳风信号的
-
3带带萌新
-
9
-
3以下是chatgpt给我的答案: 问:在强化学习中,我如何判断什么时候该选择什么样的激活函数呢? 答: 在强化学习中选择激活函数通常是一个试错的过程,它取决于你所面对的具体问题和网络架构。激活函数对于神经网络的性能和收敛速度都有影响,因此选择适当的激活函数很重要。 下面是一些常见的激活函数以及它们适用的情况: Sigmoid函数(逻辑函数):它将输入值映射到0到1的范围内。适用于输出层的二分类问题,因为它可以将输出解释为概率
-
2求指教
-
11孩子最近搞毕设,强化学习微店网调度,用的matlab,属于是连环境都没创建下来啊
-
1
-
1我创建了一个gym环境,动作空间是多维离散的,例如(2,2,2,2,2,2,2)这样的一个7维空间,但是在选择最大q值对应的动作这一块,我想让他返回的动作也是这种7维数组的动作,但是因为输出层是128,因为是动作空间里包含动作的总数也就是128个,他输出的一直是0-127中的数,有会改的大佬吗,有偿
-
0有没有211学校搞强化学习的老师
-
2
-
4
-
0
-
4想问问8U们逆向强化学习的过程可以可视化吗,我如果只是拿他训练奖励函数。