工学 >>> 控制科学与技术 >>> 机器人控制 >>>
搜索结果: 1-12 共查到机器人控制 强化学习相关记录12条 . 查询时间(0.383 秒)
为提高准被动双足机器人斜坡步行稳定性,本文提出了一种基于深度强化学习的准被动双足机器人步态控制方法.通过分析准被动双足机器人的混合动力学模型与稳定行走过程,建立了状态空间、动作空间、episode过程与奖励函数.在利用基于DDPG改进的Ape-X DPG算法持续学习后,准被动双足机器人能在较大斜坡范围内实现稳定行走.仿真实验表明,Ape-X DPG无论是学习能力还是收敛速度均优于基于PER的DDP...
为实现微创外科手术机器人的手术姿态调整,提出一种基于模糊强化学习的变导纳人机力交互模型.通过在线学习的方式将人的操作特性考虑到人机力交互过程之中,并能够自适应地调整导纳控制模型以响应操作者的控制意图.通过自行研制的微创外科手术机器人样机进行相关的实验验证,实验结果表明基于模糊Sarsa (λ)学习的变导纳控制模型可实现柔顺自然的机械臂摆位操作,能够满足力交互过程中各阶段的阻尼变化需求,具有较高的可...
本文提出了一种LCS和LS-SVM相结合的多机器人强化学习方法,LS-SVM获得的最优学习策略作为LCS的初始规则集。LCS通过与环境的交互,能更快发现指导多机器人强化学习的规则,为强化学习系统的动作选择提供实时、动态的反馈,使多机器人自主地学习到相互协作的最优策略。算法的分析和仿真表明多机器人学习空间大、学习速度收敛慢、学习效果不确定等问题得到很大的改善。This paper presents ...
主要研究了强化学习算法及其在机器人足球比赛技术动作学习问题中的应用.强化学习的状态空间 和动作空间过大或变量连续,往往导致学习的速度过慢甚至难于收敛.针对这一问题,提出了基于T-S 模型模糊 神经网络的强化学习方法,能够有效地实现强化学习状态空间到动作空间的映射.此外,使用提出的强化学习方 法设计了足球机器人的技术动作,研究了在不需要专家知识和环境模型情况下机器人的行为学习问题.最后,通 ...
概述了移动机器人常用的自主导航算法及其优缺点,在此基础上提出了强化学习方法。描述了强化学习算法的原理,并实现了用神经网络解决泛化问题。设计了基于障碍物探测传感器信息的机器人自主导航强化学习方法,给出了学习算法中各要素的数学模型。经仿真验证,算法正确有效,具有良好的收敛性和泛化能力。
针对多机器人协作复杂搜集任务中学习空间大,学习速度慢的问题,提出了带共享区的双层强化学习算法。该强化学习算法不仅能够实现低层状态-动作对的学习,而且能够实现高层条件-行为对的学习。高层条件-行为对的学习避免了学习空间的组合爆炸,共享区的应用强化了机器人间协作学习的能力。仿真实验结果说明所提方法加快了学习速度,满足了未知环境下多机器人复杂搜集任务的要求。
本文采用强化学习方法实现了智能机器人的避碰行为学习.文中首先介绍了强化学习 原理,讨论了采用神经网络实现强化学习系统的方法,然后对具有强化学习机制的智能机器 人避碰行为学习系统进行了仿真实验,并对仿真结果进行了分析.
提出了一种基于分层强化学习的移动机器人路径规划算法.该算法利用强化学习方法的无环境模型学习能力以及分层强化学习方法的局部策略更新能力,克服了路径规划方法对全局环境的静态信息或动态障碍物的运动信息的依赖性.仿真实验结果表明了算法的可行性,尽管在规划速度上没有明显的优势,但其应对未知动态环境的学习能力是现有其它方法无法比拟的.
在多机器人系统中,评价一个机器人行为的好坏常常依赖于其它机器人的行为,此 时必须采用组合动作以实现多机器人的协作,但采用组合动作的强化学习算法由于学习空间 异常庞大而收敛得极慢.本文提出的新方法通过预测各机器人执行动作的概率来降低学习空 间的维数,并应用于多机器人协作任务之中.实验结果表明,基于预测的加速强化学习算法 可以比原始算法更快地获得多机器人的协作策略.
虽然基于行为控制的自主机器人具有较高的鲁棒性,但其对于动态环境缺乏必要的自 适应能力.强化学习方法使机器人可以通过学习来完成任务,而无需设计者完全预先规定机 器人的所有动作,它是将动态规划和监督学习结合的基础上发展起来的一种新颖的学习方法 ,它通过机器人与环境的试错交互,利用来自成功和失败经验的奖励和惩罚信号不断改进机 器人的性能,从而达到目标,并容许滞后评价.由于其解决复杂问题的突出能力...
Abstract研究基于行为的移动机器人控制方法.将模糊神经网络与强化学习理论相合,构成模糊强化系统.它既可获取模糊规则的结论部分和模糊隶属度函数参数,也可解决连续状态空间和动作空间的强化学习问题.将残差算法用于神经网络的学习,保证了函数逼近的快速性和收敛性.将该系统的学习结果作为反应式自主机器人的行为控制器,有效地解决了复杂环境中的机器人导航问题.
Abstract多机器人系统中,随着机器人数目的增加,系统中的冲突呈指数级增加,甚至出现死锁.本文提出了基于过程奖赏和优先扫除的强化学习算法作为多机器人系统的冲突消解策略.针对典型的多机器人可识别群体觅食任务,以计算机仿真为手段, 以收集的目标物数量为系统性能指标,以算法收敛时学习次数为学习速度指标, 进行仿真研究, 并与基于全局奖赏和Q学习算法等其他9种算法进行比较. 结果表明所提出的基于过程奖...

中国研究生教育排行榜-

正在加载...

中国学术期刊排行榜-

正在加载...

世界大学科研机构排行榜-

正在加载...

中国大学排行榜-

正在加载...

人 物-

正在加载...

课 件-

正在加载...

视听资料-

正在加载...

研招资料 -

正在加载...

知识要闻-

正在加载...

国际动态-

正在加载...

会议中心-

正在加载...

学术指南-

正在加载...

学术站点-

正在加载...