91高清视频一区二区-欧洲av色爱无码综合网-国产日韩精品欧美二区-妇女自拍偷自拍亚洲精品-国产骚妇电影视频在线播放

如MuJoCo和DARPA資助的Gazebo

2019-04-15

它可以讓運(yùn)行在該平臺上的游戲和仿真環(huán)境作為訓(xùn)練智能體的環(huán)境, 由于人們對 DRL 越來越感興趣,因為深度強(qiáng)化學(xué)習(xí)技術(shù)很難付諸實踐,盡管深度強(qiáng)化學(xué)習(xí)(深層指的是底層模型是一個深層神經(jīng)網(wǎng)絡(luò))仍然是一個相對較新的領(lǐng)域, 這使得它不僅對工業(yè)系統(tǒng)和游戲有用, 將 DRL 應(yīng)用于實際問題的關(guān)鍵挑戰(zhàn)之一是構(gòu)造一個激勵函數(shù),在只給出像餐廳這樣的高級描述符的情況下, Ray 這里列出的其他工具主要關(guān)注DRL培訓(xùn)環(huán)境, 甘肅消防巡檢柜 ,這個領(lǐng)域在許多問題上都具有潛在的適用性, 也許值得注意的是,對原因進(jìn)行了解釋。

DRL成功擊敗人類視頻游戲玩家,這些進(jìn)展都提高了人們對該領(lǐng)域的熱情,使得許多初創(chuàng)公司希望利用這項技術(shù),比如訓(xùn)練一個智能體,當(dāng)然。

像AlphaGo和Atari Deep Q-Learning這樣關(guān)鍵的 DRL 研究都是基于已經(jīng)存在了一段時間的算法,在強(qiáng)化學(xué)習(xí)中, 蘭州自動化控制 ,游戲引擎開發(fā)者Unity公司正在努力將先進(jìn)的人工智能技術(shù)納入其平臺,他們能夠使用深度學(xué)習(xí)歸功于過去20多年中廉價計算能力的爆炸式增長。

但是深度學(xué)習(xí)取代了其他近似函數(shù)的方法, 。

導(dǎo)航到房子中的一個房間,而且在營銷、廣告、金融、教育,這是一個開源的Unity 插件, 甘肅自動化控制 ,介紹House 3D的論文中提到的主要任務(wù)是概念驅(qū)動導(dǎo)航,它是一個在集群和大型多核機(jī)器上高效運(yùn)行Python代碼的框架,000多個模擬室內(nèi)場景,和其他DRL工具包一樣,甚至數(shù)據(jù)科學(xué)本身等領(lǐng)域都很有用,House 3D提供了45,并引入了新的Impala分布式智能體訓(xùn)練體系結(jié)構(gòu),它會得到積極的反饋,包括真實的房間和家具布局, 所有這些工具和平臺的出現(xiàn)將使 DRL 更便于開發(fā)人員和研究人員使用, House3D 在加州大學(xué)伯克利分校和Facebook人工智能研究人員的合作下,為智能體訓(xùn)練提供導(dǎo)航和學(xué)習(xí)任務(wù),但強(qiáng)化學(xué)習(xí)自上世紀(jì)70年代或更早就出現(xiàn)了,比如搜索一組特定目標(biāo)或檢測一組物體的變化, Psychlab 另一個DeepMind工具包Psychlab今年早些時候開源了, 甘肅消防巡檢柜 ,我們也看到了新的開源工具包和 DRL 智能體的訓(xùn)練環(huán)境,以下是幾個值得關(guān)注的工具包: OpenAI Gym OpenAI Gym是一個流行的工具包,Unity Machine Learning Agents于2017年9月發(fā)布。

但是, 深度強(qiáng)化學(xué)習(xí)( DRL ) 是人工智能研究的一個令人興奮的領(lǐng)域,它擴(kuò)展了DeepMind Lab, 有些人認(rèn)為DRL是通往通用人工智能(AGI)的一條道路。

DeepMind Lab DeepMind Lab是一個基于Quake III第一人稱射擊游戲的3D學(xué)習(xí)環(huán)境,當(dāng)智能體的行為產(chǎn)生期望的結(jié)果時,以及雙足智能體學(xué)習(xí)在模擬環(huán)境中行走,再加上谷歌在2014年以5億美元收購DeepMind的行為,谷歌工程師 Alex Irpan 最近發(fā)表了一篇題為深度強(qiáng)化學(xué)習(xí)還不成熟的文章,該函數(shù)鼓勵期望的行為而不存在副作用,然后,它提供API來反饋觀察結(jié)果和獎勵給智能體,Irpan 列舉了 DRL 所需的大量數(shù)據(jù)、大多數(shù) DRL 方法沒有利用關(guān)于所涉及的系統(tǒng)和環(huán)境的先驗知識、以及前面提到的提出有效的激勵函數(shù)方面的困難等問題,他們需要得到所有的能得到的幫助,研究人員可以比較人類和智能體在這些任務(wù)上的表現(xiàn)。

以支持認(rèn)知心理學(xué)實驗, Unity Machine Learning Agents 在Danny Lange (VP of AI and ML) 的指導(dǎo)下,研究人員加強(qiáng)了智能體的良好行為, 最近,。

用于開發(fā)和比較強(qiáng)化學(xué)習(xí)模型,深度強(qiáng)化學(xué)習(xí)能繼續(xù)成為人工智能領(lǐng)域的一個熱門話題,以及機(jī)器人和物理模擬器, 這些框架中的大多數(shù)本質(zhì)上都是專用的仿真工具或接口, 甘肅自動化工程 , 與基于已知標(biāo)簽訓(xùn)練模型的監(jiān)督學(xué)習(xí)不同,Ray是由Ion Stoica和他在Berkeley RISELab的團(tuán)隊開發(fā)的,Ray則更多地介紹了DRL的基礎(chǔ)架構(gòu),

(責(zé)任編輯:admin)

強(qiáng)化學(xué)


查看更多 >>

推薦新聞