伊人av超碰久久久麻豆_国产精品一二_欧洲亚洲视频_最新日韩av网址_欧美在线网站_日韩一区二区在线观看视频

 
當(dāng)前位置: 首頁(yè) » 行業(yè)資訊 » 機(jī)器人»日本研究者提出新算法:讓機(jī)器人通過(guò)多模態(tài)深度強(qiáng)化學(xué)習(xí)獲得社會(huì)智能
   

日本研究者提出新算法:讓機(jī)器人通過(guò)多模態(tài)深度強(qiáng)化學(xué)習(xí)獲得社會(huì)智能

 46.1K
     [點(diǎn)擊復(fù)制]
放大字體  縮小字體 發(fā)布日期:2017-03-01   瀏覽次數(shù):611
核心提示:我們一向在等待機(jī)械人能在我們的平常生涯中施展主要的感化,而作為機(jī)械人強(qiáng)國(guó)的日本也一向是這一范疇的引導(dǎo)者之一。近日,日本年夜阪年夜學(xué)和日本迷信枝術(shù)復(fù)興機(jī)構(gòu)(JST)ERATO ISHIGURO 共生人機(jī)交互項(xiàng)目(Symbioti

我們一向在等待機(jī)械人能在我們的平常生涯中施展主要的感化,而作為機(jī)械人強(qiáng)國(guó)的日本也一向是這一范疇的引導(dǎo)者之一。近日,日本年夜阪年夜學(xué)和日本迷信枝術(shù)復(fù)興機(jī)構(gòu)(JST)ERATO ISHIGURO 共生人機(jī)交互項(xiàng)目(Symbiotic Human-Robot Interaction Project)的研討者在 arXiv 提交了一篇論文,引見(jiàn)了他們?cè)跈C(jī)械人的社會(huì)智能上的研討結(jié)果。別的值得一提的是,他們的試驗(yàn)用到了有名的 Pepper 機(jī)械人。

摘要

要讓機(jī)械人與人類(lèi)在相似我們社會(huì)那樣的社會(huì)世界中共存,它們須要控制相似人類(lèi)的社交技巧,這是很癥結(jié)的。經(jīng)由過(guò)程編程的方法來(lái)讓機(jī)械人控制這些技巧是很艱苦的。在這篇論文中,我們提出了一種多模態(tài)深度 Q 收集(MDQN:Multimodal Deep Q-Network),可讓機(jī)械人經(jīng)由過(guò)程試錯(cuò)的辦法來(lái)進(jìn)修相似人類(lèi)的交互技巧。這篇論文的目的是開(kāi)辟可以或許在與人類(lèi)的交互進(jìn)程中搜集數(shù)據(jù)而且可以或許應(yīng)用端到真?zhèn)€強(qiáng)化進(jìn)修從高維度傳感信息中進(jìn)修人類(lèi)交互行動(dòng)的機(jī)械人。本論文注解,機(jī)械人在經(jīng)由了與人類(lèi)的 14 天交互以后,可以勝利學(xué)會(huì)根本的交互技巧。

圖 1:機(jī)械人向人進(jìn)修社交技巧

算法引見(jiàn)

這里提出的算法由兩個(gè)自力任務(wù)的流構(gòu)成:一個(gè)用于處置灰度幀(grayscale frame),另外一個(gè)用于處置深度幀(depth frame)。

上面的 Algorithm 1 概述了這個(gè)算法。由于該模子有兩個(gè)流,由于其參數(shù) θ 和 θ- 是由兩個(gè)收集的參數(shù)組成的。和 DQN [10] 分歧,我們將數(shù)據(jù)生成階段和練習(xí)階段離開(kāi)了。每天的試驗(yàn)都對(duì)應(yīng)于一個(gè) episode,在這時(shí)代,算法要末履行數(shù)據(jù)生成階段,要末履行練習(xí)階段。

本研討所提出的算法的偽代碼

以下是這兩個(gè)階段的簡(jiǎn)述:

數(shù)據(jù)生成階段(data generation phase):在數(shù)據(jù)生成階段,體系應(yīng)用 Q 收集 Q(s, a; θ) 來(lái)與其情況停止交互。該體系會(huì)不雅察以后場(chǎng)景(由灰度幀和深度幀組成),并應(yīng)用 ε-greedy 戰(zhàn)略來(lái)采用行為。該情況又會(huì)反過(guò)去供給標(biāo)量的嘉獎(jiǎng)(reward)(請(qǐng)參閱 5(2) 節(jié)懂得嘉獎(jiǎng)函數(shù)的界說(shuō))。交互閱歷是

其被存儲(chǔ)在重放記憶 M 中。重放記憶 M 會(huì)保留 N 個(gè)比來(lái)的閱歷,然后這些閱歷會(huì)在練習(xí)階段被用于更新該收集的參數(shù)。

練習(xí)階段(training phase):在練習(xí)階段,該體系會(huì)應(yīng)用存儲(chǔ)在重放記憶 M 中的數(shù)據(jù)來(lái)對(duì)收集停止練習(xí)。超參數(shù) n 表現(xiàn)閱歷重放的數(shù)目。關(guān)于每次閱歷重放,都邑從無(wú)限年夜小的重放記憶 M 中隨機(jī)采樣出一個(gè)包括 2000 次交互閱歷的迷你緩存器 B。該模子會(huì)在從緩存器 B 中采樣出的 mini batch 長(zhǎng)進(jìn)行練習(xí),該收集的參數(shù)會(huì)在 bellman targets 的偏向上迭代式地更新。這個(gè)對(duì)重放記憶的隨機(jī)采樣會(huì)打破樣本之間的相干性,由于尺度的強(qiáng)化進(jìn)修辦法假定樣本是自力的且完整散布式的。將該算法分紅兩個(gè)階段的緣由是為了不延遲——假如該收集在交互時(shí)代同時(shí)停止練習(xí)就會(huì)發(fā)生這類(lèi)延遲。該 DQN [16] 署理在一個(gè)輪回中任務(wù),個(gè)中它起首會(huì)與情況停止交互,然后會(huì)將這個(gè)改變存儲(chǔ)到重放記憶中,然后其會(huì)從該重放記憶中采樣出 mini batch,并在這個(gè) mini batch 上練習(xí)該收集。這個(gè)輪回會(huì)賡續(xù)反復(fù),直到終止。這個(gè)交互和練習(xí)的次序進(jìn)程在 HRI 以外的范疇或許是可以接收的。在 HRI 范疇,署理必需基于社會(huì)標(biāo)準(zhǔn)來(lái)和人類(lèi)停止交互,是以機(jī)械人的任何停留和延遲都是弗成接收的。是以,我們將該算法分紅了兩個(gè)階段:在第一個(gè)階段,機(jī)械人經(jīng)由過(guò)程與人類(lèi)停止無(wú)限時(shí)光的交互來(lái)搜集數(shù)據(jù);在第二個(gè)階段,其進(jìn)入階段。在這個(gè)歇息階段,練習(xí)階段激活從而對(duì)該多模態(tài)深度 Q 網(wǎng)路(MDQN)停止練習(xí)。

完成細(xì)節(jié)

這個(gè)模子由兩個(gè)流(stream)組成,一個(gè)用于灰度信息,另外一個(gè)用于深度信息。這兩個(gè)流的構(gòu)造是完整雷同的,每一個(gè)流都由 8 個(gè)層構(gòu)成(包含輸出層)。全體模子架構(gòu)如圖 2 所示。

圖 2:雙流式卷積神經(jīng)收集

該多模態(tài) Q 收集的 y 信道和 depth 信道的輸出分離是灰度圖象(198 × 198 × 8)和深度圖象(198 × 198 × 8)。由于每一個(gè)流都應(yīng)用 8 幀輸出,是以,來(lái)自對(duì)應(yīng)相機(jī)的最新的 8 幀是被預(yù)處置后堆疊到一路,組成該收集的每一個(gè)流的輸出。由于這兩個(gè)流是完整一樣的,所以我們?cè)谶@里只評(píng)論辯論一個(gè)流的構(gòu)造便可。198 × 198 × 8 的輸出圖象起首被傳遞給第一個(gè)卷積層(C1),其以 3 的步幅卷積盤(pán)算 9×9 的 16 個(gè)濾波器,前面則隨著一個(gè)整流線(xiàn)性單位(ReLU)函數(shù)并獲得每一個(gè)年夜小為 64×64 的 16 個(gè)特點(diǎn)圖(我們將其記為 16@64×64)。這個(gè)來(lái)自 C1 的輸入然后會(huì)被送入下采樣層 S1,其以 2×2 的步幅運(yùn)用 2×2 的最年夜池化(max-pooling)。第二(C2)和第三(C3)個(gè)卷積層分離卷積盤(pán)算 32 和 64 個(gè)濾波器,其年夜小為 5×5,應(yīng)用了 1 的步幅。C2 和 C3 的輸入經(jīng)由過(guò)程非線(xiàn)性 ReLU 函數(shù),然后分離被送入下采樣層 S2 和 S3。最初的隱蔽層是帶有 256 個(gè)整流單位的全銜接層。輸入層則是一個(gè)全銜接的線(xiàn)性層,帶有 4 個(gè)單位,每個(gè)單位對(duì)應(yīng)一個(gè)正當(dāng)舉措。

圖 3:勝利和不勝利的握手示例

圖 4:在經(jīng)由了一系列的 episode 以后,MDQN 在測(cè)試數(shù)據(jù)集上的表示

 
 
 
[ 行業(yè)資訊搜索 ]  [ 加入收藏 ]  [ 告訴好友 ]  [ 打印本文 ]  [ 關(guān)閉窗口 ]
 
 
主站蜘蛛池模板: 欧美激情精品久久久久 | 中国女人黄色大片 | 久久国产综合 | 久久99久久精品 | 亚洲欧美国产另类 | 欧美日韩精品免费观看视频 | 草逼操 | 日日影院 | 尤物99av写真在线 | 涩涩在线 | 四虎影院最新网址 | 精品成人佐山爱一区二区 | 青青草原国产在线观看 | 久久久久亚洲精品国产 | 在线观看你懂的视频 | 久久99精品久久久久久园产越南 | a级在线| 欧美精品福利视频 | 伊人久久大香线蕉综合75 | 久久久蜜桃 | 三级黄在线观看 | 国产乱码精品一区二区三区手机版 | 日本性视频| 91影院| 国产1页| 日本成人一区二区 | 欧美色综合 | 一级一级黄色片 | h肉动漫无修一区二区无遮av | 亚洲高清一二三区 | 国产成人精品在线观看 | 免费大片黄 | 男人的天堂在线视频 | 欧美日韩网| 国产在线观看欧美 | 久久这 | 亚州中文字幕 | 日韩国产一区 | 天堂中文字幕 | 中文字幕免费在线 | 欧美在线一二三区 |