91麻豆最新在线人成免费观看,无遮挡高潮国产免费观看

地區(qū)

院校庫

學(xué)員錄取

留學(xué)資訊

背景提升

顧問團(tuán)隊(duì)

資料庫

關(guān)于我們

本科留學(xué)

麻省理工學(xué)院 | 一種有遠(yuǎn)見的機(jī)器學(xué)習(xí)方法

指南者留學(xué) 2022-11-24 23:42:34 閱讀量：1162

想象兩支球隊(duì)在足球場擺好架勢。玩家可以為了達(dá)成一個目標(biāo)而合作，也可以與其他利益沖突的玩家競爭。游戲就是這么玩的。   創(chuàng)造能夠像人類一樣學(xué)習(xí)競爭和合作的人工智能代理仍然是一個棘手的問題。一個關(guān)鍵的挑戰(zhàn)是，當(dāng)人工智能智能體同時學(xué)習(xí)時，如何使它們能夠預(yù)測其他智能體的未來行為。   由于這一問題的復(fù)雜性，目前的方法往往是短視的;代理只能猜測隊(duì)友或競爭者接下來的幾個動作，這導(dǎo)致了長期的糟糕表現(xiàn)。   來自麻省理工學(xué)院、MIT- ibm沃森人工智能實(shí)驗(yàn)室和其他地方的研究人員開發(fā)了一種新的方法，使人工智能代理具有遠(yuǎn)見。   他們的機(jī)器學(xué)習(xí)框架使合作或競爭的AI代理能夠在時間接近無窮大時考慮其他代理將做什么，而不僅僅是考慮接下來的幾個步驟。然后，代理相應(yīng)地調(diào)整自己的行為，以影響其他代理的未來行為，并達(dá)到一個最佳的、長期的解決方案。   這一框架可以被一組自動駕駛無人機(jī)用來在茂密的森林中尋找走失的徒步旅行者，也可以被自動駕駛汽車用來通過預(yù)測在繁忙的高速公路上行駛的其他車輛的未來動向來努力保證乘客的安全。   “當(dāng)人工智能代理在合作或競爭時，最重要的是它們的行為何時在未來的某個時刻趨于一致。在這個過程中有很多短暫的行為，從長遠(yuǎn)來看并沒有太大影響。達(dá)到這種聚合行為是我們真正關(guān)心的，我們現(xiàn)在有一個數(shù)學(xué)方法來實(shí)現(xiàn)它，”麻省理工學(xué)院信息和決策系統(tǒng)實(shí)驗(yàn)室(LIDS)的研究生Dong-Ki Kim說，他是描述該框架的一篇論文的主要作者。   資深作者喬納森·p·豪，理查德·c·麥克勞林航空航天教授，麻省理工學(xué)院- ibm沃森人工智能實(shí)驗(yàn)室成員。共同作者包括來自麻省理工-IBM沃森人工智能實(shí)驗(yàn)室、IBM研究中心、米拉-魁北克人工智能研究所和牛津大學(xué)的其他人。這項(xiàng)研究將在神經(jīng)信息處理系統(tǒng)會議上發(fā)表。   代理越多，問題就越多   研究人員專注于一個被稱為多主體強(qiáng)化學(xué)習(xí)的問題。強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)形式，AI代理通過試錯進(jìn)行學(xué)習(xí)。研究人員對幫助其實(shí)現(xiàn)目標(biāo)的“良好”行為給予獎勵。代理會調(diào)整自己的行為以最大化獎勵，直到最終成為某項(xiàng)任務(wù)的專家。   但當(dāng)許多合作或競爭主體同時學(xué)習(xí)時，事情就會變得越來越復(fù)雜。隨著代理考慮其他代理的更多未來步驟，以及它們自己的行為如何影響其他代理，這個問題很快就需要太多的計(jì)算能力來有效解決。這就是為什么其他方法只關(guān)注短期。   “人工智能確實(shí)想要考慮游戲的結(jié)局，但他們不知道游戲什么時候結(jié)束。他們需要思考如何不斷調(diào)整自己的行為，以便在未來的某個遙遠(yuǎn)時刻贏得勝利。我們的論文實(shí)質(zhì)上提出了一個新的目標(biāo)，使人工智能能夠思考無限，”金說。   但由于不可能在算法中插入無窮大，研究人員設(shè)計(jì)了他們的系統(tǒng)，讓代理關(guān)注未來的一個點(diǎn)，在這個點(diǎn)上，它們的行為將與其他代理的行為收斂，這被稱為平衡。一個平衡點(diǎn)決定了智能體的長期性能，在多智能體的情況下可以存在多個平衡。因此，一個有效的agent會積極地影響其他agent的未來行為，使它們從agent的角度達(dá)到一個理想的平衡。如果所有的因素相互影響，它們就會趨同于一個研究人員稱之為“主動平衡”的一般概念。   他們開發(fā)的機(jī)器學(xué)習(xí)框架被稱為FURTHER(代表“充分加強(qiáng)主動影響與平均獎勵”)，使代理能夠?qū)W習(xí)如何在與其他代理交互時調(diào)整自己的行為，以實(shí)現(xiàn)這種主動平衡。   FURTHER使用兩個機(jī)器學(xué)習(xí)模塊來實(shí)現(xiàn)這一點(diǎn)。第一個是推理模塊，它使一個代理能夠猜測其他代理的未來行為和它們使用的學(xué)習(xí)算法，僅基于它們之前的行為。   這些信息被輸入到強(qiáng)化學(xué)習(xí)模塊中，代理使用該模塊來調(diào)整其行為并影響其他代理，使其獲得的獎勵最大化。   “挑戰(zhàn)在于思考無限。我們必須使用許多不同的數(shù)學(xué)工具來實(shí)現(xiàn)這一點(diǎn)，并做一些假設(shè)以使其在實(shí)踐中工作，”Kim說。 贏得長期的勝利   他們在幾個不同的場景中，用其他多智能體強(qiáng)化學(xué)習(xí)框架測試了他們的方法，包括一對機(jī)器人進(jìn)行相撲式的比賽，以及兩個25智能體團(tuán)隊(duì)之間的戰(zhàn)斗。在這兩種情況下，使用FURTHER的AI代理更容易贏得游戲。   由于他們的方法是分散的，這意味著代理獨(dú)立學(xué)習(xí)贏得游戲，它也比其他需要中央計(jì)算機(jī)來控制代理的方法更具可擴(kuò)展性，Kim解釋道。   研究人員使用游戲來測試他們的方法，但FURTHER可以用來解決任何類型的多主體問題。例如，當(dāng)許多相互作用的主體的行為和利益隨時間而變化時，經(jīng)濟(jì)學(xué)家可以應(yīng)用它來尋求制定合理的政策。   經(jīng)濟(jì)學(xué)是金特別感興趣的一門學(xué)科。他還希望更深入地挖掘主動均衡的概念，并繼續(xù)加強(qiáng)FURTHER框架。   這項(xiàng)研究的部分資金來自麻省理工學(xué)院- ibm沃森人工智能實(shí)驗(yàn)室。   <blockquote> 注：本文由院校官方新聞直譯，僅供參考，不代表指南者留學(xué)態(tài)度觀點(diǎn)。 </blockquote>

預(yù)約咨詢