您現(xiàn)在的位置:首頁 > 背景提升 > Alpha go的算法原理-大學(xué)組
驗(yàn)證碼

獲取驗(yàn)證碼

Alpha go的算法原理:深度強(qiáng)化學(xué)習(xí)與圖神經(jīng)網(wǎng)絡(luò)(GNN)研究【大學(xué)組】

計算機(jī)科學(xué)/數(shù)據(jù)科學(xué)/人工智能/深度學(xué)習(xí)


項(xiàng)目背景

近年來,人工智能數(shù)據(jù)科學(xué)技術(shù)不斷突破與發(fā)展。卷積神經(jīng)網(wǎng)絡(luò)CNN開啟了深度學(xué)習(xí)新篇章,推動計算機(jī)視覺落地自動化駕駛等諸多領(lǐng)域;循環(huán)神經(jīng)網(wǎng)絡(luò)RNN推動了自然語言處理,使得機(jī)器翻譯、智能語音技術(shù)日趨成熟;深度學(xué)習(xí)之上,強(qiáng)化學(xué)習(xí)圖神經(jīng)網(wǎng)絡(luò)GNN的崛起正在深度賦能數(shù)據(jù)挖掘,將成為企業(yè)場景拓展、數(shù)據(jù)整合、行業(yè)效率飛躍的關(guān)鍵。項(xiàng)目將聚焦強(qiáng)化學(xué)習(xí),特別是圖神經(jīng)網(wǎng)絡(luò)GNN這一構(gòu)筑未來數(shù)字生態(tài)的核心數(shù)據(jù)科學(xué)技術(shù)。


項(xiàng)目介紹

項(xiàng)目內(nèi)容涉及強(qiáng)化學(xué)習(xí)核心理論和技能,具體包括遺傳算法、強(qiáng)化學(xué)習(xí)框架、Q-learning、行動者-批評(actor-critic;AC)模型、馬爾可夫決策過程、優(yōu)化控制、圖神經(jīng)網(wǎng)絡(luò)(graph neural networks; GNN)、自動機(jī)器學(xué)習(xí)(Auto ML)等。學(xué)生通過項(xiàng)目了解如何開發(fā)基于強(qiáng)化學(xué)習(xí)的生產(chǎn)力軟件,在結(jié)束時提交項(xiàng)目個性化研究課題報告,進(jìn)行成果展示。

個性化研究課題參考:

強(qiáng)化學(xué)習(xí)在博弈論中的應(yīng)用:類alpha算法開發(fā)

利用經(jīng)驗(yàn)留存解決強(qiáng)化學(xué)習(xí)所需樣本太多問題的可行性分析

強(qiáng)化學(xué)習(xí)中的機(jī)器獎勵設(shè)置方法迭代

為強(qiáng)化學(xué)習(xí)過擬合的特定場景重新建模的自動過程研究

具有精確尺度估計的動作-評價網(wǎng)絡(luò)結(jié)構(gòu)與強(qiáng)化學(xué)習(xí)優(yōu)勢函數(shù)


適合人群

大學(xué)生

計算機(jī)科學(xué)、人工智能、數(shù)據(jù)科學(xué)、電子與計算機(jī)工程等專業(yè),軟件工程、自動化等相關(guān)專業(yè)或者希望掌握強(qiáng)化學(xué)習(xí)的學(xué)生;對人工智能、大數(shù)據(jù)以及交叉學(xué)科和方向感興趣的學(xué)生; 學(xué)生需要具備線性代數(shù)及概率論與數(shù)理統(tǒng)計基礎(chǔ),至少會使用一門編程語言實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò),有過強(qiáng)化學(xué)習(xí)開發(fā)經(jīng)驗(yàn)的申請者優(yōu)先


導(dǎo)師介紹

劍橋大學(xué)終身正教授

Dr.Pietro is a Full Professor at the Department of Computer Science and Technology of the University of Cambridge and a member of the Artificial Intelligence group. Prof. Pietro is also a member of the Cambridge Centre for AI in Medicine. His research interest focuses on developing Artificial Intelligence and Computational Biology models to understand disease complexity and address personalized and precision medicine. The current focus is on Graph Neural Network modeling.

導(dǎo)師現(xiàn)任劍橋大學(xué)計算機(jī)科學(xué)與技術(shù)終身正教授,持有歐洲學(xué)習(xí)和智能系統(tǒng)實(shí)驗(yàn)室(Ellis;歐洲大型跨國人工智能研究所,目前擁有千位全球頂尖計算機(jī)工程師、數(shù)學(xué)家和其他領(lǐng)域科學(xué)家,旨在重構(gòu)歐洲人工智能前沿研究)席位、劍橋大學(xué)大數(shù)據(jù)研究指導(dǎo)委員會席位。Pietro導(dǎo)師的研究興趣為人工智能圖神經(jīng)網(wǎng)絡(luò)建模,在國際知名學(xué)術(shù)期刊發(fā)表論文多篇,曾榮獲歐盟委員會未來與新興技術(shù)(FET;迄今歐盟規(guī)模最大、資助力度最強(qiáng)的科研資助項(xiàng)目之一)會展三等獎。


任職學(xué)校

劍橋大學(xué)建校于1209年,是世界范圍內(nèi)歷史最為悠久的大學(xué)之一,英國Top2名校,G5名校之一。劍橋大學(xué)享有世界聲譽(yù),在英國社會和高等教育系統(tǒng)中具有極其重要的地位,同時具有廣泛的世界性影響。許多青年學(xué)子都以到劍橋大學(xué)深造為理想。劍橋大學(xué)在2020年QS世界大學(xué)綜合排名位列第7。


項(xiàng)目大綱

強(qiáng)化學(xué)習(xí):項(xiàng)目將在本周聚焦遺傳算法和強(qiáng)化學(xué)習(xí)框架。 Introduction to reinforcement learning

環(huán)境:強(qiáng)化學(xué)習(xí)由智能體和環(huán)境兩部分構(gòu)成。項(xiàng)目將在本周探討離策略、無模型強(qiáng)化學(xué)習(xí)算法 Q-learning、行動者-批評(actor-critic;AC)模型、馬爾可夫決策過程等。Environment

優(yōu)化:項(xiàng)目將在本周深入學(xué)習(xí)強(qiáng)化學(xué)習(xí)與優(yōu)化控制。 Optimization

集成與控制 Integration and Control

集成:項(xiàng)目將在本周進(jìn)一步探討圖神經(jīng)網(wǎng)絡(luò)(graph neural networks; GNN)、自動機(jī)器學(xué)習(xí)(Auto ML)等。 Integration

項(xiàng)目回顧與成果展示 Program Review and Presentation

論文輔導(dǎo) Project Deliverables Tutoring


時間安排與收獲

7周在線小組科研學(xué)習(xí)+5周論文輔導(dǎo)學(xué)習(xí) 共125課時

學(xué)術(shù)報告

優(yōu)秀學(xué)員獲主導(dǎo)師Reference Letter

EI/CPCI/Scopus/ProQuest/Crossref/EBSCO或同等級別索引國際會議全文投遞與發(fā)表(可用于申請)

結(jié)業(yè)證書

成績單

更多課程分類
驗(yàn)證碼

獲取驗(yàn)證碼