1、神经网络结构搜索 (1_3)_ 基本概念和随机搜索 Neural Architecture Search_ Basics
10:21
2、神经网络结构搜索 (2_3)_ RNN RL Neural Architecture Search_ RNN RL
24:07
3、神经网络结构搜索 (3_3)_ 可微方法 Differentiable Neural Architecture Search
23:48
4、并行计算与机器学习(1_3)(中文) Parallel Computing for Machine Learning (Part 1_3)
25:25
5、并行计算与机器学习(2_3)(中文) Parallel Computing for Machine Learning (Part 2_3)
17:25
6、并行计算与机器学习(3_3)(中文) Parallel Computing for Machine Learning (Part 3_3)
24:55
7、联邦学习:技术角度的讲解(中文)Introduction to Federated Learning
37:01
8、Transformer模型(1_2)_ 剥离RNN,保留Attention
24:07
9、Transformer模型(2_2)_ 从Attention层到Transformer网络
14:33
10、Vision Transformer (ViT) 用于图片分类
13:09
11、RNN模型与NLP应用(1_9):数据处理基础
10:57
12、RNN模型与NLP应用(2_9):文本处理与词嵌入
16:12
13、RNN模型与NLP应用(3_9):Simple RNN模型
20:50
14、RNN模型与NLP应用(4_9):LSTM模型
13:02
15、RNN模型与NLP应用(5_9):多层RNN、双向RNN、预训练
12:16
16、RNN模型与NLP应用(6_9):Text Generation (自动文本生成)
23:24
17、RNN模型与NLP应用(7_9):机器翻译与Seq2Seq模型
19:37
18、RNN模型与NLP应用(8_9):Attention (注意力机制)
16:51
19、RNN模型与NLP应用(9_9):Self-Attention (自注意力机制)
07:17
【2025版】1-深度强化学习基本概念
40:02
【2025版】2-深度强化学习基础:价值学习
28:13
【2025版】3-深度强化学习基础:策略学习
22:53
【2025版】4-深度强化学习基础:Actor-Critic
23:41
【2025版】5-深度强化学习基础:AlphaGo
53:43
【2025版】6-数学基础:蒙特卡洛+Monte+Carlo
25:24
【2025版】7-Sarsa算法_(TD_Learning_1_3)
10:56
【2025版】8-Q-Learning算法+(TD+Learning+2_3)
08:33
【2025版】9-Multi-Step+TD+Target+(TD+Learning+3_3)
06:36
【2025版】10- 经验回放+Experience+Replay+(价值学习高级技巧+1_3)
14:19
【2025版】11-Dueling+Network+(价值学习高级技巧+3_3)
15:11
【2025版】12-多智能体强化学习(1_2):基本概念++Multi-Agent+Reinforcement+Learning
18:37
【2025版】13-多智能体强化学习(2_2):三种架构++Multi-Agent+Reinforcement+Learning
18:37
【2025版】14-策略梯度中的Baseline+(1_4)
09:48
直接吹爆!吴恩达联合创作!全B站知识图谱讲的最系统、通俗易懂的课程!半天直接速通!
【2025版】15-REINFORCE+with+Baseline+(策略梯度中的Baseline+2_4)
11:26
【2025版】16- A2C+方法+(策略梯度中的Baseline+3_4)
18:46
【2025版】17-REINFORCE与A2C的异同+(策略梯度中的Baseline+4_4)
07:44
【2025版】18-离散控制与连续控制+(连续控制+1_3)
04:22
【2025版】19-确定策略梯度+Deterministic+Policy+Gradient,+DPG+(连续控制+2_3)
15:50
【2025版】20-随机策略做连续控制+(连续控制+3_3)
20:33
【2025版】21-新版强化学习 01.深度强化学习简介0
03:13
【2025版】22-强化学习介绍
11:00
【2025版】23-强化学习方法
11:42
【2025版】24-强化学习特点
07:34
【2025版】25-强化学习基本过程
06:39
【2025版】26-强化学习步骤
11:35
【2025版】27-贝尔曼方程
11:07
【2025版】28-Q函数
10:19
【2025版】29-Q-learning算法
07:12
【2025版】30-Q-learning伪代码
15:14
【2025版】31-Q值更新
09:06
【2025版】32-Q值计算
05:15
【2025版】33-Flappy-Bird游戏说明
10:09
【2025版】34-状态与动作选择
07:53
【2025版】35-Q-table
09:24
【2025版】36-初始策略
09:08
【2025版】37-Q值更新策略
10:07
【2025版】38-Deep-Q-Network介绍
08:31
【2025版】39-问题分析
11:42
【2025版】40-实现方法
09:28
【2025版】41-构建模型
07:58
【2025版】42-Q学习损失函数
09:04
【2025版】43-论文解读和图像预处理
10:38
【2025版】44-Q-learning算法-CNN输入
03:47
【2025版】45-DQN结构
09:30
【2025版】46-DQN代码分析
11:28
【2025版】47-DQN训练流程
11:36
【2025版】48-DQN训练代码分析
13:44
【2025版】49-DQN训练演示
05:27
【2025版】50.-DQN实验分析
10:06
【2025版】51-Policy Gradient 策略梯度PG_对比基于值和基于策略网络的区别
11:55
【2025版】52-策略梯度PG_明确目标函数和导函数
11:49
【2025版】53-策略梯度PG_简化导函数的公式推导
10:13
【2025版】54-策略梯度PG_总结整体流程_对比交叉熵损失函数求导
09:53
【2025版】55-策略梯度PG_讲解CartPole环境
10:21
【2025版】56-代码实战_策略梯度PG和CartPole交互
15:21
【2025版】57-代码实战_策略梯度PG网络构建
10:44
【2025版】58-代码实战_策略梯度PG选择行为和参数训练
12:26
【2025版】59-策略梯度PG_对TotalReward进行均值归一化
10:56
【2025版】60-策略梯度PG_同一个回合中不同的action回溯不同的TotalReward_代码实战
11:40
【2025版】61-ActorCritic原理_把PG和QLearning结合起来
15:49
【2025版】62-AdvantageActorCritic_共享参数和修改reward技巧
15:35
【2025版】63-代码实战_ActorCritic与环境交互
15:06
【2025版】64-代码实战_Actor网络构建及训练
11:37
【2025版】65-代码实战_详解Critic网络构建及训练
16:14
【2025版】66-A3C架构和训练流程
12:09
【2025版】67-Pendulum环境_根据网络预测的μ和σ得到连续型的action值
12:33
【2025版】68-代码实战_A3C_讲解Coordinator调度多线程运算
10:28
【2025版】69-代码实战_A3C_定义Worker计算loss的逻辑_针对连续型的action提高actor探索性
11:07
【2025版】70-代码实战_A3C_增加actor探索性用到熵_定义worker正太分布抽样和求梯度的逻辑
10:27
【2025版】71-代码实战_A3C_定义AC网络结构_定义worker拉取参数和更新全局网络参数的逻辑
10:11
【2025版】72-代码实战_A3C_结合流程图分三点总结前面讲的代码
10:07
【2025版】73-代码实战_A3C_讲解线程中worker和环境交互
13:47
【2025版】74-代码实战_A3C_讲解线程中worker和GlobalNet交互_代码运行效果展示
10:07
【2025版】75-ODDPG、PP、DPPO算法 -DDPG解决DQN不能输出连续型动作的问题_DDPG如何训练Actor和Critic
14:32
【2025版】76-代码实战_DDPG_构建Actor和Critic四个网络_定义Critic求loss和求梯度的逻辑
12:57
【2025版】77-代码实战_DDPG_Critic网络构建_Actor网络链式求导
13:33
【2025版】78-代码实战_DDPG_与环境之间的互动_AC训练调整参数_效果展示
12:47
【2025版】79-TD3_使用DoubleNetwork优化DDPG
16:05
【2025版】80-PPO_强调AC如何输出连续型动作_区分On-Policy与Off-Policy
10:25