改进判别式深度Dyna-Q的任务对话策略学习方法
戴彬, 曾碧, 魏鹏飞, 黄永健
A Task-oriented Dialogue Policy Learning Method of Improved Discriminative Deep Dyna-Q
Dai Bin, Zeng Bi, Wei Peng-fei, Huang Yong-jian
广东工业大学学报 . 2023, (04): 9 -17,23 .  DOI: 10.12052/gdutxb.220122