改进判别式深度Dyna-Q的任务对话策略学习方法

戴彬, 曾碧, 魏鹏飞, 黄永健

A Task-oriented Dialogue Policy Learning Method of Improved Discriminative Deep Dyna-Q

Dai Bin, Zeng Bi, Wei Peng-fei, Huang Yong-jian

广东工业大学学报 . 2023, (04): 9 -17,23 . DOI: 10.12052/gdutxb.220122