一些用于 Dialog 对话系统的数据集资料汇总
对话系统常用数据集
介绍一下公开的数据集 :
可以参考“A Survey of Available Corpora for Building Data-Driven Dialogue Systems”这篇论文,而且作者把所有的数据集按照不同类别进行分类总结,里面涵盖了很多数据集,详情请戳 Dialogue datasets
英文数据集
相关数据集的处理代码可参见下面两个github项目:
中文数据集
- dgk_shooter_min.conv:中文电影台词数据集
- 白鹭时代中文问答语料:白鹭时代论坛问答数据
- 微博数据集:华为李航实验室发布 也是论文“Neural Responding Machine for Short-Text Conversation”使用的数据集
- 新浪微博数据集,评论回复短句
Checking if Disqus is accessible...