中文对话数据集调研

Posted by Weihao Zeng on July 21, 2022

2022-07-21-中文对话数据集调研

调研了中文对话数据集,供大家参考,欢迎大家补充!

1. 任务型对话数据集

1.1 CrossWOZ

CrossWOZ是非常高质量的任务型对话数据集。

项目链接:https://github.com/thu-coai/CrossWOZ

数据集统计:

Split Train Valid Test
# dialogues 5,012 500 500
# Turns (utterances) 84,692 8,458 8,476
Vocab 12,502 5,202 5,143
Avg. sub-goals 3.24 3.26 3.26
Avg. semantic tuples 14.8 14.9 15.0
Avg. turns 16.9 16.9 17.0
Avg. tokens per turn 16.3 16.3 16.2

数据集示例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
{
    "sys-usr": [120, 20],
    "type": "不独立多领域",
    "task description": [
        "你要去一个餐馆(id=1)用餐。你想吃的菜肴是驴杂汤。你希望餐馆的人均消费是100-150元的。你想知道这个餐馆的名称、周边景点、地址。",
        "你要去一个景点(id=2)游玩。你希望景点的评分是4.5分以上。你希望游玩的时长是3小时 - 4小时。你想知道这个景点的名称、地址、周边景点。",
        "你要去id=2附近的景点(id=3)游玩。你希望景点的票价是免费的。你希望景点的评分是4.5分以上。你想知道这个景点的周边餐馆。",
        "你要去一个酒店(id=4)住宿。你希望酒店的最低价格是400-500元的。你希望酒店提供所有房间提供wifi。你希望酒店提供早餐服务。你想知道这个酒店的名称、酒店类型、周边餐馆。"],
    "goal": [
        [1, "餐馆", "推荐菜", ["驴杂汤"], false],
        [1, "餐馆", "人均消费", "100-150元", false],
        [1, "餐馆", "名称", "", false],
        [1, "餐馆", "周边景点", [], false],
        [1, "餐馆", "地址", "", false],
        [2, "景点", "评分", "4.5分以上", false],
        [2, "景点", "游玩时间", "3小时 - 4小时", false],
        [2, "景点", "名称", "", false],
        [2, "景点", "地址", "", false],
        [2, "景点", "周边景点", [], false],
        [3, "景点", "名称", "出现在id=2的周边景点里", false],
        [3, "景点", "门票", "免费", false],
        [3, "景点", "评分", "4.5分以上", false],
        [3, "景点", "周边餐馆", [], false],
        [4, "酒店", "价格", "400-500元", false],
        [4, "酒店", "酒店设施-所有房间提供wifi", "是", false],
        [4, "酒店", "酒店设施-早餐服务", "是", false],
        [4, "酒店", "名称", "", false],
        [4, "酒店", "酒店类型", "", false],
        [4, "酒店", "周边餐馆", [], false]],
    "messages": [
        {
            "content": "你好,我想找家人均消费在100-150元的餐馆吃驴杂汤这道菜,请给我推荐一家餐馆用餐吧。", 
            "role": "usr", 
            "dialog_act": [
                ["General", "greet", "none", "none"], 
                ["Inform", "餐馆", "人均消费", "100-150元"], 
                ["Inform", "餐馆", "推荐菜", "驴杂汤"], 
                ["Request", "餐馆", "名称", ""]
            ], 
            "user_state": [
                [1, "餐馆", "推荐菜", ["驴杂汤"], true], 
                [1, "餐馆", "人均消费", "100-150元", true], 
                [1, "餐馆", "名称", "", true], 
                [1, "餐馆", "周边景点", [], false], 
                [1, "餐馆", "地址", "", false], 
                [2, "景点", "评分", "4.5分以上", false], 
                [2, "景点", "游玩时间", "3小时 - 4小时", false], 
                [2, "景点", "名称", "", false], 
                [2, "景点", "地址", "", false], 
                [2, "景点", "周边景点", [], false], 
                [3, "景点", "名称", "出现在id=2的周边景点里", false], 
                [3, "景点", "门票", "免费", false], 
                [3, "景点", "评分", "4.5分以上", false], 
                [3, "景点", "周边餐馆", [], false], 
                [4, "酒店", "价格", "400-500元", false], 
                [4, "酒店", "酒店设施-所有房间提供wifi", "是", false], 
                [4, "酒店", "酒店设施-早餐服务", "是", false], 
                [4, "酒店", "名称", "", false], 
                [4, "酒店", "酒店类型", "", false], 
                [4, "酒店", "周边餐馆", [], false]
            ]
        },
        {
            "content": "抱歉,消费价格没有符合您要求的,推荐您去人均消费68元的讲礼驴肉馆用餐。",
            "role": "sys",
            "dialog_act": [
                ["Inform", "餐馆", "人均消费", "68元"],
                ["Inform", "餐馆", "名称", "讲礼驴肉馆"],
                ["NoOffer", "餐馆", "none", "none"]
            ],
            "sys_state": {
                "景点": {
                    "名称": "", "门票": "", "游玩时间": "", "评分": "", "周边景点": "", "周边餐馆": "", "周边酒店": "", "selectedResults": []
                }, 
                "餐馆": {
                    "名称": "", "推荐菜": "驴杂汤", "人均消费": "", "评分": "", "周边景点": "", "周边餐馆": "", "周边酒店": "", "selectedResults": ["讲礼驴肉馆"]
                }, 
                "酒店": {
                    "名称": "", "酒店类型": "", "酒店设施": "", "价格": "", "评分": "", "周边景点": "", "周边餐馆": "", "周边酒店": "", "selectedResults": []
                }, 
                "地铁": {
                    "出发地": "", "目的地": "", "selectedResults": []
                }, 
                "出租": {
                    "出发地": "", "目的地": "", "selectedResults": []
                }
            },
            "sys_state_init": {
                "景点": {
                    "名称": "", "门票": "", "游玩时间": "", "评分": "", "周边景点": "", "周边餐馆": "", "周边酒店": "", "selectedResults": []
                }, 
                "餐馆": {
                    "名称": "", "推荐菜": "驴杂汤", "人均消费": "100-150元", "评分": "", "周边景点": "", "周边餐馆": "", "周边酒店": "", "selectedResults": []
                }, 
                "酒店": {
                    "名称": "", "酒店类型": "", "酒店设施": "", "价格": "", "评分": "", "周边景点": "", "周边餐馆": "", "周边酒店": "", "selectedResults": []
                }, 
                "地铁": {
                    "出发地": "", "目的地": "", "selectedResults": []
                }, 
                "出租": {
                    "出发地": "", "目的地": "", "selectedResults": []
                }
            }
        },
        ......
      	......
      	......
        ],
    "final_goal": [
        [1, "餐馆", "推荐菜", ["驴杂汤"], true],
        [1, "餐馆", "人均消费", "68元", true],
        [1, "餐馆", "名称", "讲礼驴肉馆", true],
        [1, "餐馆", "周边景点", ["小汤山现代农业科技示范园", "小汤山镇"], true],
        [1, "餐馆", "地址", "小汤山镇讲礼村讲礼大队对面", true],
        [2, "景点", "评分", "4.5分以上", true],
        [2, "景点", "游玩时间", "3小时 - 4小时", true],
        [2, "景点", "名称", "八达岭长城", true],
        [2, "景点", "地址", "北京市延庆县京藏高速58号出口右转", true],
        [2, "景点", "周边景点", ["八达岭古长城(残长城)", "八达岭野生动物世界"], true],
        [3, "景点", "名称", "中国长城博物馆", true],
        [3, "景点", "门票", "免费", true],
        [3, "景点", "评分", "4.5分以上", true],
        [3, "景点", "周边餐馆", ["肯德基(八达岭步行街店)", "赛百味"], true],
        [4, "酒店", "价格", "400-500元", true],
        [4, "酒店", "酒店设施-所有房间提供wifi", "是", true],
        [4, "酒店", "酒店设施-早餐服务", "是", true],
        [4, "酒店", "名称", "和颐酒店北京财满街店", true],
        [4, "酒店", "酒店类型", "高档型", true],
        [4, "酒店", "周边餐馆", "无", true]],
}
  • task_id: dialog
    • sys-usr: system annotator ID and user annotation ID.

    • goal: list of tuples, includes:
      • sub-goal id
      • domain name
      • slot name
      • constraint if filled, else requirement
      • whether be mentioned in previous turns
    • message: dialog turns. Each turn contains
      • content: utterance
      • role: user or system side
      • dialog_act: list of dialog act tuples, includes:
        • domain
        • intent
        • slot
        • value
      • user_state: same format as “goal”, can be viewed as dynamic goal
      • sys_state_init: the first db query emitted, records user constraints faithfully. If the system find no result that matches, he/she may relax the constraints manually and search db multiple times.
        • domain: slot-value pairs
        • selectedResults: db search result that would be used in this turn
      • sys_state: the final db query emitted, records the db used by the system in this turn. Note that this may not satisfy all user constraints.
    • final_goal: user state/goal at the end of dialog

    • task description: natural language description of the user goal.

    • type: dialog type.

2.基于知识的对话

与任务型对话有接近之处,在这里将persona profile也划为知识。

2.1 DuRecDial对话推荐数据集

数据链接: https://www.luge.ai/#/luge/dataDetail?id=31

数据大小: 13M,共6618个dialog

数据规模:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
{"kg": 
    [["沈阳", "2018-12-24", "晴, 西南风, 最高气温:2℃, 最低气温:-12℃"], 
    ["糖醋排骨", "成分", "猪肋排、姜片、葱、生抽、糖、醋、料酒、八角。"], 
    ["糖醋排骨", "类型", "热菜"], 
    ["晴, 西南风, 最高气温:2℃, 最低气温:-12℃", "适合吃", "糖醋排骨"], 
    ["大清花饺子(十一纬路店)", "特色菜", "糖醋排骨"], 
    ["大清花饺子(十一纬路店)", "评分", "4.8"], 
    ["大清花饺子(十一纬路店)", "人均价格", "50"], 
    ["大清花饺子(十一纬路店)", "地址", "沈河区十一纬路198号(近南二经街)"], 
    ["大清花饺子(十一纬路店)", "订单量", "1405"]], 
"user_profile": 
    {"职业状态": "工作", "同意的新闻": " 何炅 的新闻", "没有接受的音乐": [" 还有我", "心火烧"], "喜欢的音乐": " 另一个自己", "年龄区间": "大于50", "拒绝": " 电影", "喜欢的明星": " 何炅", "接受的音乐": [" 向前奔跑", "思念的距离", "我是大侦探", "希望爱", "现在爱", "再见", "一路走过"], "居住地": "沈阳", "喜欢的poi": " 大清花饺子(十一纬路店)", "姓名": "陈轩奇", "同意的美食": " 糖醋排骨", "性别": "男"}, 
"conversation": 
    ["[1]今天是什么天气?", 
    "今天沈阳: 晴, 西南风, 最高气温:2℃, 最低气温:-12℃,天气有点冷,注意保暖。", 
    "你知道的真多。", 
    "[2]这种天气温适合吃 『糖醋排骨』了呢。", 
    "糖醋排骨可是我最喜欢的美食,真想现在就去吃糖醋排骨呢。", 
    "[3]我正好知道有一家店,推荐您在 『大清花饺子(十一纬路店)』 订糖醋排骨。", 
    "这家店的地址在哪里?", 
    "这家店的地址:沈河区十一纬路198号(近南二经街)", 
    "人均价格是多少?", 
    "人均价格50元。", 
    "评分是多少?", 
    "评分是4.8", 
    "今天中午12点半我一个人去吃,我预定一下。", 
    "好的,这就为您预定。", 
    "[4]先去准备一下,再见", 
    "好的,再见,祝你生活愉快!"], 
"goals": 
    "[1]问天气(User主动,User问天气,根据给定知识,Bot回复完整的天气信息,User满足并好评)-->[2]美食推荐(Bot主动推荐,这种天气温适合吃 『糖醋排骨』, User接受。需要聊2轮)-->[3]poi推荐(Bot主动,Bot推荐在 『大清花饺子(十一纬路店)』 订 『糖醋排骨』, User问 『大清花饺子(十一纬路店)』 的『人均价格』、『地址』、『评分』,Bot逐一回答后,最终User接受并提供预订信息:『就餐时间』 和 『就餐人数』)-->[4]再见", 
"situation": 
    "聊天时间:2018-12-24 中午12:00,在公司 星期一"
    }

2.2 DuConv知识对话数据集

数据链接:https://www.luge.ai/#/luge/dataDetail?id=30

数据集大小: 训练集:19858 验证集:2000 测试集B:10069(无golden label) 11M

1
2
3
4
5
6
7
8
9
10
11
{

  "goal":{
  ['START', '太空一号', '玛姬 · 格蕾斯'],
  ['太空一号', '主演', '玛姬 · 格蕾斯']
	}
	"knowledge":{
 [['太空一号', '是否 上映', '已 上映'], ['太空一号', '时光网 短评', '浪费时间   建议 观看 。'], ['太空一号', '时光网 评分', '7'], ['太空一号', '类型', '动作'], ['太空一号', '领域', '电影'], ['太空一号', '主演', '玛姬 · 格蕾斯'], ['玛姬 · 格蕾斯', '评论', 'nice 不错  期待 演技 爆发'], ['玛姬 · 格蕾斯', '祖籍', '美国 俄亥俄州'], ['玛姬 · 格蕾斯', '主要 成就', '迷你   特别  最佳 年轻  主角'], ['玛姬 · 格蕾斯', '性别', '女'], ['玛姬 · 格蕾斯', '职业', '演员'], ['玛姬 · 格蕾斯', '领域', '明星'], ['太空一号', '导演', '詹姆斯 · 马瑟'], ['太空一号', '国家', '法国'], ...]
	}
	"conversation": ['一部 法国 电影   玛姬 · 格蕾斯 主演    知道     ?', '不知道   好看      一下 名字  。', '太空一号  非常 不错 。', '嗯   看看  。', '嗯嗯  这部 电影  可是  玛姬 · 格蕾斯 主演  电影  肯定 不会   失望  。', '哦     好看  ?', '她 可是 迷你   特别  最佳 年轻  主角  肯定 漂亮  !', '那   小姐姐   。']
}

2.3 KdConv中文知识对话数据集

数据链接: https://www.luge.ai/#/luge/dataDetail?id=35

数据规模: 训练集:3000 验证集:300 数据大小:2.7M

1
2
3
4
5
{
	"knowledge": [['志明  春娇', '歌曲  长', '4  42 秒'], ['志明  春娇', 'MV 导演', '邝盛'], ['志明  春娇', '音乐风格', '流行 摇滚'], ['志明  春娇', '谱曲', '阿信'], ['志明  春娇', '编曲', '五月天'], ['志明  春娇', '填词', '阿信  闽南语      黄伟文  国语版 )'], ['志明  春娇', '所属 专辑', '第一张 创作 专辑'], ['第一张 创作 专辑', '曲目 数量', '12'], ['第一张 创作 专辑', '音乐风格', '摇滚  流行'], ['第一张 创作 专辑', '制作 人', '五月天  陈建良'], ['第一张 创作 专辑', '发行 时间', '1999  7  7 日'], ['第一张 创作 专辑', '唱片 公司', '滚石 唱片'], ['滚石 唱片', '旗下 艺人', '周华健'], ['滚石 唱片', '成立 时间', '1980 年'], ...]
                
	"conversation": ['你好      志明  春娇   ?', '当然    首歌  时长  4  42    首歌  拍成  MV  。', '是   导演  邝盛  男女 主演     ?', '这  真不知道  不过  首歌  流行 摇滚 风格     喜欢    知道    作曲   ?', '作曲  阿信  编曲  五月天   知道   作词   ?', '是 阿信  闽南语      黄伟文  国语版    首歌  哪张 专辑    ?', '《 第一张 创作 专辑  里面   这张 专辑     ?', '听过  里面 共收录  12 首歌  不过 这张 专辑  风格   喜欢 。', '对  摇滚      喜欢    知道   制作     ?', '五月天  陈建良 。', '哦  五月天  参与  制作         发行   ?', '1999  发行    知道   成绩 如何 ?', '那  知道  不过 他们      阳光  。', '那  首歌   哪家 公司   ?', ...]
}

2.4 中文画像对话(Chinese Persona Chat)数据集

数据链接:https://www.luge.ai/#/luge/dataDetail?id=38

数据大小: 38M

与PersonaChat数据集

1
{"p1_persona": ["这 是 我 在 国家队 的 第二年", "我 在 国家队 打球", "这个 赛季 , 我 将 成为 季后赛 的 四分卫", "我 在 上 个 赛季 刚 加入 战队"], "p2_persona": ["我 是 男性", "我 离婚 了 带 着 一个 孩子", "我 喜欢 安静", "我 40岁 了"], "conversation": ["p1 : 你好 。", "p2 : 嗨 , 在 干 吗 呢 ?", "p1 : 我 正在 训练馆 练习 呢 。", "p2 : 训练馆 ? 练 的 什么 呀 ?", "p1 : 正在 练 球 呢 , 橄榄球 。", "p2 : 哈哈 , 我 太 不懂 这个 , 你 打的 很好 吧 ?", "p1 : 一般 啦 , 不过 我 刚 进 国家队 没多久 。", "p2 : 哇 , 国家队 呀 , 那 你 肯定 很 出名 。", "p1 : 哈哈 , 也 没有 啦 , 谢谢 你 的 夸奖 。", "p2 : 不过 我 记得 橄榄球 是 有很多 身体 对抗 的 吧 ?", "p1 : 是 啊 , 和 大部分 运动 不同 , 是 有很多 的 身体 接触 的 。", "p2 : 那 会不会 很容易 受伤 啊 ?", "p1 : 没关系 的 , 有 护具 的 , 只要 小心 一点 就 没事 。", "p2 : 嗯 , 如果 不是 还 得 照顾 孩子 , 我也想 去 锻炼身体 。", "p1 : 是 吗 ? 你 有 孩子 了 呀 ?", "p2 : 嗯 , 是 的 , 我 今年 都 40 了 , 哈哈 。"]}

2.5 Tencent中文开放域对话数据集

腾讯的数据集有knowledge,但感觉很奇怪。单轮的。

数据链接:https://www.luge.ai/#/luge/dataDetail?id=36

数据大小:543 M

{“response”: “缘分 就是 偶然”, “knowledge”: [“什么 是 缘分”, “思想 的 交流 就是 缘份 , 哪怕 只 看 一眼 对方 后 的 双方 有 思维 活动 , 到 相识 相爱 等 都 是 缘份”], “history”: “什么 是 缘分”}

3. 开放域对话

开放域对话,只有对话。

3.1 CPED中文个性情感对话数据集

数据集大小:3.6 M

会标注当前用户的性别,年龄,等信息以及当前用户的情感,DA等。

TV_ID Dialogue_ID Utterance_ID Speaker Gender Age Neuroticism Extraversion Openness Agreeableness Conscientiousness Scene FacePosition_LU FacePosition_RD Sentiment Emotion DA Utterance
1 01_000 01_000_000 童文洁 female middle-aged high high low low high other-venue 108_136 156_202 neutral neutral greeting 真巧
1 01_000 01_000_001 童文洁 female middle-aged high high low low high other-venue 193_144 253_197 neutral neutral greeting 车没事了
1 01_000 01_000_002 刘静 female middle-aged low high high high high other-venue 0_0 0_0 neutral neutral answer 是你呀 没事了没事 谢谢你
1 01_000 01_000_003 童文洁 female middle-aged high high low low high other-venue 0_0 0_0 neutral neutral question 没事没事 你也去春风

3.2 Emotional STC (ESTC)情感对话数据集

数据链接:https://www.luge.ai/#/luge/dataDetail?id=37

1
{"knowledge": [5, 2], "history": "国庆 什么 时候 出来 浦 啊 妞 。", "response": "可怜 我 只能 在 宿舍"}

3.3 豆瓣中文开放域对话数据集

数据集大小:145 M

训练集:500000, 验证集:25001 (已划分对话历史与回复,样本级别)

1
2
3
4
5
6
{
		"history": 
		['怎么  眉毛  睫毛', '涂  结果 眉毛 出现 好多  豆豆 怎么 回事 啊', '我 也是       元素 话说   一瓶     但是  有用 的说 眉毛   不少 不过 还是  粗细  软软  最近    很多   疙瘩     怎么   不要 继续  呢', '生  元素 是什么  · · · ·   出来  好啊 · · · 到时候 自己 修修 眉形  好啦 · · ·     一段 时间  下去     · · ·  告诉  在哪里   多少钱  谢谢 啦']
		"response":
		'就是         pinkbaby   元素 三百    一瓶   真的 有效 会长 出来 不是 激素  介绍    21  活性 蛋白质   现在 有点  豆豆 不知道 是不是     出来  而且 还没    理想  样子    喜欢 浓眉大眼   可能   自己 本身    问题   毛发 都是 细细 软软  头发 也是 所以           想要    啊'
}

3.4 NLPCC 2018 Task 5: Multi-Turn Human-Computer Conversations

截屏2022-07-21 下午3 51 39

数据链接:http://tcci.ccf.org.cn/conference/2018/dldoc/trainingdata05.zip

3.5 LCCC开放域短文本对话数据集

数据链接:https://www.luge.ai/#/luge/dataDetail?id=34

数据集大小:607 M

1
['怎么 不喊 我', '忘记 了 呵呵', '从来 就 没 记住 过']