DAIC-WOZ抑郁评估数据格式

DAIC-WOZ数据库是抑郁分析访谈语料库(Distress Analysis Interview Corpus, DAIC) 的一部分,该语料库主要包含临床访谈记录,旨在支持对焦虑、抑郁和创伤后应激障碍等心理困扰状况的诊断。这些访谈数据被收集起来,作为训练一个计算机代理的数据。该代理能够自动对人们进行访谈,并在语言(verbal)和非语言(nonverbal)指标上识别精神疾病。收集的数据包括音频和视频记录以及大量的的问卷回答;这部分语料库包括一个名为Ellie的动画虚拟面试官主持的Oz访谈,由另一个房间里的真人面试官控制。数据已被转录和注释的各种语言的和非语言的特征。

Data description

数据包中包含编号300-492、共189个数据样本(其中 342,394,398,460 因技术原因被移除)。数据包格式如下:

1
2
3
4
5
6
7
8
9
10
Pack\
300_P
301_P
...
492_P
util
documents
train_split.csv
dev_split.csv
test_split.csv

部分样本需要提醒:

  • 373 - 在5:52-7:00有一个中断,助手进入房间解决一个小的技术问题,会议继续进行并结束。
  • 444 - 在4:46-6:27左右有一个中断,参与者的手机响了,助手进入房间帮助他们关机。
  • 451,458,480 - 会话在技术上是完整的,但是缺少了Ellie(虚拟人类)部分的记录。参与者的成绩单仍然包括在内,但没有面试官的问题。
  • 402 - 视频结尾被删减了约2分钟。

train_split_Depression_AVEC2017.csv:该文件包含参与者id、PHQ8二进制标签(PHQ8得分>= 10)、PHQ8得分和参与者性别,以及PHQ8问卷的每个问题的唯一回答。详细信息参见documents文件夹下的scherer_etal2015_VowelSpace.pdf。

dev_split_Depression_AVEC2017.csv:同上。

test_split_Depression_AVEC2017.csv:仅包含id和性别。

每个样本文件夹下文件组织如下:

1
2
3
4
5
6
7
8
9
10
11
XXX_P\ 
  XXX_CLNF_features.txt
  XXX_CLNF_features3D.txt
  XXX_CLNF_gaze.txt
  XXX_CLNF_hog.bin
  XXX_CLNF_pose.txt
  XXX_CLNF_AUs.csv  
XXX_AUDIO.wav
  XXX_COVAREP.csv
XXX_FORMANT.csv
XXX_TRANSCRIPT.csv

util文件夹组织如下:

1
2
3
util\ 
  runHOGread_example.m
  Read_HOG_files.m

File description and feature documentation

这部分表述的是每个样本文件夹下各个文件的作用。

1 CLNF framework output

这部分是由CLNF人脸关键点检测算法输出的数据,包括以下文件:

  • XXX.CLNF_features.txt
    • 包含68个2D人脸关键点;
    • 文件格式:frame, timestamp(seconds), confidence, detection_success, x0, x1,…, x67, y0, y1,…, y67。分别表示 帧、时间点、置信度、是否检查成功,各个关键点坐标;
    • 值之间由逗号分隔,虽然后缀是txt但应该当作csv文件处理。
  • XXX_CLNF_AUs.csv
    • AU表示Action Unit,是面部表情编码系统(Facial Action Coding System, FACS)的运动单元。每一个AU代表一个表情元素;
    • 文件格式:frame, timestamp, confidence, success, AU01_r, AU02_r, AU04_r, AU05_r, AU06_r, AU09_r, AU10_r, AU12_r, AU14_r, AU15_r, AU17_r, AU20_r, AU25_r, AU26_r, AU04_c, AU12_c, AU15_c, AU23_c, AU28_c, AU45_c。其中AUX_r表示该面部包含该AU的概率,而AUX_c则用二值表示是否包含该AU。
  • XXX.CLNF_features3D.txt
    • 包含68个3D人脸关键点;
    • 格式与2D的类似,只是多了个坐标轴。以摄像机为坐标(0,0,0),单位为毫米。
  • XXX.CLNF_gaze.txt
    • 文件包含4个视线向量。前两个表示以世界为坐标空间,双眼的视线向量;后两个表示以头为坐标空间,双眼的视线向量。
    • 文件格式:frame, timestamp(seconds), confidence, detection_success, x_0, y_0, z_0, x_1, y_1, z_1, x_h0, y_h0, z_h0, x_h1, y_h1, z_h1
  • XXX.CLNF_hog.bin
    • Felzenswalb’s HoG
  • XXX.CLNF_pose.txt
    • pose文件包含两个坐标,X,Y,Z是位置坐标,Rx,Ry,Rz是头部旋转坐标。位置是以毫米为单位的世界坐标,旋转是以弧度和欧拉角为单位的(为了得到一个合适的旋转矩阵,使用R= Rx Ry Rz)。
    • 文件格式:frame_number, timestamp(seconds), confidence, detection_success, X, Y, Z, Rx, Ry, Rz

2 Audio file

  • XXX_AUDIO.wav
    • 耳机录音频率为16kHz。音频文件中可能包含少量虚拟面试官的信息,在处理时使用记录文件(transcript files)来缓解这个问题。

3 Transcript file

  • XXX_TRANSCRIPT.csv

4 Audio features

  • XXX_COVAREP.csv
  • XXX_FORMANT.csv
-------------本文结束感谢您的阅读-------------