情感计算
摘要:情感计算作为⼀个全世界范围内的学术热点,研究⽅向遍及⼼理学、⽣理学、神经科学、语⾔学、医学、社会学等学科。情感计算的研究使形式化的机器更加形象化,是实现⾃然⼈机交互的前提。本⽂结合近⼏年情感计算的国内外研究,基于新的层⾯对主要研究以及最新应⽤进⾏了归纳总结,并就情感计算进⾏深度探究,使更多研究⼈员了解情感计算最新研究⽅向。
余弦定理教学设计
关键字:情感计算,情感识别,⼈机交互,情感复杂性支气管炎吃啥药好
⼀.引⾔
⼤约半个世纪前,美国⼼理学家“认知⼼理学之⽗” 奈瑟尔(Neisr Ulrich)描述了⼈类思维的三个基本和相互联系的特征,这些特征在计算机程序中也明显存在着:“1.⼈类的思维总是随着成长和发展过程积累,并且能对该过程产⽣积极作⽤;2.⼈的思想开始于情绪和情感的永远不会完全消失的密切关系中;3.⼏乎所有的⼈类活动,包括思维,在同⼀时间的动机具有多样性⽽不是单⼀的”。Herbert A. Simon在表达了相似的观点。尽管情绪和情感是⼈类⽇常⽣活中的基本组成部分,但缺乏情感交互的技术是另⼈沮丧的,它在技术层⾯实现⾃然的⼈机交互仍是⼀个亟需解决的问题。⽬前,情感计算越来越受到研究者的重视。类似研究,有⼈⼯情感(artificial
emotion,AE)、感性⼯学(kaniengineering, KE)、情感神经学(affectiveneuroscience)等。明斯基在他的著作和论⽂中强调了情感⽅⾯,⼤量关于数据⼿册涉及情感神经科学、情感⼼理学等⽅⾯。IEEE Transactionon Affective Computing(TAC)跨学科、国际化期刊、Affective Computing and IntelligentInteraction (ACII) 学术会议等学术⽀持⿎励研究者们对识别、诠释、模拟⼈类情绪和相关情感⽅⾯的研究的突破和创新。
⼆.情感及情感计算
2.1 情感相关概念的界定
情感( emotion) ⼀词源于希腊⽂“pathos”,最早⽤来表达⼈们对悲剧的感伤之情。达尔⽂(Darwin)认为,情感源于⾃然,存活于⾝体中,它是热烈的、⾮理性的冲动和直觉,遵循⽣物学的法则。理智则源于⽂明,存活于⼼理。《⼼理学⼤辞典》中定义“情感是⼈对客观事物是否满⾜⾃⼰的需要⽽产⽣的态度体验”。马⽂明斯基认为情感是思维的⼀部分。史蒂芬平克也持有这样的观点,即“情感是被当作⾮适应的包袱⽽被过早的注销的另⼀部分⼼智”。Damasio在他的神经⽣物学的研究结果的基础上将情感⾄少分为两类,即原发性情感和继发性情感。原发性情感这类情感被认为是与⽣俱来的,被理解为⼀岁⼉童情感这种典型的情感类型,继发性情感被假设为从更⾼的认知过程中产⽣。⽽Rusll则从两个⽅⾯构造情感:核⼼情感和⼼理建构,前者表⽰神经系统的状态,如昏昏欲睡;后者表⾏动,如
⾯部表情、⾳调,以及⾏动之间的关联。由于情感的复杂性,研究情感的相关学者对情感的定义⾄今也未达成⼀致,记载的相关理论就有150多种。
⽽“emotion”⼀词由前缀“e”和动词“move”结合⽽来,直观含义是从⼀个地⽅移动到另⼀个地⽅,后来逐渐被引申为扰动、活动,直到近代⼼理学确⽴之后,才最终被詹姆斯(William James)⽤来表述个⼈精神状态所发⽣的⼀系列变动过程。Picard曾在其书中专门对情感和情绪⽅⾯术语进⾏了区分,她认为相对情感⽽⾔,情绪表⽰⼀个⽐较长的情感状态。情感影响我们的态度、情绪和其他感觉、认知功能、⾏为以及⼼理。同时情感容易在多次情绪体验的基础上实现,当⼈们多次觉得完成⼀项任务很⾼兴,就会爱上这个任务。相⽐情绪⽽⾔情感更具有深刻性和稳定性。在⾃然语⾔处理中,Myriam D等⼈结合韦⽒字典以及他们的相关研究得到的结论是,在语⾔中情感是⽆意识的,并且很难将其定义,从⽂本中可以检测到的是有意识的情感,是情绪表征。⽽情绪这⼀复杂⼼理学现象⼏乎不能从⽂本中全部检测出,能检测到的是情绪的构成因素。许多关于情感计算的研究并没有完全区分情绪和情感(包括本⽂引⽤的⼤部分论⽂),为与情感计算研究领域保持⼀致,本⽂除在此处对情感和情绪进⾏区别说明外,尽可能的统⼀使⽤情感⼀词。
2.2 情感计算
契诃夫作品情感计算最早起源于美国MIT 媒体实验室⽪卡德(Picard)了解Richard Cytowic的⼀本关于联觉的书
《The Man Who Tasted Shapes》。Cytowic在书中提出感知⼀定程度上由⼤脑边缘系统处理,这个部分处理注意、记忆和情感。1995年情感计算的概念由Picard提出,并于1997年正式出版《Affective Computing(情感计算)》。在书中,她指出“情感计算就是针对⼈类的外在表现,能够进⾏测量和分析并能对情感施加影响的计算”,开辟了计算机科学的新领域,其思想是使计算机拥有情感,能够像⼈⼀样识别和表达情感,从⽽使⼈机交互更⾃然。
当然,和众多的科学研究领域⼀样,并不是所有的研究者都同意Picard的想法。这些⽀持者Sengers、Gaver、Dourish和Kristina Hook 借鉴现象学并且把情感看作⼈与⼈、⼈与机互动中的成分。情感互动⽅法认为应从⼀个对情感建设性的、⼈⽂决定性视⾓展开,⽽⾮从认知和⽣物学这⼀更传统的⾓度出发,这种⽅法将重点放在使⼈们获得可以反映情感的体验并以某种⽅式来修改他们的反应。
三.情感计算的探究
猴和兔3.1 情感复杂性的探究
(1)外在复杂性的探讨
人生规划怎么写
相⽐其他情感表征(⼿势、步伐、声⾳等)⾯部表情是最容易控制的 。⾯部表情是⼈脸上不同情绪的
反应,实际上表达情绪时是脸部、眼睛或⽪肤肌⾁位置的变化。对情感最容易理解的是坦率的⾯部表情,然⽽不同国家的⼈⾯部表情各不相同。相对于其他国家,亚洲⼈民的⾯部表情强度⽐较低。因为在亚洲⽂化中,脸上表现出⼀些特殊情绪是不礼貌的。展现出消极情绪会影响社会的和谐。这也印证了早期埃克曼证明了⽂化的最⼤不同在于,如何在公共场合表达情绪。他偷偷拍摄了美国留学⽣和⽇本学⽣观看⼀次原始成年⼈礼的可怕画⾯的表情。如果穿⽩⼤褂的实验⼈员对他们进⾏集体访谈,⽇本学⽣会在看到令美国学⽣吓得往后退缩的场景时仍礼貌的⾯带微笑。当被试们单独呆在房间⾥时,⽇本留学⽣与美国学⽣⾯部表情都是同样恐惧的。对于外在复杂性,研究者采⽤的⽅法多为多模态结合,额外信息叠加、以及结合与时代同步的科技产品⽅法等来提⾼识别率。
Beaudry, Olivia等⼈的设计实验澄清六种基本情感识别中眼睛(眉⽑)和嘴巴区域的作⽤,并得出的结论是对于所有的情绪,⾯部表情识别过程不能被简化为简单的特征或整体处理。新加坡国⽴⼤学电⽓⼯程系的Gu W等⼈利⽤⼈类视觉⽪层(HVC)和径向编码来提⾼性能,并提出混合⾯部表情识别框架。此⾯部表情的识别框架也可以应⽤到体态识别,并且还可以从图像提取出⼀些额外的信息如:⽤户的年龄、性别。
但是⼈与⼈之间的情感交互是复杂的,单⼀的感官得到的数据是模糊的、不确定的、不完备的。因此研究⼈员们应⽤多种⽅式识别情感状态,20世纪90年代最初的⽅式是融合视觉(⾯部表情)和⾳频(⾳频信号)的数据,多种⽅式整合提⾼识别精度,使情感计算相关研究更可靠、更有效。陈等⼈尝
试⾝体姿势和⾯部表情识别混合模型,基于澳⼤利亚悉尼科技⼤学的⼈脸和⾝体姿势(FABO)双模数据库,实验中选择了284个视频,这些视频包含了基本表达(嫌恶、害怕、⾼兴、惊讶、悲伤、⽣⽓)和⾮基本的表达(焦虑、⽆聊、困惑、不确定)。实验框架主要分为五部分:⾯部特征提取和表⽰,⾝体姿态特征提取和表⽰,表达时间分割,时间归⼀化,表达分类。
⾝体姿势交流同⾯部表情都属于⾮语⾔交流的⽅式。越来越多不同学科的研究已经表明,在传达情感⽅⾯,⾝体的表达像⾯部表情⼀样强⼤。40个⽤户通过三个不同的界⾯(接⼝)观看智能电视,远程控制器、姿势识别、语⾳识别系统和表情识别系统。情感计算提取⼈体⼿势的特征来识别⽤户的情绪。同时,虚拟现实(Virtual Reality,VR)技术的发展,⼈机交互中肢体的参与度也逐渐增⼤,⾝体姿势不仅控制我们和游戏之间的互动,还会影响我们⾃⼰的情绪。蓝眼睛(BLUE EYES)技术,“蓝”代表实现可靠的⽆线通信的蓝⽛,“眼
睛”是由于眼睛运动是我们获得更多有趣和重要的信息。蓝眼睛技术主要⽤于:视觉注意监测;⽣理状态监测(脉搏率,⾎氧);操作者的位置检测(站⽴,卧,坐)。在这项技术中,检测到⼈的表情,捕获图像,并且提取显⽰眼睛的部分。
(2)内在复杂性的探讨
⽂本句⼦中每⼀个形容词、动词、或者仅仅是⼀个字都可以表达情感状态。笔记分析技术不仅可以通
过书写者的情感输出分析笔记特征如:基线、倾斜、笔压、⼤⼩、边缘区。它还可以揭⽰书写者的健康问题、道德问题、过去的经历、精神问题以及隐藏的才能。Sofianita Mutalib等⼈发现笔记分析在某种程度上帮助我们理解书写者本⼈的⾏为、动机、欲望、恐惧、情感投⼊等多⽅⾯。史伟等通过构建情感模糊本体,计算⽂本影响⼒等,对微博公众情感进⾏⼀系列分析,发现公众对于突发事件的情感表达与政府对于事件处理⽅式和⼿段有密切关系。使⽤任何⽂字表达情感是受⽂化影响的,⽂化在情感⽂本表达中的作⽤这⼀问题需要⾃然语⾔研究者们创造更强⼤的检测算法。
戴维森(R J Davidson )在2002年领导的团队,情感体验并不是简单地发⽣在我们的头脑中,我们的整个⾝体都在感知着它们。例如,我们的⾎液中激素变化,传达到肌⾁的神经信号紧张或放松,⾎液流到⾝体的不同部位,改变了⾝体的姿势、动作和⾯部表情。我们⾝体的反应也会反馈到我们的⼤脑中,创造了可以反过来调节我们思维的经验,这也反馈到我们的⾝体上。随着科技的发展,许多数据可以从互联⽹和智能⼿机获得。⼀个典型的智能⼿机包含多个传感器等内部运动(加速度计)、环境光、陀螺、⼿势、磁强计、温度和湿度和⽓压计。常见于智能⼿机的通信接⼝,Wi-Fi、GPS、近场通信(NFC)、蓝⽛和红外(IR)的LED。许多额外的传感器可⽤于⽣理测量。Jorge Alvarez-Lozano 等研究⼈员通过捕获包括输⼊和输出呼叫频率、持续时间和联系⼈的详细信息等智能⼿机的活动,分析患者的⾏为变化。测量上⽹活动包括:搜索查询、浏览⽹页、⽹站类型、⼴告选择和电⼦商务史等。⽤户创建的数据,如电⼦邮件,短信(短信),社会媒体,或博客的内容可以分析。此外,元数
据(信息的信息)是由⼀个智能⼿机或互联⽹,其中包括帐户号码,登录⽤户名,密码,浏览器类型,⽹络地址,⽹页访问,⽇期,时间,电⼦邮件发送者和接收者,饼⼲,设备的指纹。Kaveh Bakhtiyari等⼈认为在处理⾯部表情、⼈的声⾳或⼈的姿势时,有些权衡识别精度和实时性能的⽅法,像⾃然语⾔处理(NLP)和脑电图信号(EEG)这些⽅法在实际应⽤中缺乏效率和可⽤性。因此提出了使⽤⽅便和低成本的输⼊设备,包括键盘、⿏标(触摸板、单触摸)和触屏显⽰器。该系统通过⼈⼯神经⽹络(ANN)和⽀持向量机(SVM)技术开发和训练监督模式。结果表明,与现有⽅法相⽐,该⽅法通过svm增长6%的准确度(93.20%)。对于情感识别、⽤户建模和情感智能都起到了突出贡献。合纵连横
3.2 情感计算的最新应⽤探究
近⼏年研究者们尝试了各种各样的⽅法和技术来识别⽤户的情感,⼀些主要的⽅法和技术有:⾯部表情识别、姿态识别、⾃然语⾔处理、⼈体⽣理信号识别、多模情感识别、语⾳识别。⼈机情感交互则包括⼈脸表情交互、语⾳情感交互、肢体⾏为情感交互、⽂本信息情感交互、情感仿⽣代理、多模情感交互。情感仿⽣代理使计算机增强表现⼒和亲和⼒,情感智能系统可以根据⼈的情感进⾏回馈,并且使⼈和计算机的交互更加⾃然。
全世界学多实验室都在积极的对情感计算相关技术进⾏研究,本部分总结近三年国内外情感计算主要
的应⽤研究。2014年MIT实验室的AutoEmotivethe通过安置在机器⽐如汽车上的硬件设备(如相机等)结合基于程序语⾔的语⾳识别应⽤、可穿戴设备(对当前情绪进⾏实时调节),尤其是⾯部识别算法,获取⼀系列情绪指标,弥补获取⽣理信号类的传感器的不⾜,探索情感感知与机器连接的潜⼒。Affectiva公司的Affectiva使⽤计算机视觉和深度学习技术分析⾯部(微)表情或⽹络上视觉内容中⾮语⾔的线索,基于积累的庞⼤数据存储库,学习识别更复杂的系统,将情感⼈⼯智能引⼊到新的科技领域,尤其是机器⼈、医疗、教育和娱乐,并展望将此系统⽤于通过检测癫痫病患者的情感信号来做好发病前的预测以进⾏防护准备等。2015年阅⾯科技推出了情感认知引擎:ReadFace。由云(利⽤数学模型和⼤数据来理解情感)和端(SDK)共同组成,嵌⼊任何具有摄像头的设备来感知并识别表情,输出⼈类基本的表情运动单元,情感颗粒和⼈的认知状态,⼴泛应⽤于互动游戏智能机器⼈(或智能硬件)、视频⼴告效果分析、智能汽车、⼈⼯情感陪伴等。国内⼤学中哈尔滨⼯业⼤学机器⼈技术与系统国家重点实验室实现语⾳情感交互系统,提出了智能情感机器⼈进⾏情感交互的框架,设计实现了智能服务机器⼈的情感交互系统。北京航空航天⼤学基于特征参数的语⾳情感识别并能有效识别语⾳情感。中国科学技术⼤学基于特权信息的情感识别,提出了融合⽤户脑电信号和视频内容的情感视频标注⽅法,以某⼀模态特征为特权信息的情感识别和视频情感标注⽅法。清华信息科学与技术国家实验室,中国科学院⼼理研究所⾏为科学院重点实验室基于⽣理⼤数据的情绪识别研究进展,针对使⽤DEAP数据库(⽤⾳乐视频诱发情绪并采集脑电及外周⽣理信号的公开数据库)进⾏情绪识别的16篇⽂章做了梳理;对特征提取、数据标准化、降维、情绪分类、交叉检验等⽅法做了详细的解释和⽐较。
四.情感计算的深度探究
现在已实现的情感计算⼤部分原型情感的识别来源单⼀。数据库本⾝存在短板,如训练分类的样本数少,体态识别⼤多依赖于⼀组有限的肢体表达(跳舞、⼿势、步态等),只关注内部效度⽽缺少外部效度的认可效。因此识别⽅⾯,未来研究应在情感分类⽅⾯继续努⼒,创建新的数据库,等特别是婴幼⼉及⼉童数据库的建⽴。
神经科学⽅⾯,⼈类⼤脑情感过程的神经解剖学基础极其复杂并且远未被理解,因此该领域还不能为开发情感计算模型提供充⾜的理论基础。
⼈机交互或⼈与⼈交互过程中,⼈的情感变化是变速的。虽然⽪卡德(Picard)在《情感计算》⼀书中分别⽤两个⽐喻将情感复合分成两类:微波炉加热⾷物时开关间断循环与冷热⽔混合。两者通过不同⽅式的复合使物体达到“温”的状态,前者类似于“爱恨交加”情感对的情感状态,后者类似于Rusll等⼈的环形情感模型中的愉快与低强度结合为轻松这种新状态。但基于不同情境下的情感复合远不⽌这两类。以动态的数字平台将这种做成模型很难实现和验证,因为情感的输⼊、输出应该在不同的情境下产⽣和测试。
瓜子黄杨盆景⽬前国外已经有⼀部分研究者开始关注深度情感计算⽅⾯的研究,如Ayush Sharma等⼈利⽤语⾔数据联盟(Linguistic DataConsortium,LDC)中的情绪韵律的语⾳和⽂本,基于交叉验证和引导的韵律
特征提取与分类的深层情感识别。随着后续情感⽅⾯的深度研究,多模型认知和⽣理指标相结合、动态完备数据库的建⽴以及⾼科技智能产品的加⼊等成为情感计算相关研究的⼀个趋势,从⽽更好地实现对⽤户⾏为进⾏预测、反馈和调制,从⽽实现更⾃然的⼈机交互。
参考⽂献
说梦