分析印度杂志
现在读
谷歌AI发布细粒度情感数据集“GoEmotions”
分析印度杂志

谷歌AI发布细粒度情感数据集“GoEmotions”

  • GoEmotions数据集是一个带有人类注释的数据集,包含58k Reddit和27个情感类别

谷歌AI已经发布GoEmotions.它是一个有58,000人注释的数据集Reddit从红迪网流行的英语字幕中提取并贴上标签的评论27情感类别;它包括12个积极的情绪类别,11个消极的情绪类别,4个模糊的情绪类别和1个中性的情绪类别。这家科技巨头在设计GoEmotions分类法时考虑了心理学和数据适用性。

早期用于情绪分析的数据集太小,只使用了六种基本情绪——愤怒、惊讶、厌恶、喜悦、恐惧和悲伤。

GoEmotions分类法希望做到这一点

  • 提供了对Reddit数据中表达的情绪的最大覆盖
  • 提供最好的情绪表达类型的覆盖
  • 限制情绪的总数和它们的重叠

Reddit被选为生成该数据集的资源,因为它提供了公开可用的、具有直接用户对用户对话的大量内容。

GoEmotions到底是什么?

以下步骤都参与其中:

  • 选择和管理Reddit评论-它使用来自Reddit数据工具项目的Reddit数据转储。谷歌使用Reddit从2005年到2019年1月的评论,来自至少1万条评论的reddit子版块。它排除了已删除的和非英语的评论。

但Reddit也有自己的问题。它有一个已知的人口统计学倾向于年轻男性用户这并不能反映出全球人口的多样性。它还倾向于有毒的,攻击性的语言.为了解决这个问题,研究人员确定了使用预定义术语的有害评论,其中包含冒犯性的、成人的和低俗的内容,以及身份和宗教的内容。它被用于数据过滤和屏蔽。

为了减少脏话的使用研究人员删除了对工作不安全的看板,以及10%的评论带有攻击性和低俗符号的看板。他们保留了粗俗的评论,因为他们帮助了解负面情绪。他们审查了身份评论,并删除了针对特定种族、性别、性取向或残疾的攻击性评论。

  • 过滤的长度-研究人员应用了自然语言工具包(NLTK)的单词标记器,并选择了长度为3-30个标记的评论,包括标点符号。他们进行了向下抽样,并以标记的中值计数的注释数量为上限。然后,他们运行了一个情绪预测模型,对2200个注释示例进行了训练。他们排除了超过30%的中立评论或少于20%的负面、正面或模棱两可的评论。

图片:谷歌

他们使用上面描述的试点模型将情绪分配给每个评论。在那之后,他们通过对标记较弱的数据进行抽样,限制属于情绪中位数的评论数量,从而减少了情绪偏差。为了避免热门版块的过度呈现,他们进行了向下抽样,受版块数量中值的限制。他们从剩下的315000条评论和482个看板中随机抽取样本进行注释。

另请参阅

  • 屏蔽-他们用[NAME] token和[religion] token掩盖了专有名称和宗教,使用了变形金刚的双向表示法(伯特基于命名实体标记器)。评级者在评级过程中查看了未隐藏的评论。

图片:谷歌

主保留成分分析

研究人员对数据应用了主保存成分分析(PPCA)。PPCA检验的是数据集之间的交叉协方差,而不是单一数据集内的方差-协方差矩阵。

结果

图片:谷歌

对于所有尺寸,每个组件的p值< 1.5e-6是显著的。这表明,每种情绪都捕捉到了数据的一个独特部分。尽管在分类法中没有预定义的情感概念,但根据情感相关的情感会聚集在一起。同样地,情绪的强度相关,如悲伤和悲伤,烦恼和愤怒,也紧密相关。

你怎么看?

订阅我们的通讯

通过分享你的电子邮件获得最新的更新和相关的优惠。
加入我们的Telegram Group。成为一个有吸引力的社区的一部分

188BET网页

滚动到顶部
Baidu