• 西湖公园新闻网
  • 您的位置:首页 >> 国内新闻 >> 正文

    内容 AI:建立统一的跨媒体多模态内容理解内核

    发表时间:2020-03-13 信息来源:www.art369.com.cn 浏览次数:1896

     

    Author:zixunsun

    tencent.com

    Jeff Dean谈论2020年机器学习的趋势:多任务和多模式学习将成为突破

    2019年末,CDG广告、CSIG音频和视频、IEG内容推荐、PCG信息流、TEG数字广告推荐、人工智能平台团队和WXG查看团队与内容技术专家的交流。在处理内容理解任务时,每个人都需要集成多模态特性来理解内容。同时,每个人都有良好的技术能力和研发经验。

    我们希望建立一个统一的跨媒体多模态内容理解内核,快速完成新内容理解任务的0-1步积累,提高模型实践的加速度,降低试错成本,扩大知识圈,并通过Oteam运行机制在公司的内容算法团队之间分享经验。(如果你感兴趣,你可以参加交流和讨论)。

    技术背景

    我们所处的环境本身就是多模态环境。为了更好地理解环境,人工智能需要分析多模态信息的能力。模态学习可以建立一个可以处理和连接多模态信息的模型。在内容理解领域,要分析的模式包括对应于文本、图片、视频和声音的不同级别的特征。其他辅助描述特征等。

    当前的多模态技术着陆与特定任务密切相关。随着深度学习技术的发展,不同的研究者在执行内容理解任务时会添加更多的模态特征,并试图通过改进网络结构来获得更好的数据性能。然而,根据近年来对不同任务下的多模态学习的研究,学者们更多关注多模态网络结构设计,而较少关注不同动作下模型学习能力、任务和数据集之间的相关性研究(例如,在游戏视频和体育视频的动作序列识别任务中如何选择语音特征和光流特征的融合方法)。

    多模态学习研究的所有方向都可能对最终任务绩效产生影响,这些方向之间的影响和联系需要进一步分析。目前,各方向都没有统一模型下的实验挖掘或自动分析,这使得很难将研究成果完全重用到其他任务上进行改进。

    Technology Direction

    Content Team Content Understanding Algorithm应不断升级,多模态学习技术应不断升级,通用框架技术具有必要的研究和良好的登陆价值,它可以提高模型技术和业务指标的性能,提高基于内容理解能力的构建效率。模型层次可以从以下几个方面深化:1 .表示:当多种模式同时存在时,不同级别的特征信息(如句子含义、句法和文本中的单词特征)被动态地用于特定任务。视觉中的语义、边缘和颜色特征),使用注意机制来选择特征;利用通过使用生成的对策网络来分离形式和内容的能力。2.融合:支持不同融合策略的比较,融合动作本身可以支持动态适应;研究了序列特征和非序列特征的映射对齐策略。3.协作:通过协作学习,可以实现多种模式之间的有效信息传递;结合多任务学习,增强了原始模型的表示能力,降低了过拟合风险,适应了随机噪声。

    相关任务

    1)内容结构分析:视频类别:视频分类[15-18],视频语义标签,片段重要性/突出评价[25-27],视频质量评价,视频动作序列分析;文本分类:

    Text标签,文本分类,文本主题词提取,文本情感分析[19,20]。

    (2)内容质量评估:图片和文本质量评级,虚假新闻检测[21-23),主题方检测[28,29]。

    (3)内容创作生成:视频和图像描述[11,12,14],视频VQA[13],问答生成[32]。比如场景任务作为内容平台任务的底层框架。

    特别是在内容质量评估领域:色情、赌博、迷信、暴力、低俗等内容识别和检测任务密切相关,单个内容可能有mu

    单峰表示负责将信息表示为可由计算机处理的数字向量,或者将其进一步抽象为更高级别的特征向量。多模态表示是指通过利用多模态间的互补性消除模态间的冗余来学习更好的特征表示。

    研究方向:

    联合表示,将多模态信息一起映射到一个统一的多模态向量空间;

    协调表示,将多模态中的每个模态映射到其自己的表示空间,然而,映射的向量满足某些相关约束(例如,线性相关)

    (联合表示)使用深度玻尔兹曼机器的多模态学习(NIPS 2012)建议将深度玻尔兹曼机器(DBM)结构扩展到多模态域,并且多模态的联合概率分布可以通过多模态DBM来学习。

    在获得图像和文本之间的联合概率分布后,在应用阶段,我们输入图片并使用条件概率P (text | picture)生成文本特征,从而获得图片的相应文本描述。然而,对于文本输入,使用条件概率P(图片|文本),可以生成图片特征。通过检索最接近特征向量的两个图片实例,可以获得符合文本描述的图片。

    (协同表示)统一视觉语义嵌入多模态神经语言模型(NIPS 2014)

    利用协同学习中学习到的特征向量之间满足加法和减法运算的特性,可以搜索出符合给定图片的“指定转换语义”的图片。

    300D文本和图像特征的主成分分析投影

    难点:

    如何组合异构源数据,例如,文本是符号化的,图片是一个RGB矩阵,视频是一个时间序列RGB矩阵,声音需要采样到一位数组中;如何处理不同级别的噪声,因为不同模式产生的噪声是不同的;如何处理丢失数据的问题?

    技术方案:

    Translation)

    多模态转换也可称为映射,主要是将一种模式的信息转换或映射为另一种模式的信息。

    相关任务:

    机器翻译:将输入语言A翻译成另一种语言B(实时)。类似地,唇读和语音翻译分别将唇视觉和语音信息转换成文本信息。

    图像字幕和视频字幕:为给定的图片/视频形成文本描述,以表达图片/视频的内容。

    困难:

    1。未知结尾,例如,在实时翻译中,必须在获得句子结尾之前实时翻译句子;

    2。主观的。许多模态转换问题的效果没有客观的评价标准。客观函数的确定非常主观。

    技术方案:

    Alignment):

    多模态转换也可称为映射,主要是将一种模式的信息转换或映射为另一种模式的信息。

    相关任务:

    给定一张图片及其描述,在图片中找到一个区域及其描述中相应的表达式。给定一个美食制作视频和相应的菜单,实现菜单中的步骤描述和相应的视频片段。

    例如,下图中的时间序列对齐将对应于一组动作的视频流与骨骼图片对齐。

    同样,电影图片、语音和字幕也会自动对齐。对于空间维度,例如图像语义分割,每个像素被映射到特定类型的标签以实现视觉词汇对齐。

    Direction:

    对齐分为两种类型:显式对齐和隐式对齐。显式对齐意味着应用程序的主要任务是对齐,而隐式对齐意味着应用程序在完成主要任务时需要使用对齐技术。

    显式对齐的技术方法主要分为:无监督(无监督)和(弱)监督。

    困难:

    相关方案:

    Fusion):

    多模态融合是指从多模态信息中整合信息,以完成分类或回归任务。然而,在深层神经网络方法下,融合和表征两个方向难以区分。多模态融合是目前应用最广泛的方向,还有其他常见的别名,如多源信息融合、多传感器融合等。

    根据融合的层次,多模态融合可分为三类:像素级、特征级(早期)和决策级(晚期)

    分别融合原始数据、抽象特征和决策结果。

    可分为:

    (a)数据级融合根据融合类型;(b)决策层的融合;(c)组合融合

    通用机器学习方法可应用于多模式融合

    相关任务:

    视听识别:将同一实例中的视频信息和音频信息整合起来进行识别。

    移动身份认证:综合利用手机的多传感器信息来认证手机用户是否为注册用户。

    困难:

    信号可能没有暂时对齐。它可能是密集的连续信号和稀疏的事件(例如,一个大的视频只对应一个单词,然后整个视频只对应几个单词);

    每种模式在不同的时间点可能表现出不同的形式和不同的噪声水平。

    技术方案:

    Co-learning):

    Co-learning是指利用资源丰富(如大数据)的模式知识,辅助资源稀缺(如小数据)的模式建模。根据培训资源(数据)的形式,协作学习可以分为如下几种:

    并行:协同培训,迁移学习

    非并行:迁移学习,概念学习,零射学习

    混合:桥接

    其中常用的迁移学习也属于协作学习的范畴,如在自己的目标数据集上对ImageNet数据集上学习的权重进行微调。

    Co-training)

    负责研究如何在多模态数据中扩展少量注释以获得更多注释信息。

    相关方案:

    内容理解中的多模式应用描述类任务(表示、转换、对齐、融合)视频描述

    从文本预测视觉特征用于图像和视频捕获检索:输入原始图像、图像标题和描述图像的许多句子,将它们映射到隐藏空间,并合成视频描述。

    观看、聆听和描述:视频的全局和局部对齐跨模式注意

    字幕:输入原始视频和视频的文本索引以执行视频描述。

    视频故事的多模态注意记忆问答:这是一项VQA任务。输入原始视频、视频描述和问题以获得最终答案。

    双流复发性神经中性粒细胞中性粒细胞口腔中性粒细胞口腔中性粒细胞口腔中性粒细胞口腔中性粒细胞口腔中性粒细胞口腔中性粒细胞口腔中性粒细胞口腔中性粒细胞口腔中性粒细胞视频头:

    输入原始视频和静态图像(用于描述视频)以获得视频描述。

    medical question and answer

    en senmbole医学领域:中imageclef2019挑战赛的简化双线性可视化问题回答模型只需输入图像和问题即可获得答案。

    Multimodal explaints : justicing Decisions and Pointing The Evidence:VQA健康问题问答框架。

    分析任务(特征化、融合)视频分类

    分类框架:

    分而治之并结合:多模态功能计算的局部和全局视角的分层特征融合网络:

    这是一种比较常见的多模态。视频分类任务网络将特征组合成矩阵,并使用外积来计算任何组合的积。为了避免外积过长,采用滑动窗口来计算自向量的外积。

    video classification:

    heading good practices for multi-modal fusion in the granular video classification :将视频和代表性音频文件一起输入视频分类。

    图1:工作1框架图

    通过将视频、代表性图片、farneback流和音频信息一起输入来对视频进行分类。

    图2:工作2框架图

    在混合深度学习框架中为视频类:建模多模式线索将空间视频、运动视频、音频和原始视频一起输入,并获得结果。

    Figure 3: Work 3 Frame Diagram

    Attention Clusters : Pure Attention Based Local Feature Integration for Video Classification :

    同样,图像、视频和音频的异构信息被一起输入以获得视频分类结果。

    图4: Work 4 Framework Text Classification:

    虽然以下文章用于不同的文本理解任务,但实际上,网络结构可用于文本分类

    反语检测:

    在具有层次融合模型的推特中的多模态反语检测:融合时考虑每个模块的低级

    特征,而不是直接采用全局特征。模式间的局部特征通过串联连接,同一模式的局部特征进行加权求和,最终融合时对每个模式特征也采用加权求和。

    情感分类:

    多模态感知分析的语境语际注意:输入文本、视频和声音对人类情感进行分类。

    图1:工作1框架图

    使用层次融合和上下文建模的多模态量刑分析:将图像、标题和文本放入情感分类模型。

    图2: Work 2 Frame Diagram False News identificati on

    exploding Multi-Domain Visual Information for False News Detection:通过输入图像和统计图像的词频对虚假新闻进行分类。

    图1: Work 1 Frame Diagram

    Eann :用于多模态假新闻检测的事件状语神经网络:输入图像和文本以检测假新闻。

    图2: Work 2 Frame Diagram

    一种用于多模态清晰度检测的深度学习方法:将视频、音频、文本和高频词放入模型中以识别虚假新闻。

    图3:工作3框架图

    图像/视频质量评估

    视频内窥镜质量评估和恢复深度学习框架:输入视频和视频检测结果进行质量评估。

    图1:工作1框架图

    片段重要性分数

    视频中基于查询的瞬间检索的跨模态交互网络:输入视频和问题,并定位与问题相关的片段。

    图1: Work 1 Frame

    Lemperto to My Face : modeling Multimodal Attention to Social Interactions :一起输入视频和音频信息以定位与视频相关的位置。

    Figure 2: Work 2 Frame Diagram

    ImageCleFlilog 2019: Solve My Life迷题和LifeTime Retrieval :根据文本信息定位视频中相关片段的匹配。

    图3: Work 3 Frame Diagram

    Theme Party Detection

    SWDE : A用于点击诱饵检测的基于子词和文档嵌入的引擎:输入文章的标题和内容片段来分类它是否是主题方。

    图1:工作1框架图

    字符点击图片上的诱饵:在模型中输入图像、标题和文本描述,对它们是否是主题方进行分类。

    图2: Work 2 Frame Diagram

    Entity Matching of Social Network

    Multimodal Learning of Social Image Presentation by exploring Social Relations :使用图像和相关文本注释对个人进行分类和分组。

    Figure 1: Work 1 Frame Diagram

    From Content to Links : Social Image embedded With Deep Multimodal Model:与上一篇文章相似,它也使用相关的图像和字符对社会群体进行分类。

    图2:工作2框架图

    检索类任务(表示、转换、对齐、融合)

    1。用于主动分析和检索的深度多模态学习作者使用深度玻尔兹曼机器进行多模态联合表示。

    事实上,通过该框架获得的多模态表示可以用于视频重排等任务。

    2。ViLBERT:为视觉和语言任务预处理与任务无关的视觉语言表示:

    作者提出了一个改进的伯特框架,该框架结合了文本和图片特征的共同关注,以获得多模态描述特征,并执行下一个VQA任务。

    合成类任务(表示、转换、对齐、融合)内容生成类任务不涉及

    开源协作内容理解能力成熟度

    1)初始):

    对于特定的业务问题,特定的开发人员选择合理的成熟度模型进行开发。效果取决于训练样本的质量。

    (2)可重复):

    有一个商定的过程系统。标准化已经初步实现。新业务场景的开发可以利用过去团队的实际经验,并有环境和条件来重复以前的功能算法。在任务中,我们开始尝试引入更多的内容特性,并对不同的模型进行直接的实验比较。Badcase对模型的工作特性有着持续的把握。

    (3)定义的):

    开发过程标准化、文件化和沉淀化。有完善的经验体系和评价体系,模型和工程开发遵循团队流程。对于任务有一个统一的和通用的原型模型方法,并且在不同的内容领域有针对性的建模问题以获得可重用的经验。数据集具有良好的降水调节。

    (4)托管):

    业务任务可以充分进行特性和模型实验,综合获得多个技术评价指标和业务评价指标。为团队构建一个统一的内容理解模型框架。建立了完善的算法工程系统(样本标注管理、内容实验、模型自动训练和升级)。

    (5)优化):

    能够专注于改进模型和优化业务场景。引入新算法和新工程结构。可以获得过程有效性的统计数据,并对其进行分析和挖掘,以获得最佳的最新方法。

    内容理解场景的问题伴随着企业自身需求的特点。它具有多源性、多目标性、目标间的逻辑关联性、边界的主观界定性等特点。早期的解决方案是收集样本来测试单个模型的业务问题,在中间开始测试更多的特征模型组合(2),并在后面开始改进算法工程的工作流积累和沉淀(4)。每个业务任务都要经历这个过程。解决问题的成本能快速降低吗?目前,任务间的链接重用较少,任务前特征模型的目标算法相关性较高,两者之间存在矛盾。因此,在研究新的任务和问题时重复整个过程是没有效率的。我们不能完全受益于我们兄弟团队的经验和资源。新的内容业务团队没有足够的算法人员来解决实际的业务场景,从初始级别开始。

    Scheme Brief

    通过对上诉文件的多模态网络结构的分析,我们希望设计一个在该领域具有通用性、可扩展性和可编程结构的多模态内容理解框架。该框架可以将各种多模态内容理解模型统一在一个可编程框架下进行构建和分析。该框架包括以下必要组件:

    (1)数据和特征表示模块:多源图像、文本、视频和语音的特征表示模块。支持通用特征提取算法;具体简历,自然语言处理,音频任务提取模型;该图通过诸如学习方法的算法模型来表示每个模式的个体和联合特征表示。支持可编程接口选择。

    (2)特征融合对齐模块:对于每个模态数据特征,支持适合于内容理解的融合算法,如特定模态算法提取的矢量特征;明确的属性值特征;外部编码特征之间的融合对齐。支持多种编码表示。特征可以以不同的方式或在不同的阶段融合。

    通过一个框架体系和编程接口构建多模态学习模型。对多模态学习的各个研究方向进行抽象,支持不同方向独立和联合的进行优化,支持多任务联合学习。通过集成神经网络架构搜索,模型压缩,实验框架等功能将其做成一个完整的开源产品来打磨,把模块结构优化和算法模型改进紧密结合,方案具有较强的技术先进性

    图 1:可扩展通用多模态内容理解框架图

    图 2:框架在视频分类任务中尝试不同特征融合实验

    意义价值:

    通过合理的多模态内容理解框架设计,抽象多模态学习各个研究任务成为独立的系统模块,模块之间的交互符合软件工程模块化设计的思想。框架本身支持常见的文本、图片、语音、视频等特征描述,支持多种表征、对齐、融合方式的选择,支持针对目标任务的各个层次实验,支持自定义接口形式扩展

    将参与团队个人积累的内容模型经验进行沉淀,通过开源项目创造可伸缩可扩展可实验的内容理解内核,不断尝试新特征,新模型框架如何在业务场景有效。对于新业务,新内容理解的场景,可以通过该微内核快速完成过去重复积累建设工作,更快进入业务实际挑战的攻坚

    参考文献:

    参考文献:

    [1]巴尔特鲁塞蒂斯t .阿胡佳c .莫伦西利普。多模态机器学习:调查与分类[J .模式分析和机器智能,2018:1-1 .

    [2]吴明,古德曼。可扩展弱监督学习的多模态生成模型[C]//神经信息处理系统的进展2018: 5575-5585 .

    [3]克里希那穆什,马祖德,茯苓,等。多模态欺骗检测的深度学习方法[J .arXiv预印本arXiv:1803.,2018 .

    [4]宋国,王松,黄青,等。高斯过程隐变量模型的多模态协调学习[杰]。模式分析和机器智能,2019年.

    [5]黄平,张欣,郝普曼。学习扎根于语言的多模态表征的多头注意与多样性[[]。arXiv预印本arXiv:1910.,2019,2019 .

    [6]吴明,古德曼。可扩展弱监督学习的多模态生成模型[C]//神经信息处理系统的进展2018: 5575-5585 .

    [7]HUK帕克d、安妮 亨德里克斯l、阿卡塔兹,等。多模态解释:证明决定的正当性并指出证据;《美国电气和电子工程师学会计算机视觉和模式识别会议论文集《2018》年[.

    [8]王欣,王燕芳,王伟云。观看,聆听和描述:视频字幕的全局和局部对齐跨模式注意事项[J .arXiv预印本arXiv:1804.,2018,2018 .

    [9]金光明,崔世海,金俊海,等。视频故事问答的多模态双注意记忆[C]//欧洲计算机视觉会议论文集(ECCV).2018: 673-688 .

    [10]徐n .刘阿安,黄勇,等。视频字幕的双流递归神经网络[J .2018年美国电气和电子工程师学会视频技术电路和系统交易会

    [11]董杰,李曦,史诺克。基于文本的视觉特征预测在图像和视频字幕检索中的应用[[]。《美国电气和电子工程师学会多媒体学报《2018》年,20(12):3377-3388 .

    [12]王旭,王英福,王伟友。观看,听,并描述:视频字幕的全局和局部对齐的跨模态注意事项[J .arXiv预印本arXiv:,2018 .

    [13]金克明,崔世赫,金俊赫,等。视频故事问答的多模态双注意记忆;《欧洲计算机视觉会议论文集《ECCV》,2018年年,第6卷[C页].

    [14]徐n .刘阿安,黄勇,等。视频字幕的双流递归神经网络[[,2018年年美国电气和电子工程师学会视频技术电路和系统交易会

    [15]刘军,袁z,王春。大规模视频分类中多模式融合的良好实践;《欧洲计算机视觉会议论文集《ECCV》,2018年年,第6卷[C页].

    [等。利用时空建模和多模态融合进行人体动作识别[[]。arXiv预印本arXiv:,2018 .

    [17]姜永国,吴子忠,唐军,等。视频分类的混合深度学习框架中多模态线索建模[[]。《美国电气和电子工程师学会多媒体学报《2018》年,20(11): 3137-47 .

    [18]龙十、甘c .德梅洛g .等。注意力聚类3360纯粹基于注意力的视频分类局部特征集成;美国电气和电子工程师学会计算机视觉和模式识别会议论文集,2018年年[.

    [19] GHOSAL D,AKHTAR M S,CHAUHAN D,等。多模态情感分析的语境语际注意;《2018》年自然语言处理经验方法会议论文集《2018》年第6期[.

    [20] MAJUMDER N,HAZARIKA D,GELBUKH A,等。使用层次融合的多模态情感分析与情境建模[J .基于知识的系统,2018,161(124-33 .

    [21]齐平,曹杰,杨泰,等。利用多域视觉信息进行假新闻检测[杰]。中国新闻,2001年。arXiv预印本arXiv:,2019 .

    [22]王勇,马芳,金志,等。用于多模态假新闻检测的事件对抗性神经网络:《第24届acm sigkdd知识发现与数据挖掘国际会议论文集《2018》年第6期[,中国ACM .

    [23]克里希那穆提g .马祖德n .茯苓s .等。多模态欺骗检测的深度学习方法[J .arXiv预印本arXiv:,2018 .

    [24]阿里 苏,周芳,贝利 阿,等。视频内窥镜检查中质量评估和恢复的深度学习框架[[]。arXiv预印本arXiv:,2019 .

    [25]张志,林志,赵志,等。视频中基于查询的矩检索跨模态交互网络[[]。arXiv预印本arXiv:,2019 .

    [26]波奇尼奥内g .库库洛五世,达阿梅里奥a、等。倾听我的脸:建模多模态关注社会互动;《欧洲计算机视觉会议论文集《ECCV》,2018年年,第6卷[C页].

    [27] DANG-NGUYEN D-T,PIRAS L,RIEGLER M,等。ImageCLEFlifelog 2019:解决我的生活难题和生命日志时刻检索概述;2019年CEUR研讨会纪要,2019年年[会议录].

    [28]库马尔五世,达尔马,卡塔拉丁,等。SWDE:基于子词和文档嵌入的点击诱饵检测引擎[J .arXiv预印本arXiv:,2018 .

    [29]哈伊,金杰,温德,等。描述了在instagram上的点击诱饵;第十二届AAAI网络和社交媒体国际会议论文集,2018年年[C .

    [30]黄芳,张旭,徐军,等。利用社会关系进行社会形象表征的多模态学习[[]。电气和电子工程师学会控制论学报,2019 .

    [31]黄芳,张旭,李子俊,等。从内容到链接3360嵌入深度多模态模型的社会形象[[]。基于知识的系统,2018,160(251-64 .

    [32]VUM尼特曼R尼霍姆T,等。医学领域2019年imageclef挑战的流线型双线性视觉问题回答模型集成[[]。谱号工作说明,2019 .

    久久国产自偷拍,偷拍久久国产视频,久久国产自偷拍美女,狠狠干久久草

  • 热门标签

  • 日期归档

  • 友情链接:

    西湖公园新闻网 版权所有© www.art369.com.cn 技术支持:西湖公园新闻网 | 网站地图