用户吧 关注:303贴子:1,385
  • 9回复贴,共1

多模态数据融合

只看楼主收藏回复

摘 要
在线购物网站能够产生大量的文本和图像数据,通过对在线购物平台多模态数据进行挖掘,不仅能够很好的理解用户的评价或意图,而且对于多模态数据的语义表达和融合也起到了非常重要的作用,这也正是本文研究的重点。根据多模态数据间存在着紧密语义关联这一特性,本文主要基于多模态数据融合的在线用户评论行为时间规律为基点,通过对用户的文本和图像数据进行分析,结合深度学习的方法将多模态数据的语义特征进行融合表达,并针对多个源或模态,如视频、音频、视频收集的数据融合,开展了进一步调查。
本文的主要研究工作为:首先是调查使用者评价行为时间序列的相关特性。在对使用者评价时间序列有关特性进行行为动力学分析的基础上,使用一种办法,即对评价时间进行有序规划,调查评价元数据内容的有关特性和学识发现。第二,在分析评价实用性的基础上,通过文本挖掘方法,结合模糊综合评价算法,以好坏程度排名并分类所有的评价,将处于同一时间段的评价归为一类,弄清优质评价产物的特征词和情感词的发散情况,还有“特征词-情感”的相关性,研究网络评价好坏相关特点规律的知识发现。第三,以情感分析正在使用的人的评价行为时间序列有关特性法则为基础,经过研究文章意思情感,探寻由于时间间隔不一致所导致的情感极性,还有情感强度,以及情感语义的相关性;将同一情感词语出现在不同时间间隔的次数进行研究,有用地划分出情感极性,并且得出其不同的时间序列发散特点,挖掘评价情感的时间序列有关特性法则。
关键词:多模态数据融合;在线用户;评论行为;时间规律


IP属地:重庆1楼2023-04-01 23:05回复
    Abstract
    Online shopping websites can generate a large amount of text and image data. By mining multimodal data from online shopping platforms, not only can users' evaluations or intentions be well understood, but also plays a very important role in semantic expression and fusion of multimodal data, which is also the focus of this study. Based on the close semantic association between multimodal data, this paper focuses on the temporal heterogeneity of online user comments based on multimodal data fusion. By analyzing user text and image data, and combining in-depth learning methods, the semantic features of multimodal data are fused and expressed, and in-depth research on multimodal data fusion is conducted.
    The main research work of this paper is as follows: First, the research on the correlation characteristics of user comment behavior time series. This chapter takes the user comment data as the index of the technology acceptance model, analyzes the correlation characteristic index of the user comment time series based on the behavior dynamics, innovatively proposes the method of dividing the comment time interval into time series, and carries out the correlation characteristic law analysis and knowledge discovery research of the time series for the comment metadata content. Secondly, based on the analysis of the relevance characteristics of the time series of user comments based on the usefulness of comments, the usability and usability indicators of the technology acceptance model are converted into online user comments quality factors and applied to this study. Through text mining methods, combined with the fuzzy comprehensive evaluation method, the quality of comments is sorted and classified, the quality distribution of comments in different time series intervals is classified, and the characteristic words of high-quality comment products The distribution of emotion words and the correlation degree of "feature words - emotion" are analyzed to explore the knowledge discovery of the correlation characteristics of online comment quality time series. Finally, based on the rules of the correlation characteristics of the time series of online user comment behavior, the user comment emotion is regarded as the use attitude indicator of the technology acceptance model. Through the text semantic emotion mining method, the emotional polarity, emotional intensity and emotional semantic relevance of different time series intervals are analyzed. Through the word frequency statistics of emotional words at different time intervals, Support vector machine classification method is used to effectively classify emotional polarity, summarize the distribution characteristics of time series of different emotional polarity, and find the correlation characteristics of time series of comments on emotion.
    Key words: multimodal data fusion; Online users; Comment behavior; Law of time heterogeneity


    IP属地:重庆2楼2023-04-01 23:05
    回复
      目 录
      摘 要
      Abstract
      第1章 绪论
      1.1选题背景与研究意义
      1.1.1选题背景
      1.1.2研究意义
      1.2国内外研究现状
      1.2.1多模态数据融合研究
      1.2.2在线用户评论研究概述
      1.2.3时间特征研究
      1.3研究内容与研究方法
      1.3.1研究内容
      1.3.2研究方法
      第2章 相关技术与理论基础概述
      2.1多模态数据融合
      2.1.1基于深度学习的多模态数据融合
      2.1.2预训练word2vec
      2.1.3文本卷积神经网络Text-CNN
      2.1.4 VGG19
      2.1.5特征融合理论
      2.1.6 softmax分类
      2.2时间特征
      2.2.1“购买-评论”行为时间间隔
      2.2.2“初评-追评”行为时间间隔
      2.3在线用户评论情感
      第3章 多模态数据融合模型
      3.1模型构建
      3.2特征提取
      3.2.1基于word2vec模型的词向量训练
      3.2.2文本特征提取Text-CNN
      3.2.3图像特征提取VGG19
      3.3 图文特征融合与分类
      3.3.1特征融合
      3.3.2分类
      第4章 多模态在线用户评论数据获取与处理
      4.1平台数据获取
      4.2采集数据预处理
      4.2.1中文分词
      4.2.2去停用词
      4.2.3分词结果
      4.3多模态数据融合和数据获取
      4.3.1时间抽取
      4.3.2 行为数据特征分析
      第5章 在线用户评论行为规律研究
      5.1在线用户评论行为时间规律
      5.1.1“购买-评论”行为统计
      5.1.2“初评-追评”行为统计
      5.1.3在线用户评论时间序列区间划分
      5.1.4在线用户评论行为时间分布规律
      5.2在线用户评论行为情感规律
      5.2.1时间序列区间用户评论情感分析
      5.2.2时间序列区间评论热点情感词频分析
      5.2.3时间序列区间评论情感语义关联分析
      第6章 总结与展望
      6.1研究总结
      6.2研究展望
      参考文献
      致谢


      IP属地:重庆3楼2023-04-01 23:05
      回复
        第1章 绪论
        1.1选题背景与研究意义
        1.1.1选题背景
        以Web3.0技术为特点,英特网技术发生了的新变化,之前的网络内容由传统的网络平台产出,后来越来越多使用者创造更多的网络内容。大量的用户生成内容在线用户点评是这些内容中的重要表现形式。网友的评价是购买者利用Web3.0技术分享他们在网上购买的产品、服务,或者品牌等有关经验、观点和情感倾向,他们一般会以文字、视频、或者符号等途径与其它购买者分享。
        网友的评价是购买者购买商品或服务的应用感知的自愿反馈,也是企业在线口碑真实信息的披露,对于企业和消费者而言都有巨大的潜在商业价值,影响着商家营销和消费者决策。在线用户评论不仅为商家和生产商提供了与用户交互的途径,还成为助力电子商务口碑传播的新形式。对于消费者而言,通过在线评论获取更全面有用的信息以消除消费行为中的不确定性,有助于自身做出更为有效的决策。
        1.1.2研究意义
        (1)理论意义
        从理论上来说,两种电子商务环境下常见的网络行为——购买者“购买-评价”的时间区间特点的挖掘,为调查发现人类的网络行为动力学提供了强劲的补充。而这样做的目的是处理购买者在购买之后的在哪些时间段进行商品评论的困境,也就是说,这是发生在购买者评论和购买之间的很常见的时间区间问题。这篇文章采取了人类行为动力学中时间区间的衡量方式,利用幂次法则拟合方法,将许多购买者的同时含有购买和评论两种行为的时间区间规律进行分类、分产品的刻画,分别分析电商平台上的商品购买时间特征规律、相同产品的相邻评论时间区间的特点。最终,以发表在不同区间的购买者行为依据,分割成有序的购买者“买评”时间间隔并分析。
        (2)实际应用价值
        在实际方面,企业不仅可以让使用者拥有足够的时间去体验服务和产品并描述出实际感受,进一步让自己的名声流传开来,也对购买者购买后给出评价的时间规律有了更清晰的认识。还可用于在恰当的时机,客户的服务资源分配得更好、激励客户进行评价、反馈。
        相较于初评,追评会让消费者感知到更高的信息有用性和价值,消费者受加评情绪强度的影响更大,企业可以通过研究初评情绪差异和加评情绪差异来引导和维护消费者的追评情绪,企业可以考虑采取一些激励措施,如果消费者对产品或服务满意,在给出积极的初评之后,再给予积极的追评。同时,企业也要注意售后服务,让消费者在购买产品后也能感受到销售商的贴心服务,从而主动追加正面评价,推动传播产品正面评价。若给予负面初评,商家应及时采取补救措施,避免消费者在更强烈的负面情绪下追加评价。
        1.2国内外研究现状
        1.2.1多模态数据融合研究
        我们可以将多个源或模态的融合途径大概归为两种,一是非模型的融合,二是和以模型为依据的融合。两者之间,与模型不相干的途径比另一个容易上手却没有多大用处,其过造成损失的可能性很大;以模型为依据的融合途径相对困难但有着高精度、高实用性的优点,这使得它成为当下主要采用的途径。在进行多模态的融合时,尤其要思考其融合的时机。以融合时间或融合层次为基准,我们提出了三种与模型不相干且有着自己特色的融合途径。我们想要在实验中有更棒的结论时,可以试着采取不一样的融合途径。与模型不相干的途径跟以模型为依据的融合途径相比,前者能应用的领域较小且效果较差,所以当下人们更多采用后者。值得一提的是,多核学习法、图像模型法还有神经网络法也是较为常见的途径。
        (1)非模型的融合方法
        Martinez[1]介绍了一种基于卷积神经网络的深度学习模型,该模型适用于以不同的时间分辨率处理多种模式,称之为深度多模融合。与单模态模型相比,所提出的体系结构可以适当地捕获多模态信息。Hinton G E[2]描述了一种初始化权重的有效方法,它允许深度自动编码器网络学习比主成分分析更好的低维代码,作为降低数据维数的工具。Hefian A V[3]描述了两种用于视听整合的统计模型,耦合HMM(CHMM)和阶乘HMM(FHMM),并将这些模型与现有的用于说话人相关的视孤立词识别的模型进行了性能比较。Wu[4]通过一种基于动态贝叶斯网络(DBN)的多级混合融合体系结构,将模型级融合和决策级融合结合起来,以实现更高的性能。Ni J[5]等人联合指出了一种与多重BP(BackPropagation)网络为依据的图像融合途径,提出了一种基于D-S理论的多BP神经网络图像识别方法。利用该方法对单个BP神经网络的各个图像识别结果进行综合,可以提高图像识别的性能,充分利用了各网络的精度。
        (2)基于模型的融合方法


        IP属地:重庆4楼2023-04-01 23:06
        回复
          1.2.3时间特征研究
          (1)在线人类行为时间特征研究
          Jin[38]等学者的研究发现,消费者在发布网评的时间点与其意向购买的时间点之间存在时间窗口,而这个窗口大小对于网评对消费者购买行为的影响有着重要的作用。通过实验验证,研究人员发现不同时间点发布的评论对消费者的购买行为有不同的影响。换言之,同一条评论在不同时间发布会产生不同的效果。根据Piccoli和Ott[39]的研究,消费者在不同的设备上发布评论时存在着差异。具体而言,使用移动设备客户端发布评论比在网页端发布评论更具有时效性,评论文本更加精简,评价更为理性,情感更为负面。这种差异可能是由于移动设备的便捷性和快捷性,使得消费者更倾向于即时发表评论,并且在时间和空间的限制下更加注重表达主要观点。龚艳萍[40]等在构建水平理论基础上,论述了新产品发布预告与上市时间间隔的关系,以及消费者对产品评价的优劣。研究发现,消费者发布评论的内容与间隔时间之间存在显著的相关性。消费者在评论中所表现出来的关注点,在产品预告和实际上市之间的时间相对较短时,更多地集中在产品次要功能所展现出来的魅力上,而在更长的时间间隔的情况下,针对产品的评论往往主要体现在对其核心功能的评价。Tirunillai与Tellis[41]针对五个不同的市场,对十五家公司进行了四年的动态评论数据分析。他们采用营销数据追踪产品众多维度在时间上的重要性变化情况,以揭示市场发展的动态趋势。
          (2)在线用户评论行为中的时间特征
          如今,网络已经成为现代人日常生活中不可或缺的一部分。越来越多的人开始将他们的生活搬到了虚拟世界,这也引起了学者们的广泛关注。为了了解在线行为的动力学模式,学者们进行了大量的研究。这些研究覆盖了各种在线活动,例如网页浏览、在线点播、网络游戏、社交媒体和即时通讯等等。通过对这些在线行为的数据进行实证分析,学者们发现它们的时间间隔服从幂律分布,指数为1-3[42]。这意味着在线人类行为中的一小部分会非常频繁地发生,而大部分则很少发生。这一发现为研究在线行为提供了新的视角,并对许多领域的实践具有重要的指导意义。
          (3)人类行为动力学刻画用户评论行为时间特征的相关研究
          不同学科对人类行为的研究已成为当今热门话题,而探究人类行为规律与原因的一种流行方法是通过对两个相邻行为之间的时间间隔进行统计分析。
          早期的人类行为动力学研究面临数据不足的困境,因为当时的信息存储技术还未能满足研究需求。在这样的情况下,专家们采用了一种模拟人类行为发生规律的方法,即利用概率论中的排队论。早期的学者通常认为,人类行为是一种具有随机性的现象,行为服从Possion过程的稳定状态。具体地说,在一个特定的时间段[t, t+τ]内,存在关联的相邻行为之间的时间间隔r通常服从指数分布,其概率密度函数为p(τ)=λe-τ。这表明,相邻行为之间的时间间隔越短,其发生的概率就越大。随着计算机技术的不断进步与互联网的广泛应用,人类的各种行为活动数据被广泛采集和储存,为研究人类行为提供了先决条件。Barabasi对人们使用电子邮件的发送和回复行为进行了分析,并与使用传统邮件时的行为进行了比较。发现这种行为的时间间隔服从于幂次分布的P(τ)=τ-v。这项研究揭示了人类行为中存在间隔的规律,发现时间间隔的分布不均匀,与经典的Poisson分布有偏差。
          1.3研究内容与研究方法
          1.3.1研究内容
          本文共有六章内容:
          第一章是本论文的绪论,主要涵盖选题的背景及其研究意义、国内外的研究现状、研究内容与研究方法。
          第2章是关于理论和技术的展示,有多模态数据融合,内容包括预训练word2vec、文本卷积神经网络Text-CNN、VGG19、特征融合理论,softmax分类器,介绍了在线评论的时间规律,包括“购买-评论”行为时间间隔、“初评-追评”行为时间间隔。
          第3章为多模态数据融合模型构建,具体包括利用模型操作的过程,利用Text-CNN提取文本特征信息,利用VGG19提取图片特征信息,再利用融合函数进行文本和图片特征融合获得分析数据。
          第4章为多模态在线用户评论数据获取与处理,包括平台数据获取,采集数据预处理,多模态数据融合和数据描述,在线用户评论。
          第5章为在线用户评论行为时间特征研究,包括在线用户评论行为时间规律,在线用户评论情感时间特征规律。
          第6章为总结与展望。
          图1.1 全文内容结构图
          1.3.2研究方法
          通过文献分析法,得到基于多模态数据融合的研究现状以及在线用户评论研究现状,分析并选取学术界前沿适用于分析在线用户评论的数据融合模型,分析多模态数据在时间异质条件下的可行的研究方向,设计实证阶段需用取用的数据和数据的处理方式,实证通过相关软件和计算机编程实现对数据的处理得出实验结果,并进行结果分析。
          第2章 相关技术与理论基础概述
          2.1多模态数据融合
          2.1.1基于深度学习的多模态数据融合
          人类感知世界的方式不仅仅是单一的视觉、听觉和触觉,而是一个多元化的感知过程。多模态可以看作是一种基于人类感官的认知方式,它包括视觉、听觉和触觉等多种感官模态,每种模态都可以独立地表达人类的感知过程。这些不同的模态可以相互作用和组合,从而形成一个更加完整、丰富和立体的人体感知模型。在数据领域,多模态表示的是不同形式的数据,可以是文本、图像、声音、视频或混合形式等。这种表示方式可以更加全面地反映数据的本质和特征,使数据分析和处理更加精和高效。
          基于数据的融合技术已经逐渐成为多模态数据处理的主要方式,通过多个模式的特征层进行融合来提高数据的表达和解释能力。其中,基于机器学习和深度学习的融合技术已经得到广泛应用。与传统的单一数据训练不同,多模态深度学习通过交叉使用不同的数据集来训练模型,以实现多模态数据的深度学习融合。这种方法在处理大规模复杂数据的时候更为有效,可以使得数据处理更为高效和准确。
          学习数据集是深度学习中至关重要的一步,而基于多模态数据融合模式的学习方法更是为数据处理和分析带来了全新的思路和方法。在多模态数据融合模式中,基于分类器的融合方法可以被分为早期与晚期融合两个阶段。早期融合是在特征提取阶段将不同模态的特征向量进行融合,生成一个统一的特征向量来训练分类器。这样做的好处在于可以充分利用不同模态之间的相关性,提高特征的表达能力和分类器的精度。基于早期融合的分类器可以采用各种分类器模型,如支持向量机(SVM)或神经网络等,这些模型都能够通过特征向量进行训练,并具有良好的分类效果。此外,还可以采用生成模型,如贝叶斯网络等模型进行训练和分类,这些模型被广泛应用,可以处理可变的长向量,更好地满足实际应用需求。而晚期融合是在特征提取阶段之后,将不同模态的分类器的输出结果进行融合。这样做的好处在于能够在不同的分类器之间进行比较和选择,从而提高分类器的效率和性能。基于晚期融合的方法可以采用投票、加权平均等融合方式来将不同分类器的输出结果进行集成,从而提高分类器的精度和鲁棒性。
          深度学习算法在数据融合方面面临着许多挑战,其特征表示方法与经典机器学习相同,但受到模型和参数影响较大且解释性不佳。因此,解决这些问题已成为深度学习领域中亟需解决的难题。目前,多模态数据融合算法可以归为两大类:经典估计统计方法和现代信息论与人工智能方法。在经典估计统计方法中,基于贝叶斯理论的融合方法被广泛应用。而在现代信息论与人工智能方法中,深度学习模型成为数据融合的主要工具,如卷积神经网络、循环神经网络等。此外,多模态数据融合算法还可以分为物理模型、参数分类和认知模型三类。在物理模型中,研究人员利用物理模型对数据进行建模,从而实现多模态数据的融合。在参数分类模型中,研究人员通过分类模型对不同模态的数据进行分类,然后将结果进行融合。在认知模型中,研究人员利用认知模型对多模态数据进行分析和理解,以实现数据融合。这些算法的不断发展和创新将有助于提高深度学习算法的数据融合能力,并推动其在实际应用中的广泛应用。


          IP属地:重庆6楼2023-04-01 23:10
          回复
            2.1.2预训练word2vec
            Word2vec,是一群相关的模型,用来产生单词向量。这些模型是用来训练重新构建语言学词汇文本的神经网络。在模型的环境之中,单词的顺序并不重要,网络以单词表现,因此在处理大量文本数据时,Word2vec成为了NLP领域中一种非常重要的工具。除了单纯的词汇分析,Word2vec也可以应用于句子和段落级别的分析,即Paragraph2vec或者Doc2vec。在这些场景下,Word2vec不再是对独立单词进行嵌入,而是对整个文本进行嵌入,从而使文本的表示更加全面。[43]。
            词嵌入是一种将单词映射到低维向量空间的技术,而Word2Vec则是其中一种常见的实现方式。Word2Vec的成功源于它能够建立单词之间的关联性,因此相似的单词在向量空间中的距离也更近。除了单词级别的词嵌入,还有一种称为段落嵌入或文档嵌入的应用,也可用Word2Vec实现。不同于单词级别的词嵌入,段落级别的嵌入考虑了整个段落的语义和上下文,使得相似的段落在向量空间中也有相近的嵌入。在自然语言处理中,词嵌入是一个重要的技术,因为它可以帮助机器理解语言的含义和上下文,从而实现一些文本相关的任务,比如文本分类、情感分析和机器翻译等。词嵌入技术在近年来得到了快速的发展,不断有新的方法和模型被提出。除了Word2Vec,还有一些其他常用的词嵌入方法,比如GloVe、FastText等。这些方法都有其独特的优缺点,适用于不同的任务和场景。总之,词嵌入技术是自然语言处理中不可或缺的一环,它为我们提供了一种将文本转换为数学向量的方法,使得我们可以用数学的方式来处理和分析文本数据,从而实现更加智能化和高效的文本处理应用。自然语言处理(NLP)的发展使得机器能够处理和理解自然语言,而词嵌入技术则是NLP中一个重要的技术。词嵌入技术的核心是将词语嵌入到低维的连续向量空间中,从而表示和学习词语之间的关系和语义信息。在NLP的底层输入中,使用词嵌入能够大大增强语法分析器和文本情绪分析等的效果。词嵌入的概念源自于神经概率语言模型。Yoshua等人使用神经概率语言模型,通过学习词语的分布式表示,达到将词语空间降维的目的。他们在一系列的论文中探讨了神经概率语言模型在词嵌入领域的应用,并取得了不俗的成果。[44]。Roweis与Sau[45]词嵌入的领域提出了一种新的方法,即局部线性嵌入(LLE),用于学习高维数据结构的低维表示。这种方法使得机器能够更好地理解和处理自然语言,同时也为词嵌入领域的发展带来了新的思路和方法。在2010年后,词嵌入领域的研究突飞猛进,这部分原因是由于模型训练速度的极大突破。词嵌入领域的分支繁多,研究人员不断地尝试着提出新的方法和技术。2013年,谷歌的Tomas Mikolov团队发明了一套用于词嵌入的工具——Word2vec。相较于以往的方法,Word2vec更加高效快速地训练向量空间模型,使得机器能够更好地理解和处理自然语言。Word2vec的成功,让词嵌入技术在NLP领域得到了更广泛的应用和发展。总之,词嵌入技术的发展为机器理解和处理自然语言提供了有力的支持和帮助,同时也为NLP领域的发展带来了更多的机遇和挑战。
            2.1.3文本卷积神经网络Text-CNN
            相较于传统的卷积神经网络在图像处理领域的广泛应用,TextCNN在网络结构上做了一些变化。具体而言,TextCNN中采用了只有一层卷积和max-pooling的结构,并最终利用softmax函数对输出进行n分类。
            图2.1 TextCNN网络结构
            与CNN不同,TextCNN所处理的输入数据是文本,是由一维的单词序列组成的,因此卷积核在文本上的移动是从左到右的,而不是从上到下。TextCNN在文本中提取特征的过程中,同样使用卷积操作来捕捉不同长度的文本片段,并将这些特征进行最大池化,提取出最重要的特征。自然语言的属性属于一维,虽然经过wordembedding生成了二维向量,但是通过要素的运动卷积并无实际意义。比如“今天”对应的向量[0,0,0,0,1],按窗口大小为1*2从左到右滑动得到[0,0],[0,0],[0,0],[0,1]这四个向量,对应的都是"今天"这个词汇,这种滑动没有帮助。
            TextCNN的最大成功点并非是在于其网络结构,而是在多个数据集上能够引入预设的词向量达到了超越Benchmark的目的,进一步证明了NLP各项任务关键能力的提升——构建更好的Embedding。由于其网络结构简单,在这个前提下,多个数据集合上超越Benchmark,训练速度快,在单机单卡的v100机器上,训练165万数据,迭代26万步,半个小时左右可以收敛。
            TextCNN的网络计算原理:
            (1)输入层(Embedding层)
            输入层的作用就是将输入文本切词后,通过词向量文件及词向量矩阵,将文本向量化,支持后续进行卷积池化等操作。具体来说,分为以下几步:
            1)文本切词
            通过各种工具的协助,将输入的内容分割成不等数量的词。例如“今天晚上吃什么呢”,分词后变为【“今天”,“晚上”,“吃”,“什么”,“呢”】。除了文本输入时,需要进行切词,接下来要介绍的词向量,在构建词向量文件时,也需要进行切词操作。
            2)词向量矩阵初始化
            词向量文件的表现形式,是以离线配置文件的形式存在的,通常是json文件,代码中加载后以dict形式存在,如{"的":1,"是":2,……},词向量文件的作用是,在对输入文本进行切词后,需要获取每个词的向量表征,则先通过词向量文件获取词对应的索引,再通过索引在词向量矩阵中获取词的向量表征。这时再理解词向量矩阵,就简单多了,词向量矩阵的作用,是用于获取输入文本的向量表征,说的通俗点,就是用向量将文本表现出来,以用于模型中的数值计算(例如后续的卷积、池化等操作)。词向量矩阵的每一行,是某个词对应的向量,也就是说,我们通过词向量文件中的索引,可以在词向量矩阵中获取词的向量表征。再简单介绍下词向量矩阵及词向量文件生成的两种方式。
            随机初始化词向量矩阵:使用self.embedding=torch.nn.Embedding(vocab_size,embed_dim)命令直接随机生成个初始化的词向量矩阵,此时的向量值符合正态分布N(0,1),这里的vocab_size是指词向量矩阵能表征的词的个数,这个数值是词向量文件中词的数量加1。embed_dim是指向量的维度。对于随机初始化词向量矩阵的方式,词向量文件的生成方式一般是将当前所有的文本数据(包括训练数据、验证数据、测试数据)进行切词,再对所有词进行聚合统计,保留词的数量大于某个阈值(比如3)的词,并进行索引编号(编号从1开始,0作为上面提到的不在词向量文件中的其他词的索引),进而生成词向量文件。
            使用预训练的词向量文件初始化词向量矩阵:本质上,词向量矩阵的作用是实现文本的向量表征,因此,如何用更合适的向量表示文本,逐渐成为了一个热门研究方向。预训练的词向量文件便是其中的一个研究成果,如通过word2vec、glove等预训练模型生成的词向量文件,通过大量的训练数据,来生成词的向量表征。
            3) 输入文本向量化
            此时输入文本已经完成分词,且词向量矩阵也完成初始化,这时便可对输入文本进行向量化操作。文本切词后,每个词在词向量文件中的索引,确定这个词在词向量矩阵中的位置,从而获取这个词的向量表征,最终组合出输入文本的向量表征,即输入文本对应的向量矩阵。
            (2)卷积层
            在传统CV领域,可以利用(R,G,B)作为不同channel,通道个数一般为3个。在使用TextCNN做分类时,通道个数一般是一个。其实也可以采用多channel输入,TextCNN的多channel通常是不同方式的embedding方式(比如word2vec或glove),实践中也有利用静态词向量和fine-tunning词向量作为不同channel的做法。但是实验证明,单channel的TextCNN表现都要优于多channels的TextCNN[46]。
            TextCNN的卷积计算和CV领域的卷积计算略有不同,主要体现在卷积核的形状大小上,TextCNN的卷积核大小,行数可自定义(如2、3、4等),列数要和词向量矩阵的列数相同,因为词向量矩阵的每一行表征一个词,只有两者列数相同,卷积核才能提取每一个词的完整信息。卷积核的列数少于词向量矩阵的列数,提取信息不完整。
            (3)池化层
            池化层的输入是卷积层的输出,卷积层输出的通道数m等于卷积核的数量,每个通道都是一列。池化的操作就是对这些输出通道进行池化计算,目前存在两种计算方式,平均池化和最大值池化[47]。
            (4)全连接层
            根据池化层的输出和分类类别数量,构建全连接层,再经过softmax,得到最终的分类结果,torch.nn.Linear(input_num,num_class)即可定义全连接层,其中input_num是池化层输出的维数,num_class是分类任务的类别数量。
            2.1.4 VGG19
            VGG在ILSVRC2014比赛中提出了VGG网络。该网络旨在证明网络深度的增加可以在一定程度上提高网络的性能[48]。VGG共有两种不同的结构:VGG16和VGG19。尽管两者网络深度不同,但它们之间并没有本质的区别。
            VGG网络采用了小的3x3卷积核,且卷积层的通道数都比较大,使得网络可以更加深入地学习图像特征。可以把VGG网络看成是数个VGG_block的堆叠,每个VGG_block由几个卷积层+ReLU层,最后加上一层池化层组成。VGG是由牛津大学视觉几何组提出的深度卷积神经网络。这个网络的名称中的数字代表着该网络中的参数层数量(包括卷积层和全连接层,不含池化层)[49],VGG19是其中一种神经网络,其中包含5个卷积层,分别具有不同数量的卷积核,还有3个全连接层,总共包含19层参数。这个网络的名称来源于数字19,代表着整个网络中包含的参数层数量。
            这个网络的主要特点是采用了大量的3x3卷积核来代替7x7卷积核和5x5卷积核。这种做法可以保证在相同的感知野范围内,增加网络深度,从而提高网络的性能。
            举个例子,如果我们将三个步长为1的3x3卷积核堆叠在一起,它们的感知野就相当于一个7x7卷积核的范围。但是,这种做法可以大大减少网络的参数数量,因为三个3x3卷积核的总参数数量只有7x7卷积核的一半。此外,3x3卷积核可以更好地保留图像的特征,因此能够提高网络的性能。
            如输入是一张224x224大小的RGB图片,在输入图片之前,仍然要对图片的每一个像素进行RGB数据的转换和提取。然后使用3x3大小的卷积核进行卷积,3x3是最小的能够捕获上下左右和中心概念的尺寸[50]。接着图片依次经过5个步骤和3层全连层的处理,一直到softmax输出分类。卷积核深度从64一直增长到512,更好的提取了图片的特征向量。
            步骤1:
            包含两个卷积层,一个池化层,每个卷积层和池化层的信息如下:
            卷积核 深度 步长
            3 * 3 64 1 * 1
            步骤2:
            包含两个卷积层,一个池化层,每个卷积层和池化层的信息如下:
            卷积核 深度 步长
            3 * 3 128 1 * 1
            步骤3:
            包含四个卷积层,一个池化层,每个卷积层和池化层的信息如下:
            卷积核 深度 步长
            3 * 3 256 1 * 1
            步骤4:
            包含四个卷积层,一个池化层,每个卷积层和池化层的信息如下:
            卷积核 深度 步长
            3 * 3 64 1 * 1
            步骤5:
            包含四个卷积层,一个池化层,每个卷积层和池化层的信息如下:
            卷积核 深度 步长
            3 * 3 64 1 * 1
            池化层
            整个网络包含5个池化层,分别位于每一个步骤的后面,每个池化层的尺寸均一样。整个网络不包含LRN,因为LRN会占用内存和增加计算时间。接着经过3个全链层的处理,由softmax输出1000个类别的分类结果[51]。
            2.1.5特征融合理论
            对于机器学习任务,如图像分类、自然语言处理、语音识别等,通常需要使用多种特征来获得更好的分类性能。同时,也存在多种模型可以用于分类任务。因此,如何将这些特征和模型进行融合,以达到最佳的分类效果是一个重要的问题[52]。在特征融合中,融合顺序可以分为早融合(early fusion)和晚融合(late fusion)。早融合是指在输入模型之前对特征进行融合,也称为特征融合。晚融合是指对模型的预测结果进行融合,通常采用投票或取平均值等方法[53]。 在深度学习的研究中,为了获得更好的性能,通常需要将多个特征进行融合。逐元素相加(pointwise addition)和拼接(concatenate)是两种最常用的特征融合方法。


            IP属地:重庆7楼2023-04-01 23:13
            回复
              (1)逐元素相加
              如果存在两个特征向量,可以实现融合,则当n=m,通过以下公式开展融合:
              (1)
              上式中v表示融合后的特征向量。当n≠m时,先利用如下线性变换,对v2进行转换:
              (2)
              在这个公式中,我们引入了一个权值矩阵用于线性变换。接着,我们利用公式(1)将v1和变换后的v2进行了融合。如果v1和v2都是长、宽和通道数都相等的三维特征图,那么在融合时,我们会将两个特征图相应位置上的元素逐个相加。
              (2)拼接
              假设有两个特征向量,,则将v1,v2拼接得到融合向量。若v1,v2为长、宽相等的三位特征图,当进行多通道特征图的融合时,可以采用通道维度上的拼接方式,将两个特征图的各个通道逐一拼接,从而得到更加丰富的融合特征图。
              2.1.6 softmax分类
              softmax回归用于从三个或更多选项中选择一个的多类型分类问题[54]。本实验 使用 softmax回归模型用作数据分类。softmax回归预测将x归属为类别j的概率计算为,k维向量中的第i个元素 ,第i个类是正确答案的概率表示为时,softmax 如公式(3)所示,其中θ为模型参数。
              (3)
              公式(3)待分类的恶意软件数据样本种类很多,因此本文需要一种多分类器,来对每 一个样本进行分类。softmax 多分类器的损失函数用公式(4)表示。 (4)
              公式(4)利用梯度下降算法对损失值进行处理。不断调整梯度下降算法的参数,使损失函数值loss逐渐降低,可以计算并更新模型训练参数和输出参数,使预测值最大可能的接近最优值。softmax函数的输出是一个向量,维数与要分类的类数 一样多,每个元素的值在 0 到 1 之间。这些中的每一个都代表特定类别正确的概率。当要选择的选项总数为 k 时,softmax 函数取一个 k 维向量并估计每个类的概率。损失函数定义如(5)所示。
              (5)
              是一个向量。θ的值θj可以通过迭代公式(6)求解,当θj收敛发生时,迭代就停止。
              (6)
              α为学习率,j=1,2,3,...,k,k值是种类数目。
              2.2时间特征
              2.2.1“购买-评论”行为时间间隔
              “购买-评论”行为评论行为,“购买-评论”行为是指消费者在购买商品或服务后,对其使用体验、质量等方面进行的评论和晒单行为。这种行为在电商平台、餐饮服务、旅游等领域中十分常见。不同的平台和行业对于消费者在购买后的评论时间要求有所不同,有的要求在一定时间内进行评论,如七天内,而有的则没有时间限制。在这种行为中,消费者的评价对于商家和其他消费者来说都具有重要意义。商家可以通过消费者的评价了解产品的优缺点,以便改进和提高产品的质量和服务水平,从而吸引更多的消费者。同时,对于其他消费者来说,这些评论也可以为他们提供有价值的参考,帮助他们更好地选择产品和服务。因此,购买后的评论行为对于消费者、商家以及整个市场都具有重要的意义。
              2.2.2“初评-追评”行为时间间隔
              在电商平台上,追加评论是一种消费者在交易成功后完成首次评论的特定时间内,还有一次进一步评论的机会。不同于初评,追评更加具体和详细,能够提供更有价值的信息和反馈。追加评论仅限于文字陈述,而且不能改变初评的星级评分。此外,若交易后买家没有进行初评,则平台不会设立追评入口。在淘宝等电商平台中,追加评论期限为180天内,卖家也可以在此期限内进行详细解释,以提供更加有用的信息和反馈。追评信息不会影响卖家的好评率,且追评通常被认为对潜在消费者的影响更大,因此对追评信息的时间特征规律的发现和管理,对于电商企业来说,提出了更高的要求。对于电商平台来说,了解和管理追评信息的时间特征规律是至关重要的。例如,可以根据消费者的追评行为和时间间隔等信息,对消费者的购买和使用行为进行分析和预测。
              2.3在线用户评论情感
              随着互联网用户不断增多,用户生成内容的在线评论数量也在快速增长。而这些评论所体现的情感极性和情感强度,能够真实反映出消费者对所购买的产品质量和服务体验的感知。[55]。因此,对于消费者而言,在线评论已经成为了他们重点关注的内容之一。同时,对于企业而言,对消费者在线评论的情感极性和情感强度进行监测和分析,能够为其提供重要的市场反馈和产品改进方向。因此,对在线评论的情感分析技术的研究和发展具有重要的现实意义。当前,情感分析技术已经成为了自然语言处理领域的一个热门研究方向,并且已经得到了广泛的应用。而随着数据量和数据复杂度的不断增大,情感分析技术也在不断地发展和完善,以满足用户对于情感分析结果的更高需求。当今时代,消费者越来越依赖在线评论来做出购买决策。这些评论内容不仅仅是对产品和服务的反馈,同时也反映出了消费者的情感态度和对商家的评价。对于商家而言,他们极力寻求正向评论以改善口碑和提高销售额。相反,差评内容的积累则会严重影响商家的形象和信誉,导致消费者流失[56]。研究发现,正向评论有着很高的转化率,而负向评论则会导致消费者放弃购买。因此,在线评论的情感分析对于商家、厂家和平台都具有极其重要的影响作用。商家可以根据情感分析结果改进产品和服务,提高顾客体验,从而提升顾客满意度和留存率;厂家可以根据在线评论中消费者的反馈,对产品进行持续的改进和优化;而对于平台而言,对在线评论的情感分析也是保持良好用户体验的重要手段。随着大数据时代的到来,越来越多的电商网络平台开始关注用户的评论,以便更好地了解他们的商品体验和反馈。通过文本挖掘技术,可以对评论文本进行情感分类和情感词提取等分析,帮助消费者更准确地了解其他用户的态度和体验,进而做出更明智的购买决策。同时,厂商和电商也可以通过情感分析了解消费者的反馈信息,从而改进产品质量和提高服务水平[57]。此外,情感分析还可以帮助平台评估用户对产品的态度和情感倾向,进而做出更好的推广策略,提升商家的品牌形象和口碑。随着技术不断进步,情感分析的应用场景也越来越广泛,不仅仅局限于电商领域,还可以应用于社交媒体、新闻评论等领域,帮助人们更好地了解其他人的想法和情感态度,促进信息传播和沟通。因此,情感分析是一项具有广泛应用前景的技术,对于人们的生活和工作都有着重要的意义和影响。在分析过程中,采用了文本挖掘技术,对大量评论数据进行了积累和分析,随着数据挖掘和机器学习方法的不断成熟,现在已经能够实现对评论文本的情感分类,情感词提取,标注和情感强度计算等。通过系统化的情感分析,我们能够快速准确地判断评论中的正向和负向情感倾向,以及情感词与特征属性之间的关联,这能够帮助消费者更清晰地了解评论者对商品的使用态度,从而更好地作出购买决策。不仅如此,生产厂商和电商也能够利用情感分析的手段,获得准确的用户反馈信息,从而改进产品质量,提高服务水平,获得竞争优势。对于政府部门来说,情感分析能够帮助他们更好地了解公众对于政策和措施的反应,以及对于事件的看法,为政府决策提供重要的参考依据。在实践中,情感分析技术已经被广泛应用于电商平台、社交媒体、新闻媒体等领域。电商平台通过对用户的评论进行情感分析,可以更好地了解消费者对商品的使用情况和需求,以及对于服务的反应,从而为电商平台的经营和服务提供指导和参考;社交媒体和新闻媒体通过对用户评论的情感分析,可以了解公众对于事件的看法和反应,以及对于政策和措施的反应,从而为社会舆情的管理和公共政策的制定提供参考。综上所述,情感分析技术是一项非常重要的技术,它不仅可以帮助电商平台更好地了解消费者的需求和反应,还可以为政府决策和社会管理提供重要的参考依据。随着技术的不断进步,我们相信情感分析技术将会在更多的领域得到广泛应用,为我们带来更多的便利和价值。


              IP属地:重庆8楼2023-04-01 23:17
              回复
                (1)逐元素相加
                如果存在两个特征向量,可以实现融合,则当n=m,通过以下公式开展融合:
                (1)
                上式中v表示融合后的特征向量。当n≠m时,先利用如下线性变换,对v2进行转换:
                (2)
                在这个公式中,我们引入了一个权值矩阵用于线性变换。接着,我们利用公式(1)将v1和变换后的v2进行了融合。如果v1和v2都是长、宽和通道数都相等的三维特征图,那么在融合时,我们会将两个特征图相应位置上的元素逐个相加。
                (2)拼接
                假设有两个特征向量,,则将v1,v2拼接得到融合向量。若v1,v2为长、宽相等的三位特征图,当进行多通道特征图的融合时,可以采用通道维度上的拼接方式,将两个特征图的各个通道逐一拼接,从而得到更加丰富的融合特征图。
                2.1.6 softmax分类
                softmax回归用于从三个或更多选项中选择一个的多类型分类问题[54]。本实验 使用 softmax回归模型用作数据分类。softmax回归预测将x归属为类别j的概率计算为,k维向量中的第i个元素 ,第i个类是正确答案的概率表示为时,softmax 如公式(3)所示,其中θ为模型参数。
                (3)
                公式(3)待分类的恶意软件数据样本种类很多,因此本文需要一种多分类器,来对每 一个样本进行分类。softmax 多分类器的损失函数用公式(4)表示。 (4)
                公式(4)利用梯度下降算法对损失值进行处理。不断调整梯度下降算法的参数,使损失函数值loss逐渐降低,可以计算并更新模型训练参数和输出参数,使预测值最大可能的接近最优值。softmax函数的输出是一个向量,维数与要分类的类数 一样多,每个元素的值在 0 到 1 之间。这些中的每一个都代表特定类别正确的概率。当要选择的选项总数为 k 时,softmax 函数取一个 k 维向量并估计每个类的概率。损失函数定义如(5)所示。
                (5)
                是一个向量。θ的值θj可以通过迭代公式(6)求解,当θj收敛发生时,迭代就停止。
                (6)
                α为学习率,j=1,2,3,...,k,k值是种类数目。
                2.2时间特征
                2.2.1“购买-评论”行为时间间隔
                “购买-评论”行为评论行为,“购买-评论”行为是指消费者在购买商品或服务后,对其使用体验、质量等方面进行的评论和晒单行为。这种行为在电商平台、餐饮服务、旅游等领域中十分常见。不同的平台和行业对于消费者在购买后的评论时间要求有所不同,有的要求在一定时间内进行评论,如七天内,而有的则没有时间限制。在这种行为中,消费者的评价对于商家和其他消费者来说都具有重要意义。商家可以通过消费者的评价了解产品的优缺点,以便改进和提高产品的质量和服务水平,从而吸引更多的消费者。同时,对于其他消费者来说,这些评论也可以为他们提供有价值的参考,帮助他们更好地选择产品和服务。因此,购买后的评论行为对于消费者、商家以及整个市场都具有重要的意义。
                2.2.2“初评-追评”行为时间间隔
                在电商平台上,追加评论是一种消费者在交易成功后完成首次评论的特定时间内,还有一次进一步评论的机会。不同于初评,追评更加具体和详细,能够提供更有价值的信息和反馈。追加评论仅限于文字陈述,而且不能改变初评的星级评分。此外,若交易后买家没有进行初评,则平台不会设立追评入口。在淘宝等电商平台中,追加评论期限为180天内,卖家也可以在此期限内进行详细解释,以提供更加有用的信息和反馈。追评信息不会影响卖家的好评率,且追评通常被认为对潜在消费者的影响更大,因此对追评信息的时间特征规律的发现和管理,对于电商企业来说,提出了更高的要求。对于电商平台来说,了解和管理追评信息的时间特征规律是至关重要的。例如,可以根据消费者的追评行为和时间间隔等信息,对消费者的购买和使用行为进行分析和预测。
                2.3在线用户评论情感
                随着互联网用户不断增多,用户生成内容的在线评论数量也在快速增长。而这些评论所体现的情感极性和情感强度,能够真实反映出消费者对所购买的产品质量和服务体验的感知。[55]。因此,对于消费者而言,在线评论已经成为了他们重点关注的内容之一。同时,对于企业而言,对消费者在线评论的情感极性和情感强度进行监测和分析,能够为其提供重要的市场反馈和产品改进方向。因此,对在线评论的情感分析技术的研究和发展具有重要的现实意义。当前,情感分析技术已经成为了自然语言处理领域的一个热门研究方向,并且已经得到了广泛的应用。而随着数据量和数据复杂度的不断增大,情感分析技术也在不断地发展和完善,以满足用户对于情感分析结果的更高需求。当今时代,消费者越来越依赖在线评论来做出购买决策。这些评论内容不仅仅是对产品和服务的反馈,同时也反映出了消费者的情感态度和对商家的评价。对于商家而言,他们极力寻求正向评论以改善口碑和提高销售额。相反,差评内容的积累则会严重影响商家的形象和信誉,导致消费者流失[56]。研究发现,正向评论有着很高的转化率,而负向评论则会导致消费者放弃购买。因此,在线评论的情感分析对于商家、厂家和平台都具有极其重要的影响作用。商家可以根据情感分析结果改进产品和服务,提高顾客体验,从而提升顾客满意度和留存率;厂家可以根据在线评论中消费者的反馈,对产品进行持续的改进和优化;而对于平台而言,对在线评论的情感分析也是保持良好用户体验的重要手段。随着大数据时代的到来,越来越多的电商网络平台开始关注用户的评论,以便更好地了解他们的商品体验和反馈。通过文本挖掘技术,可以对评论文本进行情感分类和情感词提取等分析,帮助消费者更准确地了解其他用户的态度和体验,进而做出更明智的购买决策。同时,厂商和电商也可以通过情感分析了解消费者的反馈信息,从而改进产品质量和提高服务水平[57]。此外,情感分析还可以帮助平台评估用户对产品的态度和情感倾向,进而做出更好的推广策略,提升商家的品牌形象和口碑。随着技术不断进步,情感分析的应用场景也越来越广泛,不仅仅局限于电商领域,还可以应用于社交媒体、新闻评论等领域,帮助人们更好地了解其他人的想法和情感态度,促进信息传播和沟通。因此,情感分析是一项具有广泛应用前景的技术,对于人们的生活和工作都有着重要的意义和影响。在分析过程中,采用了文本挖掘技术,对大量评论数据进行了积累和分析,随着数据挖掘和机器学习方法的不断成熟,现在已经能够实现对评论文本的情感分类,情感词提取,标注和情感强度计算等。通过系统化的情感分析,我们能够快速准确地判断评论中的正向和负向情感倾向,以及情感词与特征属性之间的关联,这能够帮助消费者更清晰地了解评论者对商品的使用态度,从而更好地作出购买决策。不仅如此,生产厂商和电商也能够利用情感分析的手段,获得准确的用户反馈信息,从而改进产品质量,提高服务水平,获得竞争优势。对于政府部门来说,情感分析能够帮助他们更好地了解公众对于政策和措施的反应,以及对于事件的看法,为政府决策提供重要的参考依据。在实践中,情感分析技术已经被广泛应用于电商平台、社交媒体、新闻媒体等领域。电商平台通过对用户的评论进行情感分析,可以更好地了解消费者对商品的使用情况和需求,以及对于服务的反应,从而为电商平台的经营和服务提供指导和参考;社交媒体和新闻媒体通过对用户评论的情感分析,可以了解公众对于事件的看法和反应,以及对于政策和措施的反应,从而为社会舆情的管理和公共政策的制定提供参考。综上所述,情感分析技术是一项非常重要的技术,它不仅可以帮助电商平台更好地了解消费者的需求和反应,还可以为政府决策和社会管理提供重要的参考依据。随着技术的不断进步,我们相信情感分析技术将会在更多的领域得到广泛应用,为我们带来更多的便利和价值。


                IP属地:重庆9楼2023-04-01 23:19
                回复
                  第3章 多模态数据融合模型
                  3.1模型构建
                  本文提出的多模态信息特征分类模型,由文本特征提取模型和图像特征提取模型组成。该模型工作流程的整体框架如图3.1所示。其中,文本特征提取模型采用单词嵌入技术和Text-CNN网络来提取文本特征,图像特征提取模型则采用转移学习和VGG19卷积神经网络来提取图像特征。这两个模型提取出的文本特征和图像特征都会经过一个独立的分类模型进行分类,得到文本和图像两种模态的分类结果。最后,利用连接特征融合方法将文本和图像特征融合成一个综合特征向量,并且采用softmax分类方法将综合特征向量进行分类,以获取最终综合的分类结果。
                  图3.1 模型构建
                  3.2特征提取
                  3.2.1基于word2vec模型的词向量训练
                  Word2vec模型是一种基于神经网络的词向量训练模型,其训练过程通常包含以下步骤:
                  数据预处理:将原始的文本数据进行分词处理,并去除停用词等无意义的词汇。分词后,将文本数据转换为由单词组成的序列。
                  构建词汇表:对于训练集中出现的所有单词,构建一个词汇表。词汇表中的每个单词都被赋予一个唯一的整数编号,用于后续的训练过程。
                  定义模型:在训练之前,需要定义Word2vec模型的结构。Word2vec模型通常包含一个输入层、一个或多个隐藏层以及一个输出层。其中输入层的每个节点表示一个单词,输出层的每个节点表示一个词汇表中的单词。隐藏层通常包含数百个节点,用于提取单词之间的语义关系。
                  训练模型:Word2vec模型的训练过程通常采用随机梯度下降法(SGD)或者其他优化算法。在训练过程中,每次随机选择一个单词作为输入,同时选择其前后几个单词作为输出。然后通过反向传播算法更新神经网络的权重,使得模型能够更好地预测输入单词的上下文信息。
                  生成词向量:在训练完成后,可以提取每个单词对应的词向量。词向量是神经网络隐藏层中节点的权重,是一个由实数值组成的向量,用于表示单词的语义信息。通常情况下,词向量的维度通常在50到300之间,可以通过调整模型的参数进行控制。
                  总之,Word2vec模型的训练过程是一个迭代的过程,在每一轮迭代中,模型都会不断地尝试提高对输入单词上下文信息的预测准确率,最终得到一组具有语义信息的词向量。这些词向量可以应用于文本分类、情感分析、文本相似度计算等多个NLP任务中。。
                  训练完成后,Word2vec模型会生成每个单词的高维向量表示,也就是所谓的词向量。这些词向量捕捉了单词之间的语义和语法关系,使得具有相似语义和语法特征的单词在向量空间中距离更近,不同类型的单词在向量空间中则具有不同的方向。这些词向量可以被用来表示单词,也可以作为其他深度学习模型的输入。
                  比如,在自然语言处理领域,可以使用Word2vec训练得到的词向量来进行文本分类、情感分析、文本生成等任务。在计算机视觉领域,可以将图像中的对象或场景转换成文本描述,再使用Word2vec生成的词向量作为输入,实现图像分类、目标检测等任务。因此,Word2vec模型训练得到的词向量在自然语言处理和计算机视觉等领域中有着广泛的应用。
                  3.2.2文本特征提取Text-CNN
                  TextCNN网络结构主要包含嵌入层、卷积层、池化层和全连接层。由图可以对应图像处理理解TextCNN用于对句子的特征向量提取。第一次是词矩阵。每行代表的是词向量,维度为5。可以类比图像中的原始像素点。第二层卷积层是经过了一个kernel_size=(2,3,4)的一个一位卷积层,每一个 kernel_size 有两个输出通道,在图像中,可以利用(R,G,B)作为不同的通道,但是文本中输入的通道通常采用的是不同的embedding方式,实践过程中也有利用静态向量词和fine-tunning词向量作为不同通道的方法。第三层是一个Maxpooling层,这样不同长度的句子经过pooling层后都可以变成特定长度的表示。模型中最后一个层是一个全连接层,用于计算类别的概率,本文提取的主要是经过pooling层后的特征向量,将该向量输入到特征融合层中。
                  对于文本部分,假如用户发布的某一条评论文本集合为,p表示评论文本字数,我们需要将评论文本集合转化为数值表示形式,通常使用词向量表示每个单词,而一个评论文本则表示为一组词向量的集合。使用训练好的word2vec模型可以得到每个单词对应的词向量,进而构建出整个评论文本集合的向量表示。在本文中,我们采用Text-CNN网络进行文本特征提取,将评论文本集合的向量表示输入到Text-CNN网络中,提取出文本特征,最后评论句向量表示为,这个句向量将用于下一步基于词向量特征的评论文本分类。对于标签数据,,每个用户可能会有不止一个标签,每个标签可以通过分解成空间向量模型的方法来构建其特征表达。最后,不同兴趣类别的用户分享图片的概念特征分布不同,发布的评论不同,用户标签也不同。我们可以利用这些不同来预测用户的不同兴趣。因此,我们可以通过文本部分的特征表示来进行预测。具体地,文本部分的特征表示如图3.2所示。
                  图3.2 文本部分特征表示方法
                  3.2.3图像特征提取VGG19
                  VGG19包含19个隐藏层,其中有16个卷积层和3个全连接层。VGG19结构输出的结果为图像的分类,与特征提取不适用,相较于层次更为深维度更低的全连接层,全连接层前的池化层可以保留输入图像的大部分空间信息和丰富的语以表示,利用主成分分析进行降维,将冗余的信息进行压缩,减少计算相似度需要的时间,同时减少保持特征描述需要的内存空间。步骤大概为以下三个步骤。
                  1、图片预处理,归一化
                  2、进入网络结构
                  3、进行主成分分析降维
                  在使用VGG网络提取特征向量后,我们发现其维度较高,为了减少计算量和提高分类精度,我们需要对其进行降维处理。本文采用的是主成分分析(PCA)降维的方法。PCA是一种常用的数据降维算法,其主要思想是将高维数据映射到低维空间中,保留数据的主要信息。具体来说,PCA通过将原始数据中的特征向量按照方差大小进行排序,选择方差最大的方向作为第一个新坐标轴,再在与第一个坐标轴正交的平面中选择方差最大的方向作为第二个坐标轴,以此类推,直到选择出k个新的坐标轴。这些新坐标轴组成的正交特征就称为主成分,它们能够最大程度地保留原始数据的方差信息。
                  通过PCA降维处理,我们可以将高维数据映射到低维空间中,并保留数据的主要信息。具体来说,我们可以将高维特征向量投影到前k个主成分所构成的低维空间中,得到降维后的特征向量。在实际应用中,通常只需要保留前几个主成分,因为它们包含了大部分的方差信息,而余下的主成分所包含的方差很小,对分类结果的影响也很小,可以忽略不计。
                  总之,PCA是一种简单有效的数据降维算法,可以将高维数据映射到低维空间中,从而减少计算量、提高分类精度。通过选择合适的主成分数,可以实现对数据特征的有效提取和降维处理。
                  1、计算协方差矩阵
                  2、对协方差矩阵进行特征分解(对角化)
                  3、选择特征值最大的特征值对应的特征向量作为转换矩阵,将原始数据降维
                  对于图像部分,给定某个用户U,假设其发布的一条评论中包含的图片集合为,n表示图片的数量,对于每一张图片i,采用训练好的VGG19模型提取图像特征,选取第二层全连接层的输出作为图像的特征向量Vi。并将融合后的多个图像特征向量求平均,输入全连接层,将输出作为图像部分的特征表示[59]。图像部分特征表示过程如图3.3所示。
                  图3.3 图像部分特征表示方法
                  3.3 图文特征融合与分类
                  3.3.1特征融合
                  以前面所提出的模型为基准,本文提出如下图所示的图文特征融合与分类模型。
                  图3.4 图文特征融合与分类结构图
                  为了将两种特征向量进行比较好的融合,使用模态间注意力机制是个不错的方法。模态间注意力机制是一种用于将不同模态的特征融合的技术,它可以自适应地给每个模态的特征赋予不同的权重,从而实现对不同模态的特征的加权融合。在本文中,我们使用了一种基于注意力机制的方法来计算不同模态之间的注意力关系,以捕获它们之间的重要性和关联性。具体地说,我们在文本特征和图像特征之间建立了一个模态间注意力模型,通过学习得到注意力权重系数。该模型的输入是文本特征和图像特征的向量表示,输出是每个模态的注意力权重系数。在每次特征融合过程中,我们使用这些权重系数来计算不同模态的加权融合表示,以获取更准确的综合特征表示,从而提高分类性能。
                  在模型训练过程中,我们的注意力层神经网络通过不断调整每个维度的向量权重,以优化模型的分类效果,并输出每种模态特征的特征权重向量。这些权重向量与原特征向量相乘,生成带权的特征向量,然后将每个模态的带权特征向量输入到分类的神经网络中,每个神经网络都输出对应模态的分类结果。将这些结果简单拼接融合成一个多模态的特征向量[60]。在模态间融合的过程中,每个单独模态的分类模型都使用单独的损失函数,而综合分类模型的损失函数使用每种模态的损失函数乘以相应权重的方式来加强每个模态的情感信息对综合分类的影响。最终,我们将每种模态识别的单独情感类型输出,并同时输出综合了所有模态的情感分类结果,以更全面地反映出评论文本的情感。


                  IP属地:重庆10楼2023-04-01 23:22
                  回复
                    在本模型中,损失函数Losstotal是用于综合情感分类的模型的损失函数,其中V表示的是视觉情感的相关信息,T表示的事文本情感的相关信息。辅助函数αM、αV、αT是这个模型中的是这个模型中的相关辅助函数,它们分别代表着一定量的权重。αM针对的是综合情感的权重。αV针对的是视觉情感的权重,αT针对的是文本情感的权重。这些相关权重的值都会通过一种名叫网格搜索法的方法来确定最佳的值。每个综合情感数据的真实标签特征第i维度的值表示为yi,而对应的预测标签特征的值表示为ŷi。分类数n同时也是标签特征的维度数。损失函数LossV和LossT分别是用于视觉情感分类和文本情感分类的损失函数[61]。每个视觉情感或文本情感数据的真实标签特征的第z维度的值表示为vjz或tjz,而对应的预测标签特征的值表示为ŷjz。这些标签特征的真实值和预测值都用于计算模型的损失函数,并在训练过程中对模型进行优化。最终的综合情感分类结果是由所有模态的情感分类结果综合而成,可以通过整合所有模态的分类结果来获得综合的情感分类输出。
                    3.3.2分类
                    在我们对这些特征都进行相应的融合之后,他们会被一起输入具有softmax激活函数的Dense层,然后对这些参数进行相关运算。整个神经网络的输出结果y最终都会映射成一个概率的分布y',这个概率分布具有特殊的意义,他表示了不同的样本序列属于何种分类的的可能性。在整个过程中,我们假设神经网络的输出是 [y1, y2, ... yn],在这一串输出中,n代表的是整个样本不同的类别数量,然后我们将softmax函数应用到这些输出上去。就能将这些输出实现归一化的操作,将他们变成一个概率分布 [y'1, y'2, ... y'n],这些元素都对应了一个可能性。表示每个样本应该属于何种的类别。然后我们在这个概率分布中选择一个最高的值。这个词将成为整个样本的预测性标签,那么经过softmax处理后,得到向量v′ = [1′ , 2′ , … ,n′ ],其中1′ + 2′ + ⋯+n′ = 1。
                    这个模型。可以处理文本和图像两种不同的输入。会先对这两个不同的模态输入进行一个分类,再得到这两个分类结果之后,使用注意力机制将两个模态的不同的特征向量进行对应的融合,在融合成功之后,把特征向量输入到整个神经网络中。经过神经网络的运算,得到最终的结果。并且在这个神经网络中每个不同的模态,无论是文本模态还是图像模态会有相应的对应的损失函数。并且还有辅助的损失函数来加强相关信息对于分类的影响。最后我们将文本模态和图像模态两个不同的模态的分类结果进行一个比较简单的融合,最终得到一个多模态的向量,好输入到softmax函数中,以获取最终的分类结果。
                    本文构建的多模态信息特征分类模型利用多种类型的数据特征,如图像、文本和语音等,通过深度神经网络将这些特征进行融合,并进行多标签分类。该模型包含两个重要的组成部分:多模态特征提取器和多模态特征融合器。
                    多模态特征提取器主要用于提取每种数据类型的特征表示。对于图像数据,使用卷积神经网络提取图像特征;对于文本数据,使用词向量表示表达文本内容;对于语音数据,使用语音识别技术提取语音特征。这些不同类型的数据经过特征提取之后被转化为向量表示,便于后续处理。
                    而多模态特征融合器则是将各种类型的特征在一个统一的表示空间中进行融合,获得每种数据类型的加权特征向量。融合器可以通过简单地将各个数据类型的特征向量相加或是更加复杂的结构来达到这一目的。最终,融合后的特征向量作为输入传递给一个分类器来预测可能的标签。
                    该模型具有许多优势。首先,它可以通过多种类型的数据来准确地分类多个标签。同时,具有良好的可扩展性和适应性,可以在不同的数据集上进行训练和测试。其次,在模型实现时,可以调整各个模块的参数以改进模型效果。因此,该模型可以应用于多种实际应用场景,例如情感分析、垃圾邮件检测和医学诊断等领域。


                    IP属地:重庆11楼2023-04-01 23:23
                    回复