文本情感分析的方法
在我的《从内容到营销,是什么?》一文中,我曾经讲过文章情感分析的一些理论和方法。我想给大家介绍一下文本情感分析的一些基本方法——归纳法、词向量、神经网络、聚类等。首先,归纳法需要有一定背景知识或者行业知识,例如服装销售行业、房地产行业等。其次,词向量是为了更好地描述一篇文章中的主要信息(或主题)。最后,聚类将文本与用户(消费者)通过文本进行对话以进行讨论。
• 一、归纳法
归纳法是对一篇文章进行初步情感分析的最简单的方法。归纳法可以简单分为两类:1.问题式:主要是对文中的一些关键问题进行探讨。例如“是什么”“怎么做”等。这两类方法是通过对文章中关键词进行分析来得出结论。归纳法通常用于比较文章各个段落的关键词,例如服装销售、房地产等。
• 二、词向量
词向量是用来描述一篇文章中的主要信息(或主题),通过将其转换为向量的形式,我们可以分析用户的观点。在中文中,词向量就是我们用来描述某一话题的词。如在《如何从文字中理解我们身边的人?》一文中,我们可以将一个单词或句子划分为 N个向量。那么多向量之间的关系如何呢?这就是词向量原理。当我们在文本中看到一个单词或句子时,它们通常是相似的。
• 三、聚类分析法
聚类分析法又称分类算法,它是通过计算一个或多个相似对象的特征,将它们划分为若干类而进行聚类求解的一种方法。聚类分析可以将一些信息(如标签、描述)与一群人进行沟通:不同类型的用户会讨论一些相似的话题,也就是“同类观点”;而不同类型的用户则会讨论一些相同的观点。聚类算法最重要的作用在于能够将数据集中的特征点聚集起来,从而获得对分析结果更加准确可靠的结果。简单来说,将文本(如微博)与消费者进行沟通,首先就要将文本(如微博)分类。聚类是将文本(如微博)划分为几个群体进行讨论,其目的是为了最大限度地减少主观性分析带来的误差。然后需要将相似对象进行聚类来进行特征点关联,从而将这几个个体进行关联处理和聚类。例如我们可以通过聚类将微博中“大胸”“美少女战士”等进行聚类然后根据聚类结果来进行细分和划分。