阿里工程师是如何突破原有SEO优化手段,希望对你有所启发

小叽导读:随着内容化时代的到来,搜索引擎越来越重视站点页面的内容承载和丰富度。SEO的优化工作可以从非常多的方面做起,比如TDK的优化、内外链建设、无线化等等传统的优化方法,在这些方面的工程师已经做了大量的工作。我们所做的工作主要是聚焦于网站的内容建设上,本篇文章将会分享我们把深度强化学习应用到国际站SEO(搜索引擎优化)的一些工作与尝试。

对学校网站进行分析_seo怎么进行网站架构分析_网站seo架构优化

简介:随着内容时代的到来,搜索引擎越来越重视网站页面的内容承载性和丰富性。作为服务采购商和供应商的全球顶级B级跨境贸易平台,阿里的工程师是如何在内容排名不断提升的背景下,突破原有的SEO优化方式,提升电商平台排名的?抽象内容提取过程中如何应用人工智能知识?今天,我们一起学习讨论这项技术,希望能对你有所启发。

作者 | 郭冬冬、顾华、胡毅、王皓

背景

SEO是一种遵循搜索引擎原理,不断优化网站以获得网站在搜索引擎中的更高排名,从而使网站通过更高的排名获得更多流量的技术。SEO优化可以从TDK优化、内外链建设、无线等传统优化方式等多方面进行。这些领域的工程师做了大量的工作。

随着搜索引擎算法能力的提升,越来越关注搜索用户的实际体验。具有真实内容价值的页面越来越受欢迎,给出的排名也相应提高,吸引了更多用户。下图1是近两年国外机构给出的SEO影响因素重要性排名,从中可以看出内容建设在SEO中的重要性非常高(23%)。

seo怎么进行网站架构分析_对学校网站进行分析_网站seo架构优化

图1.SEO影响因子排名

我们做的工作主要集中在网站的内容建设上。本文将分享我们的一些工作,并尝试将深度强化学习应用于国际网站 SEO(搜索引擎优化)。

在本次内容建设工作中,我们主要做一个提取产品摘要信息的任务,以优化网站SEO列表页面的质量。具体来说,我们在搜索列表页面上为每个产品添加了相应的产品描述摘要信息。这样一方面增加了页面的文字内容,提高了搜索引擎的SEO排名,为网站的SEO引入了更多的流量;另一方面,产品的描述可以吸引用户停留,增加用户的二跳点击率,增强页面粘性。它还进一步对SEO排名产生积极影响(已推出的内容如下图2所示)。

网站seo架构优化_seo怎么进行网站架构分析_对学校网站进行分析

图2.效果页面(红框标注区域为我们添加的摘要内容)

问题描述

给定产品和对应的产品描述,我们希望从产品描述中提取合适的句子作为产品摘要信息。目前在国际站做这个任务主要面临两大挑战:

目前,网站上的描述没有严格的标注数据,无法直接指导模型应该提取哪些句子作为产品摘要信息。

网站上的商品描述复杂多样,商品描述中还有很多物流、支付、QA等信息。也很难从大量的噪音中提取出真正描述商品本身的概括性句子。

算法探索

模型

我们可以把这看作是简单的抽象抽取,将问题定义为无监督任务,使用传统的快速算法模型即:算法。该算法是一种常见的无监督抽象提取算法。它主要是比较产品描述中每个句子与其他句子的语义相似度,计算每个句子的值,然后根据这个排序选择top-N个句子作为抽象信息。我们用来计算语义相似度的公式是:

在手动过程中,我们发现输出结果包含很多噪声。主要原因是网站上的数据比较复杂,很多商家会在产品描述中加入很多不相关的信息,比如物流、支付等信息。该算法是一种基于语义相似度的无监督算法。在这种情况下,提取的句子可能有偏差。例如,提取的句子描述的是支付过程,而不是实际的产品本身。对于上面提到的两个挑战(无监督、有噪声),算法本身没有办法很好地解决。

注意力模型

鉴于上述无监督挑战,我们提出了一些改进策略。首先引入产品类别标签,将无监督学习转化为弱监督学习。通过商品类别标签,引导模型提取与类别相关的句子作为商品摘要,转化为弱监督学习。类别越相关,越有可能是在描述产品本身,相对更适合作为产品摘要信息提取。基于这个弱监督目标,我们提出了第一个改进工作——注意力模型。

在实践中,我们发现注意力模型非常适合这类任务。综上,我们构建了一个基于商品描述的文本分类模型,分类目标是我们引入的商品类别标签。在商品描述的类别分类中,由于我们引入了注意力机制,注意力机制会给每个句子分配一个注意力权重。一个句子的权重越高,也就是说,这个句子的相关性越高,就越适合提取为产品摘要信息。我们模型的详细信息如图 3 所示。

对学校网站进行分析_网站seo架构优化_seo怎么进行网站架构分析

图3.基于的产品类别分类模型

图1示例的产品描述中有三句话。3、分别描述了商家的材质、形状和联系方式。首先,该模型通过具有共享参数的 CNN 网络为每个句子提取一个特征。特征提取后的特征向量与注意力机制相结合。这里使用的注意力机制参考[1],具体公式如下:

对学校网站进行分析_网站seo架构优化_seo怎么进行网站架构分析

首先通过全连接网络进一步提取每个特征向量,用一个全局向量U计算相似度,可以理解为多个类标签的抽象表示。这里计算的相似度α就是每个句子的注意力分布。之后,每个特征向量根据权重α进行加权求和,形成最终产品描述的特征向量D。最后在D的基础上构建了一个产品类别分类的全连接层。当模型训练得当后,注意力权重α会赋予更多与类别相关的句子更大的权重,例如描述材料和形状的句子,通过它可以比较并确定该项目是 T-。第三句描述了商家的联系方式。在不同的类别中,可能存在相似的句子,即与类别相对无关,因此的权重一般都比较低。之后,我们根据注意力分布进行排序,根据排序结果,选择top-N作为失败者。

案例分析:

完成模型后,我们发现还是有一些不足的地方。在上述两个主要挑战中,注意力模型只能解决第一个挑战,即从无监督学习到弱监督学习的过渡。对于噪音较大的第二个挑战,目前还没有很好的解决。

seo怎么进行网站架构分析_网站seo架构优化_对学校网站进行分析

图4.案例一

具体来说,有两种情况注意力模型不能很好地应对。如图 4 所示,在 中,产品描述的质量比较高,有多句产品摘要信息。这里假设超参数top-N设置为2,剩下的高质量总结句将被丢弃。中,产品描述的内容与产品关系不大,也没有合适的概要信息。在这种情况下,仍然受到top-N=2的限制,注意力模型仍然会选择两个句子作为摘要。在这种情况下,引入了更多的噪声。从这两种情况可以看出,受超参数top-N的限制,注意力模型不能根据产品描述的质量动态选择相应数量的摘要信息,从而引入大量噪声。因此,我们进一步提出了模型的改进方案,即强化学习模型。

强化学习模型

对于强化学习模型,我们使用-的模型架构,参考[2],它负责从产品描述中选择合适的摘要信息作为输出,并负责判断所选句子的质量和喂食回奖励。这两个神经网络是联合训练的。. 具体模型架构如图5所示。

网站seo架构优化_seo怎么进行网站架构分析_对学校网站进行分析

图5.强化学习模型架构

具体来说,该模型总共包含三个网络 – 和 。

第一个是一个。它的主要功能是特征提取。通过特征提取原始句子,形成特征向量 Vec1 到 Vec4。基于这四个特征向量,开始选择操作,输出单元长度为1,表示句子被认为与类别相关的概率。

然后,在完成对产品描述中所有句子的决策后,将接收到的句子发送进来,计算类别分类时的交叉熵损失,并将损失作为反馈帮助他更新策略。

此外,在某些情况下,每个商品描述都可能被拒绝。在这种情况下,由于无法估计策略,我们使用训练集上类别分类的平均交叉熵损失作为更新的反馈。

实验分析

目前,我们主要做两个离线实验来测试我们模型的性能。

第一个实验主要使用摘要提取模型从包含噪声的原始数据集中提取摘要,用提取的句子替换原始数据集,并使用相同的分类网络(text-CNN)进行类别分类任务。在性能评估中,我们添加了算法一起比较。具体评估结果和验证集上的Loss曲线如下图6所示:

对学校网站进行分析_网站seo架构优化_seo怎么进行网站架构分析

图6.实验结果1

这里的全量数据是指直接使用噪声较大的原始数据来评估产品类别分类任务,而不经过任何信息抽取模型。从实验结果可以看出,全量数据包含很多噪声,直接在其上训练产品类别分类模型的性能较差,只有47.5%左右,而性能强化学习模型的比较好,得到了80%左右,说明它消除了更多的噪声。这也可以从验证集上的损失曲线中看出。全量数据包含很多噪声,拟合度比较差,而强化学习模型是最好的拟合度。同时,注意力模型的表现略好于模型,

此外,我们做的第二个实验是监督评估。我们手动标记了 1000 条数据,并比较了每种算法在标记数据上的性能。具体实验结果如图7所示:

seo怎么进行网站架构分析_网站seo架构优化_对学校网站进行分析

图7.实验结果2

在这里可以看到强化学习模型的F1值相比两者(注意力模型和算法)有显着提升,同时相对较低(低于注意力模型0.1)。这里的主要原因是强化学习模型在人工标注的数据上输出的句子数量目前比注意力模型和算法少了30%左右,这种情况下值会相应降低,但目前损失的幅度更小,同时性能会得到显着提升。

还有一点值得注意的是,在引入商品类别目标标签后的两个实验中,注意力模型的性能与无监督算法相比并没有显着提升。这里我们认为有两个原因:

1)top-N 的超参数设置限制了两个模型的性能,使得两个模型的表现都很差。目前,我们还没有找到合适的解决方案,让模型根据产品描述本身的质量动态选择参数top-N。.

2)注意力机制需要进一步优化。在注意力机制上,我们注意到 [1] 中的相似注意力机制主要用于少数类分类问题,而在我们的业务场景中,类别量级远大于前者,考虑到全局向量 U 可能不会可以有效地编码所有类别信息。

为此,我们对产品描述做了一个文档级别的类别分类测试,使用相同的 CNN 网络,一个使用注意机制,另一个不使用注意。最终的训练结果如下图8所示:

网站seo架构优化_对学校网站进行分析_seo怎么进行网站架构分析

图8.注意力机制评估

可以看出,目前的注意力机制并没有带来显着的性能提升。后来,我们认为该机制可能更适合我们当前的业务场景[3]。

案例分析

针对之前的注意力模型无法处理的两类案例,我们做了一些案例分析(如图9)。中,四句中的产品摘要信息质量比较高,并且列的值代表模型的权重分布,也可以看出四个句子的分布比较均匀,但是由于top-2的设置,模型选择了最后两个句子作为输出,因此缺少前两个句子。在这种情况下,强化学习模型可以自适应地选择所有接受的操作。

中,商品描述的四句话与商品本身相对无关。从注意力分配的权重可以看出,前三句话的注意力分配权重较低,因为类别不相关。第四句与前三句进行比较。句子的质量略高。由于需要在概率空间中,所以给第四句赋予了很高的权重,最后选择了分布最高的第四句三、。在这种情况下,强化学习模型选择全部拒绝的操作,从而有效地处理产品描述中没有产品摘要的情况,进而消除更多的噪音。

网站seo架构优化_对学校网站进行分析_seo怎么进行网站架构分析

网站seo架构优化_seo怎么进行网站架构分析_对学校网站进行分析

图9.案例二

在线效果

在线评测耗时一个月,如下图10所示,纵坐标为UV,横坐标为实验天数。我们从流量引入侧验证了这部分页面排名的提升,如蓝线所示,可以看到上线后页面可以带来稳定的UV提升。

网站seo架构优化_seo怎么进行网站架构分析_对学校网站进行分析

图10.在线评测结果

外表

从相关实验和我们自己的手工工作来看,目前的模型已经具备了很好的去噪能力,输出结果具有很好的可读性并且包含的​​噪声相对较少。同时,该方法可以结合模型生成高质量的文本导购训练期望,从而解决英语场景训练语料较少的情况。

参考:

[1] 冯杰,男,赵立,等。来自数据,AAAI。2018.

[2] 杨 Z,杨 D,戴尔 C,等。为了 , 。2016 年

[3] 林毅,沉S,刘Z,等。超过 , . 2016 年

“干货多,收获多”

seo怎么进行网站架构分析_对学校网站进行分析_网站seo架构优化

网站seo架构优化_seo怎么进行网站架构分析_对学校网站进行分析

专注机器智能

把握未来

免责声明:本文来自网络用户投稿,不代表本站观点和立场。如有侵权请发送邮件至tzanseo@163.com告知本站删除,本站不负任何责任及承诺。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

发表评论

登录后才能评论