做SEO的朋友大多数都喜欢研究关键词的4个原理

做SEO的朋友大多数都喜欢研究关键词,而关键词搜索又会涉及到分词算法。最大与最小(最大匹配:一直匹配到没词可配;最小匹配:匹配出词了就停止匹配,再从另一个词开始匹配)比如:百度搜索“杭州网站优化”,百度的一个分词算法我们把它当成一个黑盒子,我们通过一些输入关键词,根据百度的输出结果来判定百度的分词算法。分词工具(没有百度的,收集了几个开源的分词工具):

大多数SEO朋友都喜欢研究关键词,关键词搜索会涉及到分词算法。百度分词技术是百度对用户提交的关键词串进行查询处理后,根据用户的关键词串,采用各种匹配方法的技术。所谓分词,就是把连接汉字的汉语句子分成几个独立的、完整的、正确的词。词是最小的、独立的、有意义的语言成分。

计算机的所有语言知识都来自机器词典(给出词的各种信息)、句法规则(词的聚合现象用词性的各种组合来描述),以及语义、上下文、相关词句库的语用知识。中文信息处理系统只要涉及句法语义(如检索、翻译、摘要、校对等应用),就需要以词为基本单位。只有将汉字从句转化为词,才能实现句法分析、句子理解、自动概括、自动分类、机器翻译等文本处理。可以说分词是机器语言学的基础。

百度分词的4个原则:

一.基于理解

傻瓜式匹配,小于等于3个汉字百度不做分词,比如搜索“学习优化”。

二.基于统计

百度之所以把一个词标记为红色:红色标记的词一般是一个关键词。当你搜索“学习”这个词时,百度认为“学习”也是一个关键词,所以出现了“学习”这个词。字标是红色的,就是百度分词:基于统计的分词。

做SEO的朋友大多数都喜欢研究关键词的4个原理

三.基于字符串匹配(百度的词法切分:前向最大词法切分)

最大和最小(最大匹配:匹配到没有要匹配的词;最小匹配:匹配一个词时停止匹配,然后从另一个词开始匹配) 例如:百度搜索“杭州网站优化”,一种分词算法百度的,我们把它看成一个黑盒子,我们根据百度的输出结果,用一些输入关键词来确定百度的分词算法。正向和反向(正向:从前向后分配;反向:从后向前分配)(优化杭州网站)正向子方法:杭州网站优化(杭州SEO优化)正向子方法:杭州seo优化。逆向方法:优化seo杭州。在这个词中,“seo”不是一个词。

四.基于专有词典

比如知名人物(比如毛泽东)、明星(比如刘德华)搜索大量词(比如:难买票)。

分词工具(不带百度,几个开源的分词工具合集):

①;全球最流行的中文分词系统

免责声明:本文来自网络用户投稿,不代表本站观点和立场。如有侵权请发送邮件至tzanseo@163.com告知本站删除,本站不负任何责任及承诺。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

发表评论

登录后才能评论