搜索引擎系统入门级的常识:如何排序

作者:Yadmin 日期:2021-01-30 网址:www.yihaoseo.cn

上海seo公司,搜索引擎基本概念:爬取、索引、召回、粗排、精排、重排

爬取 & 索引>>>

搜索引擎爬取全网海量页面 → 进行基本的质量评分 → 过滤出小部分质量较佳的网页 → 创建倒排索引(能够通过关键词查询文档)

召回>>>

用户发起搜索请求 → 搜索引擎先对关键词进行纠错处理 → 拆成多个词项 → 去索引中查找能够命中这些词项的文档,可能就是这个数

粗排>>>

但是文档的实在数量太多了,一股脑的都推给用户显然很二逼,用户不可能都看完,只会看其中极小的一部分,另外也没法保证质量。

所以要从海量召回的文档中,删除其中内容高度重复的文档,并筛选与搜索词最相关的760个文档,展现给用户。

这个环节属于海选,需要大量计算,为了不让用户等待过长,一般用快捷优先且相对简单的处理方式,比如BM25、TF-IDF、LDA,具体还有啥咱也不知道。

精排>>>

之后就是对760篇文档排序的过程,最终的目的是让排序结果最大概率符合用户预期的结果,这样用户才更有可能点进去了解详情,从而提升搜索的业务价值。

这部分比海选要复杂的多,涉及一大堆数据挖掘、机器学习、用户行为分析、用户意图识别等算法,大概包括:

通过用户搜索词和前N次搜索词,结合历史日志中其他搜索该词的用户浏览行为,来揣测用户可能的搜索意图

文档的更新时间

文档的历史点击率

文档浏览后终结搜索的比例

用户的网络维度特征(IP、网络类型、地域....)

与搜索词文本匹配度最高的TopN条文档

与搜索词潜在意图覆盖率最高的TopN条文档

....太多了咱也不知道
 

上述过程,对应着搜索引擎中,爬取、索引、召回、粗排、精排的几个阶段,属于搜索引擎系统入门级的常识。
 

重排>>>

现在精排后面,还有重排,根据用户的搜索场景(网络、设备、近期点击行为等)和媒体热点,实时调整排序,比如:

   你用wifi跟手机网络,搜索结果可能有所不同

   今天上午点击的某个结果,下午再次搜索时排名就上去了

   上午媒体爆料一个叫GoGo闯神秘人和迪丽热巴约会了图片,然后下午GoGo闯的搜索结果,就跟上午完全不同了

  • 上一篇:没有了
  • 下一篇:没有了

快速导航>> :上海SEO公司网络优化公司上海seo上海百度推广企业官网SEO优化SEO知识SEO供应商网络营销策划数字营销百度推广托管物流运输公司SEO优化推广机械设备网站SEO优化房地产网络运营金融网站SEO外包电子企业网站SEO优化出国留学SEO推广医美网站优化新站SEO优化SEO整站优化seo外包上海网站建设


以下是与本文“搜索引擎系统入门级的常识:如何排序”的相关文章:
  • 2020-12-17·如何优化搜索引擎排名?
  • 2020-12-17·怎样在搜索引擎中获得更高的权重?
  • 2021-01-30·百度搜索结果大变脸:去除URL后缀,分享彻底删除
  • 2020-12-17·搜索引擎为什么不收录我的站点?
  • 2020-12-17·看看百度搜索的反噬征象
  • 2020-12-16·怎样根据搜索引擎的喜爱建设本身的网站
  • 2020-12-15·网站怎样优化才会讨搜索引擎喜好
  • 2020-12-15·搜索引擎优化seo
  • 2020-12-15·如何确定网站是否受用户以及搜索引擎青睐?
  • 2020-12-15·网站推广的方式
  • 
    首页
    电话
    短信
    在线咨询