• 端午小长假昌吉市将启动百日文化旅游活动 2019-11-16
  • 邢台彩民守号两年中620万元 却仍有遗憾 2019-11-16
  • 彩虹之眼文章中国国家地理网 2019-11-13
  • 新闻分析:联军拿下荷台达或付出巨大代价 2019-11-06
  • 邀你参赛世界杯《热血足球》正版手游iOS公测开启 2019-11-06
  • 习近平致人民日报创刊70周年的贺信 2019-11-05
  • 【学习时刻·经济实说②】管清友:中央经济工作会议的十大亮点 2019-11-04
  • 喀纳斯景区再添8只天鹅宝宝 2019-11-04
  • 天津日报社党委书记、社长王奕祝贺人民日报创刊70周年 2019-11-02
  • 【专题】高质量发展江西行动 2019-11-02
  • 为学生减负 小学数学实验浓缩58节课 2019-10-30
  • 2018年春节 瑞狗迎春 2019-10-25
  • 珠海市香洲区:快乐四点半 2019-10-25
  • [微笑]建议你去学学边际理论!基本需求免费与高级需求收费并不矛盾,相反是更有利于保持社会的良性循环。 2019-10-25
  • 滨湖利港银河广场2016年交房至今拿不到房产证 2019-10-25
  • 【百度站长平台】搜索引擎索引系统概述
    搜收录网整理 发布日期:2015/5/27 15:59:06
    众所周知,搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。过去几周给大家介绍了抓取相关的简要过程。今天简要介绍一下索引系统,以亿为单位的网页库中查找特定的某些关键词犹如大海里面捞针,也许一定的时间内可以完成查找,但是用户等不起,从用户体验角度我们必须在毫秒级别给予用户满意的结果,否则用户只能流失。怎样才能达到这种要求呢?
     
    如果能知道用户查找的关键词(query切词后)都出现在哪些页面中,那么用户检索的处理过程即可以想象为包含了query中切词后不同部分的页面集合求交的过程,而检索即变成了页面名称之间的比较、求交。这样,在毫秒内以亿为单位的检索成为了可能。这就是通常所说的倒排索引及求交检索的过程。如下为建立倒排索引的基本过程:
     
    【百度站长平台】搜索引擎索引系统概述
     
    (1)页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等;
     
    (2)分词的过程实际上包括了切词分词同义词转换同义词替换等等,以对某页面title分词为例,得到的将是这样的数据:term文本、termid、词类、词性等等;
     
    (3)之前的准备工作完成后,接下来即是建立倒排索引,形成{termàdoc},可以粗略的理解为如下,为什么是【term->doc】,而不是直接应用【doc->term】呢?
     
    【百度站长平台】搜索引擎索引系统概述
     
    上述即是索引系统中的倒排索引过程,是搜索引擎实现毫秒级检索非常重要的一个环节。

    信息网址://www.ybmql.tw/ziyuan/view15939.htm
    相关信息
  • 端午小长假昌吉市将启动百日文化旅游活动 2019-11-16
  • 邢台彩民守号两年中620万元 却仍有遗憾 2019-11-16
  • 彩虹之眼文章中国国家地理网 2019-11-13
  • 新闻分析:联军拿下荷台达或付出巨大代价 2019-11-06
  • 邀你参赛世界杯《热血足球》正版手游iOS公测开启 2019-11-06
  • 习近平致人民日报创刊70周年的贺信 2019-11-05
  • 【学习时刻·经济实说②】管清友:中央经济工作会议的十大亮点 2019-11-04
  • 喀纳斯景区再添8只天鹅宝宝 2019-11-04
  • 天津日报社党委书记、社长王奕祝贺人民日报创刊70周年 2019-11-02
  • 【专题】高质量发展江西行动 2019-11-02
  • 为学生减负 小学数学实验浓缩58节课 2019-10-30
  • 2018年春节 瑞狗迎春 2019-10-25
  • 珠海市香洲区:快乐四点半 2019-10-25
  • [微笑]建议你去学学边际理论!基本需求免费与高级需求收费并不矛盾,相反是更有利于保持社会的良性循环。 2019-10-25
  • 滨湖利港银河广场2016年交房至今拿不到房产证 2019-10-25
  • 斗地主单机版 宁夏十一选五跨度走势图 双色投注技巧大全 江苏十一选五走势路 股票推荐网站 安徽十一选五走势图表 浙江飞鱼实业有限公司 金牛棋牌游戏官网 秒速飞艇稳赢技巧 2017卖彩票赚钱吗