索引的处理过程【河北网络营销吧】

河北网络营销吧关注：19贴子：119

0回复贴，共1页

索引的处理过程

提取文字
　　搜索引擎蜘蛛抓取页面之后，从HTML中找出单纯文字信息，JavaScript代码、HTML标记语言的普通标签对搜索引擎来讲是毫无意义的。
　　除了提取普通文章外，还会提取图片或Flash的alt属性中的文字、以及链接锚文本等，同时，还有meta标签中的标题与页面描述信息。
　　② 中文分词
　　中文分词：指的是将一个汉字序列切分成一个个单独的词。
　　在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂得多、困难得多。
　　中文分词有三类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
　　字符匹配：它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况，可以分为最大(最长)匹配和最小(最短)匹配。
　　理解法：这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。石家庄市桥西区西美花街西美酒家大厦17层河北华信智原
　　统计法：从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。

送TA礼物

IP属地:山西

1楼2018-08-17 09:24回复

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

0回复贴，共1页

<返回河北网络营销吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

索引的处理过程

登录百度账号

扫二维码下载贴吧客户端