文章是人编写的具备语义化,搜索也是人在搜索具备语义化,通常词语、 短句、 句子构成。
那搜索引擎的核心思路就是中文分词,就是把用户搜索的信息去匹配爬虫抓取到的文章内容。
如何保证匹配的准确性呢?很简单,计分。比如搜索我是中国人这五个字,把这个短句拆分成5个字我、是、中、国、人,每个字各占一分,我是中国人这个短句算5分。
那用户搜索我是中国人主要匹配的是整个短句权重最高。那目前主流的搜索引擎所做的仅仅是匹配网页中网站编辑提供的关键词就是网站的tdk。
再者目前主流的搜索引擎都是被动采集用户的网站数据,我有更优的技术方案,就是化被动为主动,就是提供接口让用户把写好的文章已指定的数据格式推送过来即可,这样就省去了采集程序和采集服务器服务器的费用。同时可以提供网站统计程序让用户去接入。
那统计程序不仅可以对网站的访问量进行统计,同时可以对我们搜索引擎搜索的内容进行排序,就是把点击量高的文章放在最前。这些热门文章也可以理解为热点数据。
同理,这套搜索引擎也可以用于许多场景,常见于视频推荐,内容推荐,购物推荐等等。
$v){ $ka[] = $v; } var_dump($b); $aa = explode(' ',trim($b)); foreach($aa as $k=>$v){ $c=mb_strlen($v)+1; var_dump($v); for($i=1;$i<$c;$i++){ $g=mb_substr($v,0,$i); if(!in_array($g,$ka)){ $ka[] = $g; } } } var_dump($ka); $d = array(); $c = 0; foreach($ka as $k=>$v){ if(empty($v)){continue;} echo("grep '{$v}' {$argv[1]}|wc -l"); exec("grep '{$v}' {$argv[1]}|wc -l",$o,$n); $d[$k]['name'] = $v; $ct = mb_strlen($v)+$o[$k]; $d[$k]['count'] = $ct; $c = $c+$ct; } print_r($d); print_r($c); ———————————————— 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 原文链接:https://blog.csdn.net/qq_24700495/article/details/144356791 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 原文链接:https://blog.csdn.net/qq_24700495/article/details/144356791