中文分词和搜索引擎

中文分词的算法

中文分词技术的研究,已经有几十年的历史了,在20世纪80年代,我国就有人开始研究如何用计算机来自动分词。如何让机器去识别语言中最小的语意单位,不是一件很容易的事情。

如何进行分词?对于程序员来说,最容易想到的办法是,用一个大词典,把所有的词都存入词典中,扫描输入的文本,查找所有可能的词,然后看哪个词可以做为输出。例如:

输入文本: 我是学生 词: 我/是/学生

其实这样做了以后,可以解决60%的问题。总结起来,分词的算法分为:

  1. 基于字符串匹配的分词方法

  2. 基于理解的分词方法

  3. 基于统计的分词方法

阅读全文

什么是Viewport

手机浏览器是把页面放在一个虚拟的“窗口”(viewport)中,通常这个虚拟的“窗口”(viewport)比屏幕宽,这样就不用把每个网页挤到很小的窗口中(这样会破坏没有针对手机浏览器优化的网页的布局),用户可以通过平移和缩放来看网页的不同部分。移动版的 Safari 浏览器最新引进了 viewport 这个 meta tag,让网页开发者来控制 viewport 的大小和缩放,其他手机浏览器也基本支持。

Viewport 基础

一个常用的针对移动网页优化过的页面的 viewport meta 标签大致如下:

width:控制 viewport 的大小,可以指定的一个值,如果 600,或者特殊的值,如 device-width 为设备的宽度(单位为缩放为 100% 时的 CSS 的像素)。

height:和 width 相对应,指定高度。

initial-scale:初始缩放比例,也即是当页面第一次 load 的时候缩放比例。

maximum-scale:允许用户缩放到的最大比例。

minimum-scale:允许用户缩放到的最小比例。

user-scalable:用户是否可以手动缩放

阅读全文

浏览器/代理服务器高速缓存

为了迅速提高用户的 Web 体验,大多数浏览器采用了一项名为缓存的技术。缓存允许将网页、图像等内容保存在用户计算机上。如果用户调用先前请求过的网页,浏览器无需再次向网站本身发出请求,就可从缓存中重新调用此网页的信息,从而实现快速访问。

阅读全文

广告系统-概念-网络广告术语缩写:

PV(访问量):即Page View,即页面浏览量或点击量,用户每次刷新即被计算一次。

UV(独立访客):即Unique Visitor,访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只被计算一次。

IP(独立IP):指独立IP数。00:00-24:00内相同IP地址只被计算一次。

阅读全文

WordPress 允许更改默认的链接形式,以此提高 URL 的可读性和对搜索引擎的友好程度。

常规设置

默认 http://digdeeply.org/?p=123

日期和文章名 http://digdeeply.org/2010/11/16/sample-post/

月份和文章名 http://digdeeply.org/2010/11/sample-post/

数字 http://digdeeply.org/archives/123

wordpress给出了以上四种方式,究竟选择哪一种才最好呢。

本以为默认的效果 ?p=id 应该是效果最好的,但事实上却发现,不愧是老外的东西,google对它的样式很友好,能收录到东西,但是百度就不行了,百度将这样的样式 ?p=id 都视为一个页面,仅仅收录了一个首页,文章页面全都忽略掉了。

阅读全文

作者的图片

DigDeeply

Technology Stack: Golang/PHP/Openresty, and so on…

Web Development Engineer

Beijing China