手机浏览 RSS 2.0 订阅 膘叔的简单人生 , 腾讯云RDS购买 | 超便宜的Vultr , 注册 | 登陆
浏览模式: 标准 | 列表分类:PHP

最小完美哈希函数

不好意思,这是一个标题党,主要是这个词语太让人震惊,但现在它又将变的地了。所以我先记录一下。

什么是完美哈希函数?
這一段內容來自:(http://www.kuqin.com/algorithm/20111108/314569.html)
最小完美哈希函数是什么,要从定义说起,这个名字很长,一步步解释。

  1. 哈希函数 任意函数h(x)都可以说哈希函数,一般来说,一个良好的哈希函数可以尽量避免重复。x的集合是参数域,h(x)的集合是值域。
  2. 完美哈希函数  完美哈希函数,就是完全不会冲突的哈希函数,这要求函数的值域至少比参数域要大
  3. 最小完美哈希函数 最小完美哈希函数,就是指函数的值域和参数域的大小完全相等,一个也不多
  4. 保序最小完美哈希函数 保序的意思就是指这个哈希之后顺序是不变的,同时还能满足其他两个条件。
这个函数的优点就是形式上很完美,就像给一个排好序的文档编上的序号一般紧凑可靠。但是这个函数有两个缺点,一是必须事前必须知道原数据集,二 是需要花一定的CPU来生成这个函数。我认为,对于数据仓库类的线下搜索应用,这个算法是有用武之地的。但对于强调实时的数据业务,这个算法是不适合的。
----------
這裏還有一個點評:(http://liulixiang.info/blog/tag/%E6%9C%80%E5%B0%8F%E5%AE%8C%E7%BE%8E%E5%93%88%E5%B8%8C%E5%87%BD%E6%95%B0/)

点评:(by liulixiang)

“最小完美哈希函数”从概念上很完美,生成的思想也很不错,不过实际运用中并不是那么常见:应用中已知数据集再做哈希的情况不是特别多,对时空的复杂度要求也没有过于苛刻,普通的方法即可承受。另外一般数据集很大,生成该函数的开销也太大。

---------
參考文檔:

最小完美哈希函数方法来自于Czech, Havas, Majewski等的论文:

An optimal algorithm for generating minimal perfect hash functions(Czech等1991)

Graphs, hypergraphs and hashing(Havas等1993)

A family of perfect hashing methods(Majeki等1996)

本文大部分转述或摘抄自《深入搜索引擎——海量信息的压缩、索引和查询》(该书豆瓣链接) 一书(Page 173~181),该书由梁斌翻译(原版即大名鼎鼎的MG——“Managing Gigabytes: Compressing and Indexing Documents and Image, Second Edition” 由Ian H. Witten, Alistair Moffat, Timothy C.Bell合著)(MG网站

count_chars的另类作用

count_chars表面上是計算char出現的次數,但事實上對中文支持明顯是不好的。
所以,它還有另外一個作用,即count_chars($str,4);
看好第二個參數哦。當這個參數是4時,會返回所有的会用作计算的字符串:

XML/HTML代码
  1.  !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`defghijklmnopqrstuvwxyz{|}~€‚ƒ„…†‡ˆ‰Š‹ŒŽ‘’“”•–—˜™šœžŸ ¡¢£¤¥¦§¨©ª«¬®¯°±²³´µ¶·¹»¼¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖרÙÚÛÜÝÞßàáâãæçèéêëìíîïðñòóôõö÷øùúûüýþÿ  

嗯,因此这也算是一个小技巧啦。

yiiredis的一个小BUG

yiiredis是基于phpredis的一个YII组件。平时用的话确实也挺方便,但偶尔还是会有一些小BUG,比如说:
yiiredis自带了计数器的功能,嗯,它是调用了phpredis裏的代碼:
$counter = new ARedisCounter($key);
$counter->increment();  //表示每次加1
echo $counter->getValue();

這樣的代碼是沒有任何問題的,但問題卻出現在了:
$counter = new ARedisCounter($key);
echo $counter->getValue();

上面的代碼好象沒有任何問題?但就因為這樣寫,程序崩潰了。。
NND,你不先加1,就不能取$counter->getValue();
這尼瑪也太坑爹了吧。。。。。你好歹默認一個0嘛。

Tags: yiiredis

str_word_count的想当然

看到str_word_count的時候,想當然的認為它就是統計字符串中某些單詞出現的次數。结果,根本不是這樣,只是統考這個單詞出現在第幾位。我TNND。
然後一猶豫,我就寫了一個函數:

PHP代码
  1. function getStrCounts($str,$findstr='%s'){  
  2.     $i =$s= 0;  
  3.     while(($s = strpos($str,$findstr,!$s?0:$s+count($findstr)))!==false){  
  4.         $i ++;  
  5.     }  
  6.     return $i;  
  7. }  

等我写完后,发现,果然不错耶。然后我TNND又看了一下手册。。因为我记得这玩意确实是有函数的。找了一下,果然还真TMD有。substr_count就是这个苦逼的函数:

PHP代码
  1. $format = "There are %s monkeys in the %s %s %s";  
  2. echo substr_count($format,"%s");  


我晕啊。这个count,你为什么要扔到substr_这个前缀后面???真受不了。这个问题好象很久以前也有人提过,看来苦逼的人不是我一个啊

又拍云的Yii组件

这个只是基于又拍云上面的一个小小的扩展,也是作了一个封装。
因为又拍云每次操作bucket都需要为它设置用户名和密码。如果我在一个controller里多次操作不同的bucket,有点麻烦 ,于是就做了一个小封装。
使用起来很简单,在配置文件main.php的components中加入一小段:

XML/HTML代码
  1. 'components'=>array(  
  2.     'upyun'=>'ext.upyun.EasyUpyun',  
  3. ),  

当然,如果有需要额外定制的变量,也可以参考其他组件的设置方法。

附件在这里,我就不多说了,贴上组件的注释:

PHP代码
  1. /** 
  2.  * EasyUpyun.php 
  3.  * @example: 
  4.  *  Yii::app()->upyun->upload($domain,$savedname,$datas,$autoCreateDir=true); 
  5.  *  这个是一个demo,推荐仍然使用upyun提供的API,这样就可以几乎不用改代码 
  6.  *  UpyunBase的用法是$upyun->setApiDomain('abc'); 
  7.  *  组件用法:Yii::app()->upyun->setApiDomain('bucket的别名','abc'); 
  8.  * 
  9.  * @category upyun 
  10.  * @package  upyun 
  11.  * @author   gouki <gouki.xiao@gmail.com> 
  12.  * @version  $Id$ 
  13.  * @created  12-7-6 PM11:07 
  14.  */  

再贴上变量的注释

PHP代码
  1. /** 
  2.  * 别名 
  3.  * 因为又拍云的bucket的名字比较长,在开发的时候,如果用很长的bucket会很痛苦,因此就做了一个别名功能用来代替bucket 
  4.  * @var array 
  5.  */  
  6. public $alias = array(  
  7.     'static' => 'test-public'  
  8. );  
  9. /** 
  10.  * 又拍云的bucket 
  11.  * key 为 bucket 
  12.  * value 为 bucket对应的用户名和密码,格式为“用户名:密码” 
  13.  * @var array 
  14.  */  
  15. public $bucket = array(  
  16.     'test-public' => 'admin:123456'  
  17. );  
  18. /** 
  19.  * 又拍云API实例 
  20.  * @var UpYun 
  21.  */  
  22. public $upyun;  
  23. /** 
  24.  * 是否采用upyun的debug功能,该功能为全局打开,一旦开启,所有bucket涉及的debug都开启 
  25.  * @var bool 
  26.  */  
  27. public $debug = FALSE;  

Over,有想试用的,可以直接尝试下载附件。

附件: upyun.zip (5.59 K, 下载次数:2080)

Tags: yii, 又拍云, 组件