手机浏览 RSS 2.0 订阅 膘叔的简单人生 , 腾讯云RDS购买 | 超便宜的Vultr , 免费部署 N8N 的 Zeabur 注册 | 登陆
浏览模式: 标准 | 列表Tag:php

集体智慧编程笔记(一):相似度算法

本文内容全部来自《集体智慧编程》一书,原书采用的是python,因为没有python编程环境,所以用PHP实现

PHP代码
  1. <?php  
  2. //filename:test_collecting_preferences  
  3. //数据和代码来自《集体智慧编程》  
  4. //原文采用python实现,尝试用PHP进行转换  
  5. //@description 搜集用户偏好寻找相近用户  
  6. $datalist = array(  
  7.     'Lisa Rose' => array(  
  8.         'Lady in the Water' => 2.5,  
  9.         'Snake on a Plane' => 3.5,  
  10.         'Just My Luck' => 3.0,  
  11.         'Superman Returns' => 3.5,  
  12.         'You, Me and Dupree' => 2.5,  
  13.         'The Night Listener'=> 3.0  
  14.     ),  
  15.     'Gene Seymour' => array(  
  16.         'Lady in the Water' => 3.0,  
  17.         'Snake on a Plane' => 3.5,  
  18.         'Just My Luck' => 1.5,  
  19.         'Superman Returns' => 5.0,  
  20.         'You, Me and Dupree' => 3.5,  
  21.         'The Night Listener'=> 3.0  
  22.     ),  
  23.     'Michael Phillips' => array(  
  24.         'Lady in the Water' => 2.5,  
  25.         'Snake on a Plane' => 3.0,  
  26.         'Superman Returns' => 3.5,  
  27.         'The Night Listener'=> 4.0  
  28.     ),  
  29.     'Claudia Puig' => array(  
  30.         'Snake on a Plane' => 3.5,  
  31.         'Just My Luck' =>3.0,  
  32.         'Superman Returns' => 4.0,  
  33.         'You, Me and Dupree' => 2.5,  
  34.         'The Night Listener'=>4.5  
  35.     ),  
  36.     'Mick LaSalle' => array(  
  37.         'Lady in the Water' => 3.0,  
  38.         'Snake on a Plane' => 4.0,  
  39.         'Just My Luck' => 2.0,  
  40.         'Superman Returns' => 3.0,  
  41.         'You, Me and Dupree' => 2.0,  
  42.         'The Night Listener'=> 3.0  
  43.     ),  
  44.     'Jack Matthews' => array(  
  45.         'Lady in the Water' => 3.0,  
  46.         'Snake on a Plane' => 4.0,  
  47.         'Superman Returns' => 5.0,  
  48.         'You, Me and Dupree' => 3.5,  
  49.         'The Night Listener'=> 3.0  
  50.     ),  
  51.     'Toby' => array(  
  52.         'Snake on a Plane' => 4.5,  
  53.         'Superman Returns' => 4.0,  
  54.         'You, Me and Dupree' => 1.0,  
  55.     ),  
  56. );  
  57. //欧几里德距离  
  58. //它以经过人们的一致评价的物品为坐标轴,然后将参与评价的人绘制到图上,并考查他们彼此间的距离远近。  
  59. //偏好越相似的人,距离越近。不过我们还需要一个函数来对偏好越相近的情况给出越大的值,  
  60. //为此我们可以将函数值加1(这样可以避免遇到被零整除的错误),并取其倒数  
  61. //公式是 1 / (1 + sqrt (  pow( data[a][1] - data[b][1] .... )  ))  
  62. function sim_distance ( $datalist , $person1 , $person2)  
  63. {  
  64.     $si = array();  
  65.     foreach ( $datalist[$person1as $moviename => $grade ){  
  66.         ifarray_key_exists$moviename$datalist[$person2] )){  
  67.             $si[$moviename] = 1;  
  68.         }  
  69.     }  
  70.     ifemptyempty$si )){  
  71.         return 0;  
  72.     }  
  73.     $powers = 0;  
  74.     foreach ( $si as $moviename=>$val ){  
  75.         $powers += pow( ($datalist[$person1][$moviename] - $datalist[$person2][$moviename] ), 2 );//两者影评分数相减的平方值  
  76.     }  
  77.     return 1 / (1+ sqrt($powers));  
  78. }  
  79. //测试 'Lisa Rose' 和 'Gene Seymour' 的相似度评价  
  80. //原书上求出来是 0.29429805508554946 , PHP 的结果是 0.29429805508555,默认精度没有python高  
  81. echo( sim_distance( $datalist , 'Lisa Rose' , 'Gene Seymour') );  
  82. echo'<br/>' );  
  83.   
  84. //皮尔逊相关系数  
  85. //该相关系统是判断两组数据与某一直线拟合程序的一种度量。对应的公司比欧几里德距离评价的计算公式要复杂  
  86. //但是它在数据不是很规范时(如影评者对影片的评价总是相对于平均水平偏离很大),会倾向于给出更好的结果  
  87. //皮尔逊相关度评价法首先会找出两位评论者都曾评过的物品  
  88. //计算两者的评分总和与平方和,并求得评分的乘积之和,最后,利用这个结果计算出相关系数  
  89. function sim_person ( $datalist ,$person1 , $person2)  
  90. {  
  91.     $si = array();  
  92.     foreach ( $datalist[$person1as $moviename => $grade ){  
  93.         ifarray_key_exists$moviename$datalist[$person2] )){  
  94.             $si[$moviename] = 1;  
  95.         }  
  96.     }  
  97.     ifemptyempty$si )){  
  98.         return 1;  
  99.     }  
  100.     $n = count$si );  
  101.     $sum1 = $sum1Sq = $sum2 = $sum2Sq = $pSum = 0;  
  102.     foreach ( $si as $moviename => $val ){  
  103.         $sum1 += $datalist[$person1][$moviename];   //个人影评分数累加  
  104.         $sum1Sq += pow( $datalist[$person1][$moviename], 2 );//个人影评分数平方的累加  
  105.         $sum2 += $datalist[$person2][$moviename];  
  106.         $sum2Sq += pow( $datalist[$person2][$moviename], 2 );  
  107.         $pSum += ( $datalist[$person1][$moviename] * $datalist[$person2][$moviename]);//两人影评之乘积  
  108.     }  
  109.   
  110.     $num = $pSum - ( $sum1 * $sum2 / $n); // 正常情况下,我怎么都觉得这是1吧?  
  111.     $den = sqrt( ( $sum1Sq - pow( $sum1, 2 ) / $n) * ( $sum2Sq - pow( $sum2, 2 ) / $n) );  
  112.     if ( $den == 0 ){  
  113.         return 0;  
  114.     }  
  115.     return ($num / $den );      
  116. }  
  117. //继续测试 'Lisa Rose' 和 'Gene Seymour' 的相似度评价  
  118. //原书上求出来是 0.396059017191 , PHP 的结果是 0.39605901719067,这回。。。位数超过了python  
  119. echo( sim_person( $datalist , 'Lisa Rose' , 'Gene Seymour') );  
  120.   
  121. ?>  

有点长,随便看看吧

Tags: 算法

两篇PHP的文章不错

可以值得一看的文章 :
PHP三层结构(上)——简单三层结构
PHP三层结构(下)——PHP实现AOP

在PHP方面已经挺不错了。

其实 在QEEPHP中,已经有实现了。不过没有想象中的那么好。

在第二篇 的文章中,我想过如何用插件来实现这些高级效果?那后来添加的插件又怎么实时加入系统?

QEEPHP和thinkPHP在后来已经有beforeAction,afterACtion。

thinkPHP在最早的model里也有beforeInsert,afterInsert之类的功能,用来处理数据验证。这其实已经有上面介绍的原型功能了。

过多的面向对象,虽然损失的效率,但对于业务逻辑处理来说,却比较方便了。

Tags: aop

JDK自带的native2ascii工具

在用netbeans的时候,最让人郁闷的是,他不能指定某一个目录下的文件的编码,这时候象处理康盛的玩意就很痛苦了。
康盛在最近的系统版本里,所有的文件都是ansi格式的(可以采用GBK编码打开),他所有的对UTF8支持和对BIG等的支持,全部通过语言包+charset来处理。

因此,在用netbeans的时候,打开language目录就全是乱码了。因为格式不再是ansi而是utf-8或者big5,郁闷啊。

以前是用PHP遍历目录解决,还好jdk里面有一个程序叫做native2ascii,可以很方便的解决这些。

在做Java开发的时候,常常会出现一些乱码,或者无法正确识别或读取的文件, 比 如常见的validator验证用的消息资源(properties)文件就需要进行Unicode重新编码。原因是java默认的编码方式为 Unicode,而我们的计算机系统编码常常是GBK等编码。需要将系统的编码转换为java正确识别的编码问题就解决了。

1、native2ascii简介 :native2ascii 是sun java sdk提供的一个工具。用来将别的文本类文件(比如*.txt,*.ini,*.properties,*.java等等)编码转为Unicode编码。 为什么要进行转码,原因在于程序的国际化。Unicode编码的定义:Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每 种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算 机工作能力的增强,Unicode也在面世以来的十多年里得到普及。(声明:Unicode编码定义来自互联网)。
2、获取native2ascii :安装了jdk后,假如你是在windows上安装,那么在jdk的安装目录下,会有一个bin目录,其中native2ascii.exe正是。
3、native2ascii的命令行的命名格式
native2ascii -[options] [inputfile [outputfile]]
说明:
-[options]:表示命令开关,有两个选项可供选择
-reverse:将Unicode编码转为本地或者指定编码,不指定编码 情况下,将转为本地编码。
-encoding encoding_name:转换为指定编码,encoding_name为编码名称。
[inputfile [outputfile]]
inputfile:表示输入文件全名。
outputfile:输出文件名。如果缺少此参数,将输出到控制台。
4、最佳实践 :首先将JDK的bin目录加入系统变量path。在盘下建立一个test目录,在test目录里建立一个zh.txt文件,文件内容为:“熔岩”,打开 “命令行提示符”,并进入C:\test目录下。下面就可以按照说明一步一步来操作,注意观察其中编码的变化。
A:将zh.txt转换为Unicode编码,输出文件到u.txt
native2ascii zh.txt u.txt
打开u.txt,内容为“\u7194\u5ca9”。
B:将zh.txt 转换为Unicode编码,输出到控制台
C:\test>native2ascii zh.txt
\u7194\u5ca9
可以看到,控制台输出了“\u7194\u5ca9”。
C:将zh.txt 转换为ISO8859-1编码,输出文件到i.txt
native2ascii -encoding ISO8859-1 zh.txt i.txt
打开i.txt文件,内容为“\u00c8\u00db\u00d1\u00d2”。
D:将u.txt转换为本地编码,输出到文件u_nv.txt
native2ascii -reverse u.txt u_nv.txt
打开u_nv.txt文件,内容为“熔岩”。
E:将u.txt转换为本地编码,输出到控制台
C:\test>native2ascii -reverse u.txt
熔岩
可以看到,控制台输出了“熔岩”。
F:将i.txt转换为本地编码,输出到i_nv.txt
native2ascii -reverse i.txt i_nv.txt
打开i_nv.txt文件,内容为“\u00c8\u00db\u00d1\u00d2”。发现转码前后完全一样的。也就是说,等于没有转,或者说思想糊 涂,对命名没有理解。。
G:将i.txt转换为GBK编码,输出到i_gbk.txt
native2ascii -reverse -encoding GBK i.txt i_gbk.txt
打开i_gbk.txt文件,内容为“\u00c8\u00db\u00d1\u00d2”。发现转码前后完全一样的。也就是说,等于没有转,或者说思想 糊涂,对命名没有理解。
H:将u_nv.txt转码到本地编码GBK,输出到控制台
C:\test>native2ascii -reverse -encoding ISO8859-1 i.txt
熔岩
从这个结果看,目标达到到了,编码i.txt为ISO8859-1,转为本地编码后内容为“熔岩”。从这里应该意识到,native2ascii -reverse命令中-encoding指定的编码为源文件的编码格式。而在native2ascii 命令中-encoding指定的编码为(生成的)目标文件的编码格式。这一点非常的重要!切记!!
继续探索,新建文件12a.txt,内容“12axyz”。看看纯字母数字 的编码又如何。
I:将纯字母数字的文本文件12a.txt转换为Unicode编码
native2ascii 12a.txt 12a_nv.txt
打开12a_nv.txt文件,内容为“12axyz”。
继续测试,转为ISO8859-1编码看看
C:\test>native2ascii -encoding ISO8859-1 12a.txt
12axyz
结果还是没有转码。
从结果可以得出结论:对于纯数字和字母的文本类型件,转码前后的内容是一样的。
5、总结 native2ascii 是一个非常的好转码工具,并且转码是可逆的!而其真正的含义并非本地编码——>转码为ASCII码,而是一个通用的文本文件编码转换工具。在做编码 转换的时候有两类指定编码的情形,分别指输出文件编码和输入文件编码,具体可以看看最佳实践部分。
实际应用中:
比如可以这样利用native2ascii:
native2ascii -encoding gbk     temp.properties    application_zh_CN.properties
    这里将根据一个临时文件temp.properties输出了application_zh_CN.properties,然后把 application_zh_CN.properties中的文件内容替换这个临时文件的内容就可以了。

原文来自:http://geeksun.javaeye.com/blog/275802,我自己也试了一下,确实有点用。如果配合一下批处理,那会更方便。当然你甚至还可以用PHP遍历处理,只是你可以不用mb_encode_convert来转换,而是用这个native2ascii来处理。只是自己也感觉好象有点傻(如果真的就一个文件,我情愿用editplus打开另存为了)如果。。。文件多,我是不是可以用editplus打开然后自定义,after save这个触发控件来处理呢?额,我太挫了。

其实这也是PHP开发者的无奈,编码问题一直就被纠缠着这么多年了。不知道从PHP6开始会怎么样,是否自动、强制、一定要UTF8才能处理?那样就可以解决很多事情了。语言包?可以尝试象wordpress一样,用mo文件来解决。忽略单个文件编码,这样会不会好上很多呢?只是对国内开发人员来说,也很郁闷,因为大多数人都会懒得写MO文件,而是直接在程序里面把文字输出了。

Tags: jdk, java

测试phprpc_client for SAE

为了测试phprpc_client for SAE,到小菜鸟的app网站上把他的API全部复制到SAE的空间里,做了一点测试。有不少功能呢。每个例子最后我都用highlight_file把当前文件全部打印出来。可以,写的时候就可以做参考了。

事实上也没有什么 好参考的,小菜鸟的网上有的是代码,还有演示,我这里只是仅仅作了COPY而己。

对于最后的页面显示时间,这个就涉及到网络关系了,和实际执行时间并没有太大的联系,纯粹一看。

很多例子都在:

小菜鸟的APP网站是:MYWS,对了。小菜鸟还做了一个Ecshop的皮肤,仿凡客,也不错,演示在:http://shop.17kaixin8.com/,如果觉得好,也可以向他购买哦。

Tags: phprpc, 17kaixin8, ecshop

简单的PHP类,判断远程地址状态

Tags: http, remote, http_code