易栈网-膘叔（Neatstudio.COM）

易栈网-膘叔

我，嫉妒了

精通MYSQL数据库——连载十三

HTML重构

转贴：偷菜盛行

一个很旧的PHP分词程序

我，嫉妒了

精通MYSQL数据库——连载十三

HTML重构

转贴：偷菜盛行

一个很旧的PHP分词程序

日志分类

热门标签

日志归档

搜索文章

最新评论

博客信息

友情链接

浏览模式: 标准 | 列表Tag:mysql

Submitted by gouki on 2009, May 16, 10:28 PM

说实话，我真的嫉妒了。。。
看到这个标题，《熟悉十多种编程语言 9岁娃玩电脑堪比专家》，我真的嫉妒了。

看看：不到一个月建成个人网站开发自己名字命名的操作系统“我还要在自己的系统中开发文档浏览、听音乐、看视频、浏览器等功能，将软件打造成为完全属于自己的软件。

再看看，他：利用网上没有版权的操作系统内核，开发了自己的操作系统，而且，又渐渐学会了C语言、VF(VisualFoxpro)、VB(Visual Basic)、VC、VC++、BASIC、Pascal、PHP(HypertextPreprocessor)、JAVA、 ASP(ActiveServerPage)等语言编程。

还有：他的表现令中国科技大学少年班的老师感到惊奇

我嫉妒了。。。

原文：http://hi.baidu.com/phpscript/blog/item/01e14cd46f3865cc51da4b11.html

Tags: 嫉妒, 电脑专家

Misc | 评论:3 | 阅读:19552

Submitted by gouki on 2009, May 16, 10:12 PM

好久好久没有写了。。。重拾起来，确实有点困难，不过，这次是坚持了。

关系数据库的三个范式最早是著名学者E.F.Codd提出来的，后人又在此基础上对大到数学集合理论，小到加设计细节等诸多方面进行了研究和探索。
有些数据库类图书在介绍三个范式时，又在其基础上增加了一些所谓的范式，但这些范式在实践中重要性不大。他们及其相应的规则只是把标准三个范式的所做的事情描述的更细致而己，这些充斥着“实体”、“属性”等专业术语却又彼此大致雷同的教条不仅没有把事情说清楚，反而会让人们更看不出它们与加有什么联系。
如果确实对数据库非常感兴趣，有一些书值得读读（我没有读过，但我现在看的书的原作者推荐）："SQL for smarties","The Practical SQL handbook","Database for mere mortals","SQL-99 complete,really"
当然如果你对读这些书的意向不大（我也意向不大，英文的，估计看不懂），那么如何很快就能上手呢？这里有一些简单的方法：
1、在设计数据库的时候，一定要给自己以充足的时间，如果数据库里已经充满了数据，而且配套的程序也已经开发完成的时候，再发现数据库设计方案还需要修改，那么花费的时间和精力可就太大了
2、如果发现自己给数据列起的名字中有序号，比如field1,field2之类的，则应该提高警惕，这种现象几乎上增加了是意味着还有更好的解决方案没有想到——再多创建一个数据表
3、在第一时间向数据库输入一些测试用途的数据，而且要尽可能地多包括一些特殊情况，如果数据出现冗余，往往是应该把数据表拆分的提示信号（但有时候也未必，比如用空间换时间的时候就需要冗余，这点在WEB应用上尤其明显）
4、注意发现和运用各个数据表之间的关联/引用关系
5、掌握SQL语言。缺少SQL编程经验的人是很验证拿出一个优秀数据库设计方案的。把信息存入数据库的目的是为了让更多人能够使用SQL查询命令把它们再迅速准备地查出来。只有了解了SQL查询命令的涉及范围，才能找出把数据分门别类地存入数据库的最佳办法
6、找个示例数据库做为借鉴（这个相对比较重要，比如你要开发论坛程序，那么你应该先找一些开源论坛进行安装，再对他们的数据库结构进行研究和借鉴是最快的学习方法）

Tags: mysql, 连载

Baby | 评论:0 | 阅读:23027

Submitted by gouki on 2009, April 22, 9:36 AM

HTML重构，以前是一个新鲜的东西，我也没有理解，博客园上有人在介绍，还写了三篇。。。

我这里只简单的复制点东西，还是以链接为重吧。（战略篇全文如下）

《Refactoring HTML: Improving the Design of Existing Web Applications》是一本精彩的HTML重构指南，作者给出了HTML重构的实践路线和方法。本文是《Refactoring HTML》的读书笔记，按照我的理解将全书的分为：战略篇，战术篇，工具篇。

本文是战略篇：全局方略的角度介绍重构的内涵，原因，时机，目标

嗯哼，我们开始：

进行重构就像打一场仗，而战争的发起是要慎重考虑的，《孙子兵法》里面讲“兵者，国之大事，死生之地，存亡之道，不可不察也。”所以动手重构之前首先要回答下面几个问题：

什么是重构？
为什么进行HTML重构？
什么时候进行HTML重构？
HTML重构的目标是什么？
面对质疑：还要重构么？

什么是重构 Refactoring?

本书侧重实战，没有《UML Distilled》那样高屋建瓴的抽象，即使有抽象，抽象层面牵扯的细节过多(这一点在后续的阅读中也可以发现)。这一部分内容我援引了《Refactoring: Improving the Design of Existing Code》对重构的定义：

Refactoring (noun): a change made to the internal structure of software to make it easier to understand and cheaper to modify without changing its observable behavior.

Refactor (verb): to restructure software by applying a series of refactorings without changing its observable behavior.

为什么进行HTML重构？

抽象地讲，HTML重构的可以让代码更能适应变化，应对系统和领域需求为新功能的开发提供更优秀的基础。

具体地讲，HTML重构可以：

让代码更具有可读性，更容易理解
重构过程中往往有意外的收获：发现隐藏的系统Bug
增强页面可用性，关注点从设计者开发者转移到使用者
缩短提高页面的呈现时间(Slow pages -Rendering Times)
解决页面浏览器不兼容问题
搜索引擎优化Search Engine Optimization

进行HTML重构的时机?

每一次进行重新设计之前；新功能将构建在一个更稳固的基础之上
Refactor When You Need to Fix a Bug
Refactor As You Do a Code Review
一个原则:勿以善小而不为；重构的过程往往是断断续续的，很少有一个连续的时间给我们进行重构。所以我们只要有机会进行重构，就动手去做吧

HTML重构的目标（What Refactor To） ?

XHTML
理由：XHTML更加严格，浏览器不再解析乱作一团的标签而是格式规范的页内容，这时负担从浏览器转移到页面开发者。内容聚合，搜索引擎优化，样式表都可以更好的应用基础。开发者能够更容易调试和解决问题，因为问题更容易定位了。XHTML不能完全解决浏览器兼容问题，但是它能够消除大部分的浏览器不兼容问题已经居功甚伟。主流HTML编辑器都提供对XHTML的支持。XHTML是未来Web应用提供坚实的基础，如：MathXML MusicXML SVG。
CSS

理由：将展现层从内容中分离出来。为不同的阅读者提供高可读性。减少代码重复，节省带宽。

REST

REST(Representational State Transfer表述性状态转移)是一种针对网络应用的设计和开发方式，可以降低开发的复杂性，提高系统的可伸缩性。REST提出了一些设计概念和准则：

1.网络上的所有事物都被抽象为资源（resource）；

2.每个资源对应一个唯一的资源标识（resource identifier）；

3.通过通用的连接器接口（generic connector interface）对资源进行操作；

4.对资源的各种操作不会改变资源标识；

5.所有的操作都是无状态的（stateless）。

REST之所以能够提高系统的可伸缩性，是因为它强制所有操作都是stateless的，这样就没有context的约束，如果要做分布式、做集群，就不需要考虑context的问题了。同时，它令系统可以有效地使用pool。REST对性能的另一个提升来自其对client和server任务的分配：server只负责提供resource以及操作resource的服务，而client要根据resource中的data和representation自己做render。这就减少了服务器的开销。

重构的目标不是金科玉律，你没有必要逐一进行实践。你可以按照XHTML->CSS-->Rest的顺序按部就班步步为营，也可以根据实际情况调整重构目标和计划。但是只要你做了，你就可以从重构过程中得到好处。

面对质疑：还要重构么？

重构的本质决定了它不是生产性的，重构的完成并没有新功能的产生。所以重构往往面临来自各方面的质疑：

重构就是在浪费时间，我们还是开发新功能吧

面对质疑我们给出这样的答案：

HTML重构从长远来看为后续开发提供了一个良好的基础，实际上是节省了时间。因为系统更容易添加新功能，更容易维护。重构的过程能让开发者对以前的工作有一个思考，对新人是一个熟悉系统的机会。
HTML重构本身并不会占用太多的时间，因为我们有很多自动化的工具可用。
HTML重构不需要一个连续的时间，断断续续的时间未尝不可，对于开发者来说，进行重构就像日行一善。

HTML重构：战略篇

HTML重构：战术篇

HTML重构：工具篇

Tags: html, 重构

PHP | 评论:3 | 阅读:22662

Submitted by gouki on 2009, April 16, 11:11 AM

其实，开心网，我也就上去一段时间就不怎么玩了，主要还是我老婆在玩。
不习惯那种氛围吧？不过自己也会偶尔上去做做投票啥的，里面的停车位、买奴隶、咬人、种田啥的确实没有什么好玩的。

买房？纯粹是YY嘛。现实中买不起房只能去网上自己安慰一下自己？打工？王老吉分店总经理又怎么样？还是在YY。种田吧，还要担心被偷，停车吧还要被贴牌。车也买不起。所以。。。对这类YY型游戏，我是兴趣不大的。

当然做做投票，还是有点乐趣的，SNS嘛。传说中的六格理论（名字可能记错）？每6个人你就会认识一个人。找找朋友也还是有机会的。

下面贴上某位朋友的文章，里面介绍的两篇原文写的不错，挺长。我也全部看完了。作者截出来的这段很有意思。。。

原文：http://shiningray.cn/tou-cai.html

今天读到两篇文章，《这么开心》与和菜头的《韩流来袭》。这两篇应该合起来看。

前一篇文章作者分析了kaixin001的花园组件的设定，这种设定是完全鼓励偷窃而非劳作的——相比之下，开心农场的设定就要更有“道德”一些，开心农场中任何植物不能被完全偷光。

和菜头则通过韩国奇怪的搜索引擎（各家独立的庞大门户，和局限于自己的引擎），说出了这种模式的问题：

中国人有着悠久的传统，每天在书包里带一块砖，用饭盒打一盒单位的水泥回家，经过数月之功，修建一个自己家的小厨房。对于分享和探索，中国人没有多少兴趣。但是，对于像个搬仓鼠一样把外面的资源弄回自己的小家，却人人都有浓厚的兴趣。开心网上最火热的两款游戏是争车位和偷菜，可以从一个侧面印证这一点。

对于这种分享上的文化差异，我希望只是设计师的设定问题。

Tags: 开心网, 校园网

Misc | 评论:0 | 阅读:18730

Submitted by gouki on 2009, April 8, 7:31 AM

这是一个比较老的分词程序，原文中的一些链接现在不是地址不正确就是打不开了。由此可以证明它是多老了。
再加上PHP直接进行分词的性能本来就不咋地，因此，建议仅仅用在很小的地方，比如自动添加TAG之类的。

原文如下：http://blog.sina.com.cn/s/blog_5677bc54010000i5.html

用PHP去做中文分词并不是一个太明智的举动, :p

下面是我根据网上找的一个字典档, 简易实现的一个分词程序.

(注: 字典档是gdbm格式, key是词 value是词频, 约4万个常用词)
代码请参见http://www.shi8.com/out/support/art_316.txt

PHP代码

<?php
//中文分词系统简易实现办法
//切句单位:凡是ascii值<128的字符
//常见双字节符号:《》，。、？“”；：！￥……　％＄＃＠＾＆＊（）［］｛｝｜＼／＂＇
//可以考虑加入超常见中文字: 的和是不了啊 (不过有特殊字比如 "打的" "郑和" .. :p)
//计算时间
function getmicrotime(){
list($usec, $sec) = explode(" ",microtime());
return ((float)$usec + (float)$sec);
}
$time_start = getmicrotime();
//词典类
class ch_dictionary {
var $_id;
function ch_dictionary($fname = "") {
if ($fname != "") {
$this->load($fname);
}
}
// 根据文件名载入字典 (gdbm数据档案)
function load($fname) {
$this->_id = dba_popen($fname, "r", "gdbm");
if (!$this->_id) {
echo "failed to open the dictionary.($fname)<br>\n";
exit;
}
}
// 根据词语返回频率, 不存在返回-1
function find($word) {
$freq = dba_fetch($word, $this->_id);
if (is_bool($freq)) $freq = -1;
return $freq;
}
}
// 分词类: (逆向)
// 先将输入的字串正向切成句子, 然后一句一句的分词, 返回由词组成的数组.
class ch_word_split {
var $_mb_mark_list; // 常见切分句子的全角标点
var $_word_maxlen; // 单个词最大可能长度(汉字字数)
var $_dic; // 词典...
var $_ignore_mark; // true or false
function ch_word_split () {
$this->_mb_mark_list = array("，","　","。","！","？","：","……","、","“","”","《","》","（","）");
$this->_word_maxlen = 12; // 12个汉字
$this->_dic = NULL;
$this->_ignore_mark = true;
}
// 设定字典
function set_dic($fname) {
$this->_dic = new ch_dictionary($fname);
}
function set_ignore_mark($set) {
if (is_bool($set)) $this->_ignore_mark = $set;
}
// 将字串切成句子再加以切分成词
function string_split($str, $func = "") {
$ret = array();
if ($func == "" || !function_exists($func)) $func = "";
$len = strlen($str);
$qtr = "";
for ($i = 0; $i < $len; $i++) {
$char = $str[$i];
if (ord($char) < 0xa1) {
// 读取到一个半角字符
if (!emptyempty($qtr)) {
$tmp = $this->_sen_split($qtr);
$qtr = "";
if ($func != "") call_user_func($func, $tmp);
else $ret = array_merge($ret, $tmp);
}
// 如果是单词或数字. 根据 char 将数据读取到 >= 0xa1为止
if ($this->_is_alnum($char)) {
do {
if (($i+1) >= $len) break;
$char2 = substr($str, $i + 1, 1);
if (!$this->_is_alnum($char2)) break;
$char .= $char2;
$i++;
} while (1);
if ($func != "") call_user_func($func, array($char));
else $ret[] = $char;
}
elseif ($char == ' ' || $char == "\t") {
// nothing.
continue;
}
elseif (!$this->_ignore_mark) {
if ($func != "") call_user_func($func, array($char));
else $ret[] = $char;
}
}
else {
// 双字节字符.
$i++;
$char .= $str[$i];
if (in_array($char, $this->_mb_mark_list)) {
if (!emptyempty($qtr)) {
$tmp = $this->_sen_split($qtr);
$qtr = "";
if ($func != "") call_user_func($func, $tmp);
else $ret = array_merge($ret, $tmp);
}
if (!$this->_ignore_mark) {
if ($func != "") call_user_func($func, array($char));
else $ret[] = $char;
}
}
else {
$qtr .= $char;
}
}
}
if (strlen($qtr) > 0) {
$tmp = $this->_sen_split($qtr);
if ($func != "") call_user_func($func, $tmp);
else $ret = array_merge($ret, $tmp);
}
// return value
if ($func == "") {
return $ret;
}
else {
return true;
}
}
// 将句子切成词, 逆向
function _sen_split($sen) {
$len = strlen($sen) / 2;
$ret = array();
for ($i = $len - 1; $i >= 0; $i--) {
// 如: 这是一个分词程序
// 先取得最后一个字
$w = substr($sen, $i * 2, 2);
// 最终的词长
$wlen = 1;
// 开始逆向匹配到最大长度.
$lf = 0; // last freq
for ($j = 1; $j <= $this->_word_maxlen; $j++) {
$o = $i - $j;
if ($o < 0) break;
$w2 = substr($sen, $o * 2, ($j + 1) * 2);
$tmp_f = $this->_dic->find($w2);
//echo "{$i}.{$j}: $w2 (f: $tmp_f)\n";
if ($tmp_f > $lf) {
$lf = $tmp_f;
$wlen = $j + 1;
$w = $w2;
}
}
// 根据 $wlen 将 $i 偏移了
$i = $i - $wlen + 1;
array_push($ret, $w);
}
$ret = array_reverse($ret);
return $ret;
}
// 判断字符是不是字母数字_- [0-9a-z_-]
function _is_alnum($char) {
$ord = ord($char);
if ($ord == 45 || $ord == 95 || ($ord >= 48 && $ord <= 57))
return true;
if (($ord >= 97 && $ord <= 122) || ($ord >= 65 && $ord <= 90))
return true;
return false;
}
}
// 分词后的回调函数
function call_back($ar) {
foreach ($ar as $tmp) {
echo $tmp . " ";
//flush();
}
}
// 实例(如果没有输入就从 sample.txt中读取):
$wp = new ch_word_split();
$wp->set_dic("dic.db");
if (!isset($_REQUEST['testdat']) || emptyempty($_REQUEST['testdat'])) {
$data = file_get_contents("sample.txt");
}
else {
$data = & $_REQUEST['testdat'];
}
// output
echo "<h3>简易分词演示</h3>\n";
echo "<hr>\n";
echo "分词结果(" . strlen($data) . " chars): <br>\n<textarea cols=100 rows=10>\n";
// 设定是否忽略不返回分词符号(标点,常用字)
$wp->set_ignore_mark(false);
// 执行切分, 如果没有设置 callback 函数, 则返回由词组成的array
$wp->string_split($data, "call_back");
$time_end = getmicrotime();
$time = $time_end - $time_start;
echo "</textarea><br>\n本次分词耗时: $time seconds <br>\n";
?>
<hr>
<form method=post>
您也可以在下面文本框中输入文字，提交后试验分词效果:<br>
<textarea name=testdat cols=100 rows=10></textarea><br>
<input type=submit>
</form>
<hr>

文章引用自：http://www.im286.net/viewthread.php?tid=1157015

Tags: 分词, gbm

PHP | 评论:0 | 阅读:21085

Records:114«‹8 9 10 11 121314 15 16 17 ›»

« 2025年07月 »