手机浏览 RSS 2.0 订阅 膘叔的简单人生 , 腾讯云RDS购买 | 超便宜的Vultr , 注册 | 登陆

开源分词程序

首页 > Software >

看到张宴的微博上有一条消息:
推荐一个工具:imewlconverter - 深蓝词库转换( http://t.cn/h4YOCi ) ,可以将搜狗拼音输入法细胞词库( http://t.cn/hWFEQ )*.scel 格式转换成文本格式。然后,可以将提取的一些专用词库,用于中文分词接口中去。

不错的工具,毕竟做分词的也好,做其他的也好,都可能会需要用到这个。所以我先备份了这条微博
官方地址是:http://code.google.com/p/imewlconverter/
张宴的微博:http://weibo.com/rewinx

OK,顺便再贴一下张宴的微型HTTP队列:http://blog.s135.com/httpsqs/
所谓的优点:
HTTPSQS 具有以下特征:

● 非常简单,基于 HTTP GET/POST 协议。PHP、Java、Perl、Shell、Python、Ruby等支持HTTP协议的编程语言均可调用。
● 非常快速,入队列、出队列速度超过10000次/秒。
● 高并发,支持上万的并发连接,C10K不成问题。
● 支持多队列。
● 单个队列支持的最大队列数量高达10亿条。
● 低内存消耗,海量数据存储,存储几十GB的数据只需不到100MB的物理内存缓冲区。
● 可以在不停止服务的情况下便捷地修改单个队列的最大队列数量。
● 可以实时查看队列状态(入队列位置、出队列位置、未读队列数量、最大队列数量)。
● 可以查看指定队列ID(队列点)的内容,包括未出、已出的队列内容。
● 查看队列内容时,支持多字符集编码。
● 源代码不超过800行,适合二次开发。
可以利用它来做很多事情,比如我曾经想做的短信队列发送,原来我都是利用MYSQL来做队列的,这样的效率不是特别高。而且额外写了很多程序。现在可以偷懒了。




本站采用创作共享版权协议, 要求署名、非商业和保持一致. 本站欢迎任何非商业应用的转载, 但须注明出自"易栈网-膘叔", 保留原始链接, 此外还必须标注原文标题和链接.

Tags: 分词, 开源, 词库转换

« 上一篇 | 下一篇 »

只显示10条记录相关文章

好不要脸的说明 (浏览: 26564, 评论: 4)
TURF(开源)权限定制系统终于发布了[开花石头作品] (浏览: 24530, 评论: 2)
PHP分词索引 (浏览: 21669, 评论: 1)
一个很旧的PHP分词程序 (浏览: 19233, 评论: 0)
使用开源软件设计、开发和部署协作型 Web 站点 (浏览: 18584, 评论: 0)

发表评论

评论内容 (必填):