Submitted by gouki on 2013, September 25, 11:11 PM
知乎上有人提问:为什么要使用go语言,go语言的优势是啥 ?
XML/HTML代码
- 使用Go语言开发的比较成功的软件有哪些?
- 国内有哪些公司正在使用Go,有什么指导意见吗?
然后两位网友提供了比较全的意见,一位是知乎的人员,一位是Asta谢(goweb编程的作者)。
在转贴这两位的意见前,先做个小广告,beego在谋求赞助了,在这个页面有赞助链接:http://beego.me/donate,如果你不想点上述地址而又想捐助的话,可以直接点击:
http://me.alipay.com/astaxie 进行捐赠,话说回来,我在我的博客顶部那么大的链请:请膘叔喝啤酒,都没有人有反应,心真是哇凉哇凉的。。。
好吧,抹完辛酸泪,开始转贴知乎工程师的回复 :
XML/HTML代码
- Rio,知乎工程师
- 杨肉、陈俊文、知乎用户 等人赞同
- 知乎大部分项目是 Python 写的,有几个小项目是用 Go 写的。我从一个 Python 为主的开发者的角度说说对 Go 的优点的体会吧:
- 部署简单。Go 编译生成的是一个静态可执行文件,除了 glibc 外没有其他外部依赖。这让部署变得异常方便:目标机器上只需要一个基础的系统和必要的管理、监控工具,完全不需要操心应用所需的各种包、库的依赖关系,大大减轻了维护的负担。这和 Python 有着巨大的区别。由于历史的原因,Python 的部署工具生态相当混乱【比如 setuptools, distutils, pip, buildout 的不同适用场合以及兼容性问题】。官方 PyPI 源又经常出问题,需要搭建私有镜像,而维护这个镜像又要花费不少时间和精力。
- 并发性好。Goroutine 和 channel 使得编写高并发的服务端软件变得相当容易,很多情况下完全不需要考虑锁机制以及由此带来的各种问题。单个 Go 应用也能有效的利用多个 CPU 核,并行执行的性能好。这和 Python 也是天壤之比。多线程和多进程的服务端程序编写起来并不简单,而且由于全局锁 GIL 的原因,多线程的 Python 程序并不能有效利用多核,只能用多进程的方式部署;如果用标准库里的 multiprocessing 包又会对监控和管理造成不少的挑战【我们用的 supervisor 管理进程,对 fork 支持不好】。部署 Python 应用的时候通常是每个 CPU 核部署一个应用,这会造成不少资源的浪费,比如假设某个 Python 应用启动后需要占用 100MB 内存,而服务器有 32 个 CPU 核,那么留一个核给系统、运行 31 个应用副本就要浪费 3GB 的内存资源。
- 良好的语言设计。从学术的角度讲 Go 语言其实非常平庸,不支持许多高级的语言特性;但从工程的角度讲,Go 的设计是非常优秀的:规范足够简单灵活,有其他语言基础的程序员都能迅速上手。更重要的是 Go 自带完善的工具链,大大提高了团队协作的一致性。比如 gofmt 自动排版 Go 代码,很大程度上杜绝了不同人写的代码排版风格不一致的问题。把编辑器配置成在编辑存档的时候自动运行 gofmt,这样在编写代码的时候可以随意摆放位置,存档的时候自动变成正确排版的代码。此外还有 gofix, govet 等非常有用的工具。
- 执行性能好。虽然不如 C 和 Java,但通常比原生 Python 应用还是高一个数量级的,适合编写一些瓶颈业务。内存占用也非常省。
转贴之后部分版式没有了,将就一点吧。国庆后想办法重构一下。
下面是asta谢(谢孟军)的回复:
XML/HTML代码
- 谢孟军,盛大云计算
- Sariel、张东亚、林文 等人赞同
- 我尝试来回答你几个问题:
- 1、Go有什么优势
- 可直接编译成机器码,不依赖其他库,glibc的版本有一定要求,部署就是扔一个文件上去就完成了。
- 静态类型语言,但是有动态语言的感觉,静态类型的语言就是可以在编译的时候检查出来隐藏的大多数问题,动态语言的感觉就是有很多的包可以使用,写起来的效率很高。
- 语言层面支持并发,这个就是Go最大的特色,天生的支持并发,我曾经说过一句话,天生的基因和整容是有区别的,大家一样美丽,但是你喜欢整容的还是天生基因的美丽呢?Go就是基因里面支持的并发,可以充分的利用多核,很容易的使用并发。
- 内置runtime,支持垃圾回收,这属于动态语言的特性之一吧,虽然目前来说GC不算完美,但是足以应付我们所能遇到的大多数情况,特别是Go1.1之后的GC。
- 简单易学,Go语言的作者都有C的基因,那么Go自然而然就有了C的基因,那么Go关键字是25个,但是表达能力很强大,几乎支持大多数你在其他语言见过的特性:继承、重载、对象等。
- 丰富的标准库,Go目前已经内置了大量的库,特别是网络库非常强大,我最爱的也是这部分。
- 内置强大的工具,Go语言里面内置了很多工具链,最好的应该是gofmt工具,自动化格式化代码,能够让团队review变得如此的简单,代码格式一模一样,想不一样都很困难。
- 跨平台编译,如果你写的Go代码不包含cgo,那么就可以做到window系统编译linux的应用,如何做到的呢?Go引用了plan9的代码,这就是不依赖系统的信息。
- 内嵌C支持,前面说了作者是C的作者,所以Go里面也可以直接包含c代码,利用现有的丰富的C库。
- 2、Go适合用来做什么
- 服务器编程,以前你如果使用C或者C++做的那些事情,用Go来做很合适,例如处理日志、数据打包、虚拟机处理、文件系统等。
- 分布式系统,数据库代理器等
- 网络编程,这一块目前应用最广,包括Web应用、API应用、下载应用、
- 内存数据库,前一段时间google开发的groupcache,couchbase的部分组建
- 云平台,目前国外很多云平台在采用Go开发,CloudFoundy的部分组建,前VMare的技术总监自己出来搞的apcera云平台。
- 3、Go成功的项目
- nsq:bitly开源的消息队列系统,性能非常高,目前他们每天处理数十亿条的消息
- docker:基于lxc的一个虚拟打包工具,能够实现PAAS平台的组建。
- packer:用来生成不同平台的镜像文件,例如VM、vbox、AWS等,作者是vagrant的作者
- skynet:分布式调度框架
- Doozer:分布式同步工具,类似ZooKeeper
- Heka:mazila开源的日志处理系统
- cbfs:couchbase开源的分布式文件系统
- tsuru:开源的PAAS平台,和SAE实现的功能一模一样
- groupcache:memcahe作者写的用于Google下载系统的缓存系统
- god:类似redis的缓存系统,但是支持分布式和扩展性
- gor:网络流量抓包和重放工具
- 以下是一些公司,只是一小部分:
- http://Apcera.com
- http://Stathat.com
- Juju at Canonical/Ubuntu, presentation
- http://Beachfront.iO at Beachfront Media
- CloudFlare
- Soundcloud
- Mozilla
- Disqus
- http://Bit.ly
- Heroku
- google
- youtube
- 下面列出来了一些使用的用户
- GoUsers - go-wiki - A list of organizations that use Go.
- 4、Go还存在的缺点
- 以下缺点是我自己在项目开发中遇到的一些问题:
- Go的import包不支持版本,有时候升级容易导致项目不可运行,所以需要自己控制相应的版本信息
- Go的goroutine一旦启动之后,不同的goroutine之间切换不是受程序控制,runtime调度的时候,需要严谨的逻辑,不然goroutine休眠,过一段时间逻辑结束了,突然冒出来又执行了,会导致逻辑出错等情况。
- GC延迟有点大,我开发的日志系统伤过一次,同时并发很大的情况下,处理很大的日志,GC没有那么快,内存回收不给力,后来经过profile程序改进之后得到了改善。
- pkg下面的图片处理库很多bug,还是使用成熟产品好,调用这些成熟库imagemagick的接口比较靠谱
-
-
- 最后还是建议大家学习Go,这门语言真的值得大家好好学习,因为它可以做从底层到前端的任何工作。
-
- 学习Go的话欢迎大家通过我写的书来学习,我已经开源在github:
- astaxie/build-web-application-with-golang · GitHub
-
- 还有如果你用来做API开发或者网络开发,那么我做的开源框架beego也许适合你,可以适当的来学习一下:
- astaxie/beego · GitHub
其实关于语言类的东西最烦人,每种新语言的出来总是为了解决某些特定问题,既然是解决特定问题,那么肯定就会带来一些新的问题,不过我觉得,只要你认为它够你使用,就够了,毕竟go可以相对比较完美的支持CGO,那还有什么不能解决的呢?PHP就是因为没有办法引用C代码,虽然可以dl一些so文件,也可以用java bridge来调用,但终究都是实验性的东西,不够完善。
如果你有兴趣学go,看了上面的内容,或许尝试一下也不错,毕竟go上手还是很快的,虽然对于PHPer来说有点痛苦,一下子从弱类型变成强类型,真心不习惯 。
Go | 评论:1
| 阅读:33276
Submitted by gouki on 2013, September 23, 8:48 PM
不多说,上代码:
XML/HTML代码
- func NewConnection(*conn) *ConnectionInfo {
- return &ConnectionInfo{
- Connection: conn,
- LastTime: time.Now().Unix()
- }
- }
第一眼看到这,很少有人说不对,但事实上它就是错误的。。。
XML/HTML代码
- func NewConnection(*conn) *ConnectionInfo {
- return &ConnectionInfo{
- Connection: conn,
- LastTime: time.Now().Unix(), //每次在这里都会忘记逗号。我晕,反人类的逗号啊
- }
- }
上下对比一下,发现了吧。多了个comma。如果是上面的写法就会报语法错误:syntax error: need trailing comma before newline in composite literal
尼玛,你不会自动加上?go fmt的时候加上不就完事了??搞得这么认真干嘛。
js写多了,真是会眼花的。如果你go写写,模版写写。一会写struct一会写json,不错才怪啊。。
这个逗号真心反人类啊
Go | 评论:2
| 阅读:22157
Submitted by gouki on 2013, September 15, 9:10 PM
关于think2go的介绍,我自己是写了一篇,但因为第一次写的内容不慎消失,后面是重写的。心情和精力都不佳了。
以下是部分内容,详细的话,还是去点击上面的链接吧。。。
摘选 :
首先是谢大闪亮登场,为我们分享他用Go语言在盛大的CDN系统中的应用,大家鼓掌。
我觉得讲的主要内容上可以分两大块来看,一部分是从中心结点到IDC的文件分发过程,另一部分是用户请求到达之后的调度设计。
主要应用场景像什么游戏客户端的分发之类的。先说中心结点服务器到IDC服务器的分发过程。
谢大在讲这些东西时还给我们展示了一下代码,很赞!
上一部分的内容基本是内部传输部分,从中心服务器分发到IDC。接下来是另一部分,调度器的设计部分。
调度器设计就是要考虑,根据网络情况,地理位置,当前各个服务器负载等等,来一个下载请求,决定取哪一台机器给用户提供下载服务。
CDN的基本技术,就是通过用户的IP段,查找他属于哪个网络,电信,网通?然后分配相应网络的服务器给用户提供下载。他们以前的做法是,只要找到同网络的服务器后,随机分配一台给用户提供服务。随机分配存在的问题是,服务器的负载不均衡,可能有的机器忙不过来了,而另一些却闲着。
盛大有个IP库,记录了各个IP段所处的网络,对应的分配服务器。这个在代码中谢大是用treap数据结构体存的,treap是一个kv数据结构,通过二叉树进行查找,通过一个随机权值保证树的平衡。我尚不明白这里为什么选用treap数据结构。使用treap数据结构的结点权值,和服务器负载之间是否有关系?不是吧(期间我去WC了,这里漏了一些内容)。
现在添加了负载分配的部分,会给服务器加上状态。比如优先挑选同网络服务器上负荷较低的机器,如果各个机器负荷都是中等的,则随机挑选一个。如果都到满负荷了,这时则不局限于同网络了,从全局服务器中随机挑一个,总不至于给用户返回404吧。
据谢大称,用Go语言实现以后,目前的系统相比以前的传输速度大大提升,传大文件速度是几乎原来的十倍了,小文件的提升也有30%。用户下载也明显变快了。最后谈到了下阶段可做的优化。其中有一点就是处理上行和下载之间的带宽。有时候几十G的文件任务啪一下就过来了,目前是没有限制的,这样会占用大量带宽,对已在进行中的用户服务造成影响。
接着是邵天宇带来的分享。其实我个人觉得他分享的内容跟Go语言的主题并不算太搭,个人觉得他项目中做的很多事情选择别的语言,别的开源库可能会做得更好,并没有突出Go语言的优势,选择Go只是他强烈的个人偏好而已,这个我持保留态度。这是这位同学第一次做这种分享,不管怎么样,即然使用了Go也算是Go语言的实践了,并且内容方面我认为还是比较精彩的。
微博数据分析中,我觉得可以分以下部分看吧,先是数据源的获取,接着是数据存储,然后是数据分析。
他先给我们介绍了他的开源库的选型。数据源的获取中,他是自己写的爬虫抓取微博的数据,给我们展示了Go的interface在这里的使用,一个url加一个handler。分词和索引方面之前他尝试用wukong的Go语言开源库,但是这个库有个问题是不做持久化,数据全部存放在内存的。内存占用量非常大,在与作者沟通并没得到满意的解决之后,转而使用Es..search(名字记不清了)【是:Elasticsearch + IK 】。列举了好多的开源项目,相信他是做了不少的调研工作。
还提到了他们以前系统是用php做的,硬件用的16核CPU,32G内存,而现在改用Go语言之后只用普通的PC机就能跑了。他还列举了好多数据,微博的活跃用户数啦,抓取的记录数啦,各种...反正是用数据说话,不明觉历啊,呵呵。【在这里我要提一下,他说原来是用python的】
golang与高强度在线服务
由韩拓给我们分享的,标题临时换了一下,他坦承"golang与高强度在线服务"这个标题有点太装B了。这个分享就比较高度抽象了,没有谈具体的项目,算是一些Go的使用经验吧。
中间有很多,我能记得的包括他们公司的panic是不能抛到进程级别的,必须在goroutine捕获。
像内存使用方面,不使用Go做大内存(大于1G)的服务。合适的东西做合适的事,这是我的感触,比如Go+memcached。主要是Go的垃圾回收不算完善,大量内存分配,回收时会卡。而C语言写的像memcached什么,肯定更专业。
http作为最基本的通信协议。
cgo是尽量避免不要使用的,即使像音频视频转码这类的,只有C的库,他们的做法是用C程序写成服务了让Go去调。
还有什么内存对齐,大多都是七牛公司踩过坑之后约定的一些使用习惯。给我印象比较深的是他们的log处理,他们重写了log的包,提供程序log和事务log两类日志。
---
更详细的请看上述链接。比我写的好多了啦 。
Go | 评论:0
| 阅读:14053
Submitted by gouki on 2013, September 14, 9:57 PM
我不知道别人是否和我一样喜欢记录点东西,但是我知道我必须要记,因为年纪大了,如果不记录下来,很可能什么都忘了。
(伤心,我大约写了将近3000字的内容。没了,说实话,让我再写,可能写的没有刚才全了,希望我还能写点什么吧)
这次thinkingo的聚会对我来说真的是记忆犹新了。不谈路上堵车2小时吧,在高架上完全不能动,导航里写的只要半小时的路径走了2个小时。且谈好不容易写的心得吧。因为蓝牙鼠标左键失灵导致我以为是程序死了。让我重启了两次电脑 ,而明明sablog上面写的自动保存成功,却其实只保存了上文括号上面的那一句话。果然是老了。电脑也不帮我了
OK,让我再来一次吧,今天三个议题和一个话题
1、astaxie 的 go在cdn项目中的应用。
开始看到这个话题的时候,我还在想,今天是不是会话题重复了,毕竟七牛也是做云存储和CDN的,但后来发现asta讲的内容其实是内容分发这一块的,他们用go重新实现了内容分发模块,而原来则是用BT协议实现的。基于BT协议,有两个小问题:1.有1%的情况下,服务器节点只能从中心服务器取到99%的数据就卡死了。2.BT的搜索是无序的,不会优先从本地局域网进行下载,而是随机从任意节点下载,带来的问题就是机房的带宽反而被BT协议占用了不少,浪费了不少的流量费(现在的修改过的各种类BT协议,都调整过了,比如迅雷就宣称,会优先在局域网中下载从而避免流量占用过多)
asta他们则用go写了个分发协议,即中心服务器向节点发起通知,他们会先根据节点的机器数来进行数据块下载的分配 ,比如一个20个数据块,分散到节点的4台机器上则可能是1~5在第一台,6~10在第二台下载,以此类推,每个节点的机器下载完毕后通知中心服务器。这样中心服务器就知道哪些机器下载了哪些数据块。然后再通知第一台服务器从第二台上下载6~10,从第三台上下载11~15,以此类推。也就是说该节点的互联网流量其实就只消耗了整体数据的一次下载流量。而以前四台服务器,就下载完整的包四次,现在只有一次,其他的都是内网流量了。
这让他们不但节约了流量,还加快了速度
2、邵天宇 介绍了工作中对go的应用
邵天宇 他们公司是做微博方面的应用,这玩意大家都懂,其实能够从微博里挖掘数据都往往都是那些4A公司,现在也有越来越多的工司也开始慢慢在做这方面的工作,只有做的越多,才能越了解数据。gopher介绍他用go实现以前用python的功能后,CPU和内存的占用率都明显下降,性能更高。
邵天宇 介绍了几个他们公司用的一些用户分群的算法,细化到后面就是图的应用。
邵天宇 还介绍了他们使用的全文索引,说有个国内版的,整合了:Elasticsearch + IK,然后再加上leveldb来做处理,性能还算不错,原来是用wukong + sego,可是wukong的索引是存在内存里的,一旦机器重启就啥也没了。最后不得已才改用Elasticsearch + IK 。。(下次我也可以尝试一下)
3、七牛的韩拓介绍了下七牛中的GO使用情况
用韩拓的话来说,go的程序占据了他们的核心代码 的99%左右,但并不代表他们只用go来做所有的事,这可是一件蠢事,所以他们还是用了很多解决方案,比如lvs+nginx来解决高可用性的问题。用memcached来解决数据缓冲的问题等等
当然他介绍的最多的是他们日志系统,除了程序日志外,还有他们的事务日志。程序日志是他们的底层,事务日志是在程序日志的再一层包装。他们用日志系统包围了他们几乎所有的程序。即在程序的处理外层是被日志系统包围住的,日志系统就是一个蛋壳。它几乎充当了其他语言的try/catch,避免程序崩溃(这是我的理解,希望没有理解错)。虽然性能上有一点损失,但得到了更完整的日志,既可以分析系统,也能够用来当作收费依据。因此这些性能损失完全能够接受
----
话题中,韩拓提起了GC,引得大家一番热列的讨论。认为GC实在不可控。为了避免GC消耗大量的时间,每个人都有一些自己的看法,其实这个话题之前在知乎上已经有人讨论过:
http://www.zhihu.com/question/21615032
- 先介绍下我的情况,我们团队的项目《仙侠道》在7月15号第一次接受玩家测试,这个项目的服务端完全用Go语言开发的,游戏数据都放在内存中由go 管理。
-
- 在上线测试后我对程序做了很多调优工作,最初是稳定性优先,所以先解决的是内存泄漏问题,主要靠memprof来定位问题,接着是进一步提高性能,主要靠cpuprof和自己做的一些统计信息来定位问题。
-
- 调优性能的过程中我从cpuprof的结果发现发现gc的scanblock调用占用的cpu竟然有40%多,于是我开始搞各种对象重用和尽量避免不必要的对象创建,效果显著,CPU占用降到了10%多。
-
- 但我还是挺不甘心的,想继续优化看看。网上找资料时看到GOGCTRACE这个环境变量可以开启gc调试信息的打印,于是我就在内网测试服开启了,每当go执行gc时就会打印一行信息,内容是gc执行时间和回收前后的对象数量变化。
-
- 我惊奇的发现一次gc要20多毫秒,我们服务器请求处理时间平均才33微秒,差了一个量级别呢。
-
- 于是我开始关心起gc执行时间这个数值,它到底是一个恒定值呢?还是更数据多少有关呢?
-
- 我带着疑问在外网玩家测试的服务器也开启了gc追踪,结果更让我冒冷汗了,gc执行时间竟然达到300多毫秒。go的gc是固定每两分钟执行一次,每次执行都是暂停整个程序的,300多毫秒应该足以导致可感受到的响应延迟。
300多毫秒,韩拓说他们遇到过是5秒左右,在线上运行的时候,gc停止了5秒左右。5秒对于我们来说没有什么,但对于一个做高可用的企业来说,已经是有点夸张了。
----
实在不想写了,很痛苦。之前写的全没了,就记录这么一点吧。(这次写的时候,居然又超时了,所幸我ctrl+s,保存了下来。天啊。。。我快崩溃了)
Tags: thinkinlamp, thinkingo
Go | 评论:0
| 阅读:14759
Submitted by gouki on 2013, September 14, 9:33 AM
前言
最近在项目中写了一个小型 的socket服务器,于是就需要PHPclient来向他发送和接收数据,但是这时带来的问题,如果php每次创建socket连接1是开销比较大,2是连接远程性能可能也不佳,于是进行了曲线过国的过程,在本地用go写了一个server,php只向本地发送数据,由本地的server长连接到socket服务器,这样开销就会小很多(之所以这样,是因为socket服务器需要登录验证,PHP如果为了发个包,每次都登录验证消耗太大)
过程
在用go写server的过程中,遇到了这种问题,原来用C写的server,我们担心C server接受数据慢或者担心并发不够,于是php在发送数据的时候,用的是shm_系列函数,但发现shm系列函数不太稳定,正常使用使用就会溢出。于是转成了msg_xxx系列函数,并调整了系统参数,使得发送和接收的最大队列提高了很多
但是go lang对msg_xxx支持的不好,首先他没有自带,其次在调用RawSyscall的时候(参考了hover给的c函数中的参数,结果是go可以msg_send,但不能msg_receive,总说参数长度不对),最后,其实我是不想用cgo啦。
最后我参考了“囧囧孙”的网站(www.jiongsun.com/2012/12/38.html),实现了一个udp server。当然在这之前,我已经实现了一个http server的方案,不过我觉得本地udp server的话应该会更快。
其实,我觉得本地如果操作同一个管道文件,应该会更方便更快,毕竟,只是php写go读(但因为对系统的底层了解不多,也没有找到相应过多的资料,就暂时放弃了。比如,我看到了php://fd/1之类的,但没有实际例子也没有过多的在那里看。怕浪费太多的时间 )
转变
其实转变就在昨天,asta的群里,有个名为“囧”的朋友发布了一个网站(https://github.com/xiaojiong/memcachep),并说明他的go server是按照memcache的协议标准来实现的,也就是说,PHP只需要使用new memcache('server','port'),连接上server,然后get/set就OK了。这让我突然之间豁然开朗。
是啊,我在远程服务器实现了socket server,那个socket server是为其他平台服务,我PHP连接是比较麻烦,但如果我专门现实了一个GET/SET的接口,PHP发送过去不就OK了?也不用PHP写socket_create之类的函数,也不需要php来担心一些其他可能发生的问题。甚至如果以后socket server有多台了,我这里也可以利用memcache的addServer来实现多台发送?(当然也要socket server实现)。性能?可能是会略有降低,但难道,本地一个go server/php udp连接就一定高吗?开的服务越多,环节越长,出错的概率就会越高,如果我只是单点直接向socket server发送数据,这样出错还是有据可查的
准备
昨天就开始准备重写原来的socket server了。
socket server上面要做的事情比较多:
1、转发PHP发来的各种消息
2、转发失败后需要发送apns通知
3、在发通知前,需要查询数据库中每个用户ID的token,并更新多少未读信息
之前的server只做了纯转发功能。准备再花上一段时间把它搞定。
Tags: memcahep
Go | 评论:0
| 阅读:14034