手机浏览 RSS 2.0 订阅 膘叔的简单人生 , 腾讯云RDS购买 | 超便宜的Vultr , 注册 | 登陆
浏览模式: 标准 | 列表分类:Misc

纯记录:微软亚洲研究院:空中手书的舞动奇迹

新闻来自于Cnbeta.com,我这里是纯记录
感慨一下科技的发展,就象新闻里说的,我也很向往少数派报告中在虚空中操作电脑。

原文如下:http://www.cnbeta.com/articles/88286.htm

如果不是学计算机科学的话,你可能不知道什么叫计算机视觉,也可能不知 道什么叫模式识别。但是看过电影《少数派报告》的人或许都希望自己能和汤姆·克鲁斯一样,在空中用手比划一下就能完成未来电脑的操作;甚至想过如果有像哈 利·波特那样的魔棒,挥一挥就无所不能。微软亚洲研究院语音组最近发明的空中手书项目就部分地实现了这些科幻迷、童话迷的梦想。

 大小: 31.1 K
尺寸: 500 x 376
浏览: 1475 次
点击打开新窗口浏览全图

就如上图所展示的那样,用户手中抓一支笔、一个苹果或者其他容易辨认的 物体,在空中写下文字、做出手势,通过摄像头的“眼睛”观察,计算机就能知道用户写的是哪个汉字,想表达的是哪种手势,从而完成计算机和人的自然交流。这 也正是我们项目命名为“空中手书”的由来。之所以说是部分实现了用户的梦想,那是因为我们只是成功实现了空中手书,而真正科幻式的未来生活需要各个行业、 各个学科的共同发展进步。

孝心引发的创新

空中手书项目诞生的直接导火索是迎接2009年的微软技术节 (TechFest),为此语音组在内部广征TechFest的参展议案,结论莫衷一是。当时,我还在家休假。我的经理霍强说,“等马磊回来再讨论吧,这 家伙鬼点子多。”回公司上班那周,正好和霍强1:1交流,当谈到组里还为TechFest参展项目悬而未定时,我就提出了要做“空中手书”的建议。其实, 这个念头由来已久,但是那次回老家度假更坚定了我的这个想法。2009年初在家过年的时候,就经常听到父母抱怨不会用键盘输入,手写板也不好用(需要不断 的抬头看屏幕和低头看板子),我当时便吹牛说,明年回来给家里的电脑装个摄像头,然后你们对着摄像头就可以写字了。其实有这个想法也是因为之前全院的某次 Offsite,在一段非常酷的视频短片里,四位院长用手指在空中轻而易举地写下了MSRA (微软亚洲研究院的英文缩写) 四个字母,这当然是电影特效,但是却让我浮想联翩。

虽然“空中手书”的想法听上去很炫,但是霍强还是对需要投入的时间和人 力成本有所顾虑。为此,我主动请缨用两周时间先做个原型出来,然后再评定能不能继续做下去。实际上最后做出这个原型只用了2天时间,也还是一个比较简陋的 演示:首先把手的运动轨迹跟踪下来,接着保存成数据文件,然后再调用我们的识别引擎,得到识别结果文件,最后经过读取把它显示在屏幕上。

令人惊讶的是,这个原型的效果已经令人相当满意了。因此,便有了更多的人加入到这个项目的开发完善的过程中,比如我的实习生朱晓恩、霍强的实习生孙雷,以及现在继续把这个演示中加入手势识别的禹果。

技术里面隐藏的奥妙

那是不是因为这个问题太简单了,所以用两天就能做出这个演示?当然不是了。我们设计的空中书写系统里面有两个主要的组成部分,一个是运动轨迹的追踪算法,一个是手写体汉字的识别算法。而这两个领域本身都有了几十年的发展,至今还是有很多的未解问题。

比如说这个跟踪算法,跟踪什么东西、提取什么样的特征来跟踪、跟踪的效率,是不是白天晚上各种不同的光照条件下都能跟踪等等,每一个问题都可以展开来细细的做研究。而这些问题如果不解决或一定程度上解决,就不会是一个用户体验良好且稳定的方案。

再比如说这个手写体汉字识别也同样是有很多值得研究的问题。写字的风格 (楷书、行书、隶书、草书) 不同会影响识别率,不同人的写法更是差异很大。另外,汉字的笔顺也是个大问题。除去这些问题不谈,在空中写字的方式和纸面上写出来的字样式上也差别很大, 至少现在空中的汉字是要一笔写成的。这都要求我们的汉字识别器可以稳定地处理和识别出来。

两天做出来的原型只是描述了一个概念,后面还有大量的工作等着我们去做。

我们连同实习生一起做了认真的特征研究,去考虑哪些特征在光线不足的情 况下稳定,哪些在亮光甚至点光源(一般会场和室内的条件)下能够稳定等等问题。另外,现在的摄像头有自动聚焦、白平衡和自动滤波的功能,而这些功能是不是 对我们的应用有帮助?其实,有些功能不但没有帮助反而有害。我们就需要把这些问题一个个研究清楚。除了特征外,什么样的追踪算法稳定高效,适合我们的应用 场景?为此,霍强和我查阅了大量研究资料,咨询了我们微软内部的许多在这方面资深专家寻求更好的方案。

在手写识别方面,我们研究院语音组有很多年研究的积累,平面上的手写体 识别算法的性能和识别率上是全世界领先的。相关算法已经transfer (转化)到了产品部门。但是这个空中字体的轨迹有自身的特点,如一笔连画,三维空间的轨迹映射到二维上,比划之间的转折相对圆滑等。我们的算法在特征上的 处理可以对付这些问题,信号的预处理部分也可以过滤掉由于光线条件不是很好情况下跟踪算法带来的信号抖动。

除了这些在核心技术上的研究之外,在用户界面上我们也考虑了很多。这部 分我的实习生朱晓恩动了很多脑子,比如如何设计更美观的界面,捕捉到的轨迹如何呈现会更舒适。另一个重要的改进就是把识别结果中最可靠的结果放置在候选区 域的中心,把不太确定的候选结果放置在边缘。这也是为了能让用户平均选取正确汉字的手移动距离最短。

最终,完成了我们现在看到的这个对公众演示的算法设计和实现。

空中书写的应用前景

如我所言,空中手书这个项目一开始就是从用户的需求中来(有相当一批人不会用键盘输入或者不知道怎么用包括拼音输入法在内的方式)。我们的项目就给了这些人一个与机器设备交互的可能性。

我们这个空中手书关注的应用场景可以分为以下几类:

1.  交互式游戏场景。比如在Xbox中,在很多时候需要玩家的输入才能导致游戏的继续进行。这时候我们的空中手书就提供给用户一种截然不同的使用体验,用于输入名字,谜题答案;用于交互式控制完成游戏的部分场景等等。

2.  搜索是海量信息时代重要的信息组织方式。 输入搜索的查询关键词有时候并非是一件非常容易的事情。比如在IPTV上,用户的计算机连接到互联网上,用户有需要从互联网上找到有趣的视频或者电影电视 然后从自己家的电视屏幕上进行播放。这时候,我们的空中手书就提供给用户一个输入方式选择。尤其是那些不会用T9输入法的中年以上用户。毕竟,手写输入还 是自然的输入方法之一。

3.  我们的空中手书还允许用户输入手势。通过一组直观易用的手势,用户可以方便地和各种智能设备交互。控制音视频的播放,提升用户体验,快速访问某些设定功能,等等。

总之,空中手书给了用户新的选择。它的应用场景就仅仅受限于我们和用户的想象力。

空中手书的演示成功恰恰是一个研究问题的开始,恰恰说明用户对更自然的 人机交互方式提出了诉求。就在写本文的时候,我们还在研究是否有更自然的方式可以捕捉人的运动,从而和计算机交互;是否能让我们的跟踪算法和人眼的跟踪一 样稳定。同时,我们还在研究使用手势识别来理解用户意图,让每个人都可以体验到空中舞动之美,体验到人机交互带来的便利。

纪念那逝去的岁月

纪念那逝去的岁月。
本想摘取一些各大网站的新闻、稿件来做纪念的,结果
一片冷青

怎么办?我也不敢发声音。

只能从百度百科里找找资料了。

地址为:http://baike.baidu.com/view/10754.htm

七七事变也称“卢沟桥事变”(Lugouqiao Incident / Lugou Bridge Incident/Lukouchiao Bridge Incident/Marco Polo Bridge Incident/Roko Bridge Incident)

虽然我不喜欢百度,但这个时候还是很感谢,因为他里面有这么一段:“七七事变”72年

再次怀念一下

 

再看《非诚勿扰》

冯小刚虽然有几部片子拍的挺烂,但不代表他没有好片子
相反,他的好片子很多。
每年一部的贺岁片几乎就是他的标志,一年不开张,开张吃三年,估计完全可以体现冯小刚的作品的号召力
当然,御用的葛优也是如此的张扬,即使在批评很多的夜宴里,葛优仍然出尽了风头

非诚勿扰,初次看此片时,是在同事家中,喝着小二,就着烤羊排。但没有看完,只是片头的分岐终端机印象颇深。

昨天晚上睡觉前,又看了会,不过只是结尾那段。在看到工作人员介绍时,突然发现一句话:感谢分岐终端机的发明人:XXX(不记得了)。这句话让我大吃一斤(HOHO)
原来,还真有这玩意啊。。

估计该发明人向冯小刚推广这玩意后,他就兴致一来,写了这个非诚勿扰的故事吧,因为我看编剧和导演都是冯小刚。

虽然我主要是想表达,我的惊讶。
但不可否认,片中的情节和一些话语的精炼
或许,每次冯小刚的片子一出来,网上就会有人把葛优等腕的名言名句列出来吧。就象当年的:手机、天下无贼一样?

不信,搜索一下:非诚勿扰 经典台词,肯定会有发现

Tags: 冯小刚, 分岐终端机, 非诚勿扰

杂记

既然标题为杂记当然记得东西也就比较杂一点
1、linux
刚刚装好ubuntu后,建立了一个分区,进入分区目录,想改权限为任何用户都能访问

所以进入命令行,用了chown -R nobody.nogroup /

命令中的/,前面少加了一个. ,结果。。。所有的目录权限都不正常了

重启后,无法访问。最后重装(虽然听说用simple mode登录后可以解决,但一来没时间,二来,我是新做的系统,重装速度会更快一点)

2、虚拟机

在ubuntu下面的虚拟机,好象不能设置为随系统启动而启动的。这不象在windows下面。当系统启动后,虚拟机也可以自动启动(虚拟机是server版,可以在每一个虚拟OS上指定是否随系统启动而启动)

3、虚拟机中的windows 2003登录

2003初装好是需要按ctrl+alt+delte登录的,但vmware中按ctrl+alt是退出焦点。vmserver2后,没有客户端访问程序了(需要单独安装)我感觉还不如1.x版呢。。。

所以进入后,先按Ctrl+apace,把输入法调出来,然后按着ctrl+alt,再用鼠标点击软键盘,上面的del键,进入后。gpedit.msc把登录需要ctrl+del+alt关闭

4、招行

招行登录,不能用远程连上计算机登录,只能本机登录。

远程后,进入大众版会显示:非法远程登录,在询问客服后才知道。。。

5、ubuntu下为什么要装虚拟机?

你以为我想啊,可是不装,QQ功能不全,网银不能使用。支付宝也不能用。凡 是要花钱的地方,ubuntu都不支持,我该怎么办??

Tags: 招商银行, 虚拟机, linux

统计一年了

时间过的真快啊。
一转眼,网站过了一年多了,用上统计也一年了。
本来想在365天的时候,截个屏做个纪念的。结果也忘了
今天已经370天了。

在这里再套用一下至尊宝的话:以前你叫雅虎统计,现在你叫量子统计了(原话:以前你叫人家小甜甜,现在你叫人家牛夫人。。。)

不过,还是做个纪念吧。。
三张图。。。

大小: 10.9 K
尺寸: 340 x 170
浏览: 2801 次
点击打开新窗口浏览全图

大小: 40.62 K
尺寸: 500 x 180
浏览: 2757 次
点击打开新窗口浏览全图

大小: 31.49 K
尺寸: 500 x 374
浏览: 2719 次
点击打开新窗口浏览全图

Tags: 统计, 量子, yahoo