看到这篇文章的时候还是挺感兴趣的。
几年前,微软出过一个实验性的搜索叫做:人立方,但没有更多的接口和参数。虽然很早之前SNS的建立依据就是每六个人就会通过各种关系认识。人立方却不太一样,他是基于很多的内容搜索来判断他们之前是否有关系,虽然不是特别准,但多少你会发现其实原来你可以认识这么多人,表面上好象你们真没有关系,但仔细看看,好象却真的有点关系。
OK,这篇文章我看到的时候,感觉有点象这种概念,事实上,我在之前就在想,怎么样将一部武侠小说中的人物关系理理清,比如那些经典的小说,很多人在看完一遍两遍三遍后都理不清那之前的关系。比如,射雕里面的人物超多,很多人的关系也很乱,如果再算上,神雕和倚天屠龙记,这三部曲,能够在看到一个人名后把相关的人物连接起来的人还真的不多。好象现在也确实有人在做这种事情,但纯人工的太累了吧?
下面的这篇文章其实和那种开枝散叶的人物关系真的不太一样,但多少接触接触吧。。。
----------开始上原文
什么是可视化学术家族树?
可视化学术家族树是继承于微软学术搜索的,以树形可视化图形,展现学者间师生关系的学术关系查询与展示平台。
家族树的用途?
为用户提供与展示学者间的师生关系,方便用户更好的了解一个学者极其相关学者。
如何才能使用学术家族树?
1、 你需要一台电脑
2、 你需要一个浏览器,不论IE, Firefox, Chrome, Safari,还是Opera(国产的那几款如傲游,360等也可以)
3、 微软的Silverlight(银光)插件,下载地址:http://www.microsoft.com/silverlight/(什么?不知道?好吧,这是百度百科:http://baike.baidu.com/view/942429.htm)
4、 然后,然后,输入网址就可以用了。
那么网址是什么?微软学术搜索:http://academic.research.microsoft.com,不过,家族树暂未上线,请大家稍等片刻,可以先用用其它的功能,看看作为一款学术搜索平台,是不是符合你的口味呢?
下面进入正题。
Spec:
作为一个网站,或者说是一个搜索页面,一个用来搜索和展现师生关系的网页。整体架构按照网站的标准来分,可以分成两部分——前端与后端。
前端为界面的设计及数据的展示,后端为数据的获取与存储。
每一款软件必然会有自己的主打招牌,也会有许许多多的特点。成功的软件不一定什么都要做到最好,但至少要有特点。我们的特点是什么?
前端:
1、 最直观的界面布局
做数据的可视化一直是学术界的一个研究热点。当你手上有大量的数据时,以怎样的形式将其展现出来,能够让用户看得清晰明了?这个问题一直困扰了我们 许久,因为我们的屏幕大小是有限的,人眼一次性可以接受的信息量也是有限的,既然是做可视化,也不能简简单单的列一个列表出来就了事。那么该怎么做呢?在 我们统计的数据中,拥有最多学生的学者一共拥有102个学生(直接学生),这102个学生目前分布在近40个不同的研究机构(含公司与高校),要将这 102个学生与40个机构展现出来,可不是一件容易的事,尤其是对于有密集恐惧症的朋友们,你们肯定不情愿看见屏幕上密密麻麻层层叠叠的点吧?
这是去年的一张测试图,你能满意吗?这人的学生还不算很多。
下面是我们前段时间的一个版本,有没有觉得很恐惧?
不过,经过数周的共同努力,我们终于是克服了这个难题,想出了一种根据人数及其影响力与相关程度的聚类分布方式,随时为用户呈现出简约清晰地界面,不会给你的心理带来任何的密集恐惧感。相信当你真正使用时,心里应该会比较舒坦。
2、 华丽的展现动画
或许是因为基于silverlight平台的缘故,动画制作变得非常简单。而在我们的师生关系展现中,由动画带来的视觉效果毫无疑问的会提升用户的使用体验。
后端:
1、 最全的真实数据
“最全”这两字,在任何地方可能都有夸张的嫌疑,在这里也不例外,毕竟谁也不敢保证我们的数据就一定是最全的。也许许多人来使用我们家族树时,并没 有找到自己想要的信息,于是他会放弃使用我们这款平台,这并不是我们想要的结果。我们不是万能的,我们并不能猜到谁跟谁有师生关系,我们的一切数据都是有 根据的,即在大家都可以访问到的网页上说明了谁与谁是师生,只有这样的数据才有可能被我们收录。并不是说你读了谁谁的研究生,但你不告诉我们,我们自己就 可以猜到的。例如以下的作者主页里,就写明了他们的学生信息。
http://www.une.edu.au/staff/nrei3.php
http://www.math.ttu.edu/~barnard/vita.html
虽然不太好找,但还是存在的。
为什么说是最全?在互联网上,也出过不少的学术家族树网站,不过都不怎么给力,而且仅仅是针对某一领域,相比于他们,我们的数据更加的丰富。在微软 学术搜索里面有超过1000万的学者信息,其中有60多万目前我们发现了其个人主页。我们的工作之一,正是在这些个人主页上去挖掘师生关系。当然,这样能 够获取到的信息并不多,因为大多人的主页上未必会写上师生的信息。当然我们还有许多其他的数据源,如Wikipedia,Mathematical Genealogy Project等等,虽然最终获取的总量并不大,但也比市面上其他所有网站的信息要全面地多的多了。我们的所有数据都是有根据的,绝不是自己猜测的,在这 点上我们与清华大学的arnetminer走了完全不同的方向。它们是经过论文的合作网络分析出师生关系,但这种分析往往准确度不高,并且没有足够的信服 力,用户们经常会发现错误的关系,这会极大的影响我们的心情。
数据不全这是必然存在的问题,因此我们为用户提供了编辑的窗口,希望用户们能够帮助我们去填充与校正更多地数据,当然前提是用户要提供证据(比如某个页面url)来支撑填充的数据。这样既可以让他人更加了解你,也能让我们的数据更加丰富,更准确。
我们目前一共搜集了15万对师生关系对,且每一对都有其出处,如果你没有发现你,希望您能主动加入进来。或许将来某一天,当学术搜索与社交网络融合在一起时,家族树会更加显示出其用处。
2、 最快的反应速度
所有的数据都是存放在数据库中的,当数据很小时,查询是很快的,但是当数据超过千万时,速度可就没那么快了。正常的用户是没有心情去花几十秒几分钟 等待一个页面的更新的,这太浪费人的生命了。在我看来,任何搜索引擎,用户所能忍耐的极限时间,是不会超过5秒的,通常都在2秒以内。是的,既然要搜索, 那必然是要建立索引的,而我们正好就为我们的学术家族树建立的索引服务器(Index Server),所有的查询都能在毫秒级别的时间内获得输出结果。是的,你想搜谁,你就搜谁,秒搜秒看,其乐无穷。
挑战无处不在,哪怕傍着微软的大腿也不例外。学术家族树的编码阶段已经结束,现在正处在测试阶段,大约在12月底,就会与大家正式见面的。心动了吗?心动不如行动,收藏我们的博客,等待我们的Release,哇哈哈哈哈~~~
-------------------
关注一下人立方:http://renlifang.msra.cn/
上面的文章来自于:http://www.cnblogs.com/rosting/archive/2011/11/27/2264758.html