王煜全:支招谈不上,就是姜老师讲的挖煤的,这个里面是非常精彩的,因为一切都刚开始,数据的收集刚刚能够有机会,那数据的解读也是史无前例的,斯坦福的一个教授(,东欧人,不知道为什么东欧人数学总是很好,那个哥们是我们学术领域的牛人,他)有一个说法,过去社会学有一个测本定理,就是三个东西不能全有:一个是全样本,就是所有人都去检测,第二个是实时数据,第三个是连续数据。我实时采一个点可以知道现在所有人的位置,一个点卫星一照没问题,连续记录卫星也留不住,以前是没有办法,现在有个摄像头一切都有了,网络把你的行为全部连续记录下来,而且是所有人的。这就跨到一个新的时代,我们对人的分析不再是以前说的用取样分析了,我们可以用全样本做分析。这时候就回来了,我们就大量的需要验证,以前只能取样的理论,现在我们在全样本上去验证,这里面就很好玩。举个例子,一直有个说法,现在社会学那帮人对人研究的兴趣还不如行为经济学,因为行为经济学是要看结果的,社会学太理论,我们总结“大数据”给我们的经验教训,太理论了没有数据做支持就会脱离实际。其实行为经济学里面最爱做数据分析了,哪怕在学校里也是实证得来的。
行为经济学里面有个领军人物,我估计他的那本书大家应该能读,叫“观看行为学”,其实在国外的翻译叫做“可以预测的非理性”就是说人都是非理性的,但是人的行为可以分析和预测,这个作者其实在另一个研究里面提到他很有趣的研究是什么,如果这个人身材更高,他谈恋爱的时候会有优势,所以矮的人他能够量化计算,他要每年多挣多少钱才能谈到差不多同样的女朋友数量,才能弥补这数,所以个矮的各位赶紧学习,赶紧挣钱吧,要不然在找朋友上很有劣势。这个东西可以做到量化,背后的理论依据是什么?
其实我们原来在学校做学生研究的时候,专门找过高校的学生,跟踪他们的行为也得到了验证,什么意思呢?说简单点就是社会地位高的人倾向于占有更多的社会资源,在学生里社会地位高,比如说这人吉他弹的特好被别人崇拜或者这个人是他们的戏剧社的社长,被一堆小女孩追着,他倾向于占有更好的社会资源,他的女朋友一定漂亮。回去看看你们班女朋友漂亮的孩子,一定有出众的地方,当然不一定成绩好,别的地方好,受别人追捧。当然这事我们现在想办法在干嘛?在微博里面做全样本的量化分析,这个是据我所知国外也没人干过,我们是干一些史无前例的事,我们跟高校有合作,目标是把我们的文章登在顶尖论文期刊上,因为没人干过。怎么测呢?我也告诉大家,看看你们能不能做,能做大家合作:测某个人他拥有社会资源怎样,就看他的微博里的双向好友,代表你认识的,互相互粉的好友,你的异性好友的年龄和你的平均年龄差,比如说我40岁,我是一个看校门的。另外一个人40岁,他是一个亿万富翁,你猜我们俩谁更有可能认识更多年轻漂亮的女孩呢?我想把它量化出来,通过你的异性好友跟你年龄差来推算你是不是掌握更好的社会资源,在男性这个世界里说的比较现实,虽然我们都认为未来的共产主义很美好,但是现在我们还是活在真实世界里,对男性而言找年轻漂亮女孩,人说男性的追求永远都没有变,爱好永远没有变,不管是20岁、30岁、40岁永远爱那18岁的,所以你是可测的。这些以前都是调侃,我们现在把它搞成严肃的,学术的东西。因为全部有数据支持,所以就能知道数据来了以后会怎么样。
我是师大毕业的,正好我们学校旁边就北邮,我需要借这个机会在往那个学校的校长那儿扔只鞋过去,就是这些创新的东西其实在国外是潮流,是趋势,就是国外讲“大数据”的一堆,国外有一个网站所有的新思想在不断的传播,中国就需要涂老师从美国回来给我们带,为什么呢?因为那个倒霉的破校长搞了一个东西,叫“长城防火墙”。我不知道这和长城是什么关系?长城是干这个的吗?把我们的创新思维阻断了,但是我用我自己的亲身经历告诉大家,未来是不可阻挡的,你今天想尽一切办法去接触最新的科学,未来你一定收益。
你今天如果学过去的东西,20年前在师大读书的时候,我们那教授说“为什么还要开这门课?”因为他还没退休,当然了等他退休了,我们毕业了,我到哪儿去找饭碗去?我后来就改行了。所以我建议大家一定要面向未来,你如果学的是五年之后大行其道的东西,等你毕业出来你就是宝贝,所以你要突破那个倒霉的长城防火墙,去寻找知识,你多跟涂老师联系,因为那是未来。
姜奇平:补充一个数据挖掘的问题,我有一个婚店网站的老板告诉我,说有一个数据,第一点怎么谈恋爱?这个数据特别常用,女孩子初恋成功率最高的是什么?长直发,成功率是65%,最低的概率是短卷发,这告诉我们,女孩子谈恋爱的时候,千万不要学别人是短卷发,因为短卷发给一个男孩子不单纯、老谋深算的感觉,长直发让他觉得这个女孩子青春可爱,没什么心眼,可见“大数据”是多么有用。
主持人:谢谢姜老师。替同学问一下王老师您是北师大中文系毕业的?
王煜全:我是生物系的。
主持人:现在网友有生物系的同学吗?有请举手?这是你的榜样,给你的师兄一点掌声,谢谢!
王煜全:我们生物系离现实就比较远,比较傻,没面向未来,我那时候都是学过去。
主持人:谢谢王老师!涂老师在这本书里一直给我们讲说,数据开放不等同于信息公开,就这个问题我想请涂老师再详细给我们解读一下。涂子沛:这个东西确实不一样,也是我在各地都一直强调的一个观念,信息公开不等同于数据开放。信息公开是作知情权层面上的概念,为什么要公开,因为我们有权利要知道。比如说现在谈到的领导干部的财产公开,是这个层面上的概念,但是数据开放不仅仅是知情权方面的概念,主要说的不是权的问题,是一个推动我们当前经济发展,转型升级的问题,是推动网络经济、知识经济向前发展的动力,因为开放了数据之后,这些数据会产生新的价值。刚才已经举了很多这样的例子了。你的这个数据如何跟其他的数据进行整合,如果实现1+1>2,推动知识经济、数据经济的发展,而不仅仅是知情权的问题,而且形式也是会一样的。开放是把这个完整的格式,记录在数据库里的数据格式,电子化的放在网上,你可以免费下载,而且对数据项也有原数据的说明,下来之后可以直接使用,信息公开是一条一条的,告诉你这个领导干部有多少财产,这是一条信息,数据开放是一片一片的。我们以后谈到数据的时候,就不要想公开,就不要用公开,数据就是开放,信息才是公开。