alphago吧 关注:815贴子:4,606

数据为王和机器智能的时代——吴军在清华的讲座(转载)

只看楼主收藏回复

这段时间大家讨论了很多关于“机器是否会统治世界”,“机器是否有智能”类似的问题。感觉是时候
来一发技术贴了。


1楼2016-03-16 18:59回复
    转载,原文来自http://www.360doc.com/content/16/0316/18/31710905_542747871.shtml


    2楼2016-03-16 18:59
    回复

      演讲人:
      吴军博士是自然语言处理与搜索专家 ,原腾讯搜索业务副总裁 。他曾获得1995年的全国人机语音智能接口会议的最佳论文奖和2000年Eurospeech的最佳论文奖。吴军于2002年入职谷歌,在2010年加盟腾讯并担任国家重大专项“新一代搜索引擎和浏览器”项目的总负责人。
      演讲题目:
      《数据为王和机器智能的时代》
      演讲提纲:
      -大数据的本质与特点
      -机器智能
      -大数据对未来世界的影响


      3楼2016-03-16 19:00
      回复
        以下是演讲全文---------------
        !!!!多图预警!!!!


        4楼2016-03-16 19:01
        回复

          吴军:谢谢韩老师,最后一排能听到我说话的举一下手好吗?谢谢为这次活动付出劳动的会务人员。这是今天讲座的副标题,刚说大数据又说机器智能。这两者有什么关系?


          5楼2016-03-16 19:03
          回复

            先讲下最近几年硅谷看到世界上的投资也好,在大公司(Google或Facebook)内部也好已经开展的创新的大趋势。大家已经看到了云计算+移动互联网+大数据这是正在进行时。
            今天先讲大数据再讲机器智能。大家可能已经注意到了,Google已经买了大量的机器人公司,机器人是机器智能的一部分,也是我今天要讲的,但是今天为什么要重提机器智能呢?
            以前说人工智能,现在说机器智能,两者有什么差别呢?以前基本上是没做成。大数据和机器智能有什么关系?这是最重要的。大数据不光是有大量的数据,光有数据没用,不是目的,大数据的目的最终要让计算机变得非常聪明,并且最终将改变整个世界。因此,大数据是个手段,通过这个手段,我们可以达到机器智能的目的。
            第三个新技术热点是,在有了一(机器智能)和二(大数据)之后,在未来,IT行业将改变生物医疗,并且撬动更大的一个行业。这些是怎么样的呢?今天因为时间关系我重点讲前两点,第三个会大概提一下。然后大家可以通过这些内容理解到大数据的作用。


            6楼2016-03-16 19:04
            回复

              下面我们来看看这张ppt,这两个画的想表达的意思是什么呢?
              这是剑齿虎,如果在座的各位谁曾经和它博斗过,请将身体剩余的部分给我看看。大家笑了,这怎么可能,剑齿虎的牙那么长,四肢折磨发达。当然,对古生物史有了解的朋友会马上指出,剑齿虎生活在几十万年前,早就灭绝了,我们不可能和它博斗。那么我说你和它的近亲美洲豹和美洲狮搏斗过也可以。你会说这怎么可能?力量不够啊。
              上面的图是我们的祖先—现代智人。事实上在我们的祖先走出非洲的时候遇到的许多大型哺乳动物都已经灭绝了。现代智人非常引以为傲的是我们的大脑非常聪明,而不是我们强壮的四肢,要有思维有思考。那么人类整个文明过程就是不断发明工具来延伸我们的各种器官和四肢,来走得更远,飞得更高。


              7楼2016-03-16 19:05
              回复

                “电脑”的起源
                一直有个梦想是是否可以延伸我们的脑力。那么1946之后人类的第一台电子计算机诞生了,延伸是为计算火炮的轨迹。后来战争结束,这台计算机没有用于轨道的计算而是用于了氢弹的设计。当然它也曾经演示算了算火炮的弹道轨道,当算完后炮弹还没有落地。所以有个英国将军蒙巴赫说这个东西真够快,就像通了电的脑子,也就叫了电脑。


                8楼2016-03-16 19:06
                回复

                  机器人长什么样?
                  既然有了电脑,机器有了脑子是否有思维?这是提的第一个问题,第二个是它能否超越人?在当时许多机器的东西已经超越人了,比如蒸汽机。所以根据人的想象中就创造出无数作品的机器人。亚洲想象的比较人性化,是阿童木这样的,美国就是钢铁战士这样的。但现实生活中真实的机器人确是另一个样子,这是一个扫地的机器人,另一个叫好奇号或好奇者是美国航天局发射到月球的机器人,是核动力的。这些形象和我们想象中的不太一样,它们能做到我们做不到的事情。


                  9楼2016-03-16 19:07
                  回复
                    是数据,让你领先对手10年!
                    当时Franz Och学校的事情还没有忙完,请了两个月假回学校把事情忙完,把学生的考试卷看完,6月份才回来。这个测试在第二年四五月份,时间不够,他只是把所有的代码重写了一遍,没有做任何优化。那么,评估结果一出,大家都很惊讶。大家不要看他只和第二差五个百分点,在学术界提高五个百分点,大概要八到十年。那么他是如何做到这点的呢?NIST参加评测一定是要讲一讲是如何做到的,他的方法讲出来大家恍然大悟,因为他用了别人一万倍的数据,所以可以看到数据的重要性。


                    15楼2016-03-16 19:11
                    回复
                      大数据
                      刚才讲过,决定过去四十年经济发展的是摩尔定律,未来二十年真正改变经济发展的是大数据,所以这又回到了这个系列的主题——大数据。我几个小时前被几个朋友绑架到了一个中关村的咖啡屋,去讨论什么是大数据。一些人的理解都还很有局限性,把大数据和大量的数据混为一谈。大数据一定是大量的数据,但反过来却是不一定的。还有一些人说结构化,这些都是表面这层的关系。大数据有什么特征呢?有两个,比较实和一个相对比较虚的特征,虚的特征也很重要,要在一定的维度上。如何理解这个特征,举一个例子:百度知道,在大概一年前发布了一个并不引人注目的报告,关于调查的。什么意思呢?用百度知道里面的问题(大概几千万已经被回答的问题,来调查全国各地饮食习惯),像在西北地区,大家问什么东西能吃,在广东,大家问“什么东西不能吃?”说除了四条腿的桌子椅子不能吃,其他都可以吃。这就是经济发展的差异。但是有好多数据不公布,如果再接着公布一点,因为有一个历史的数据,随着时间的变化,可以发现人们生活水平的改善。你再看手机上网的习惯,用的什么浏览器,什么操作系统,你就知道他有钱没钱,知道他是富人还是穷人等等等等,你可以揭密好多东西,这是大数据,是好多维度混合在一起的。好多事情做起来都很easy,大数据相比调查问卷更能真实反映实际情况。大数据有一点叫完备性。


                      16楼2016-03-16 19:12
                      回复

                        在对美国2012年进行的预测,盖勒普做了一些预测,有些对有些不对,到了2012年出了一个无名小子叫Silver,就用大数据预测了这件事,就是将所有可能在网上找到的数据搜集来。
                        这是他预测的结果,红色是共和党,颜色深浅代表优势的明显度,蓝色代表民主党,他把五十个州全部预测正确了。这在美国选举中从没有出现过,所以这件事大家觉得非常可怕、震惊。这就是完备性的可怕之处。


                        17楼2016-03-16 19:13
                        回复
                          还有重要一条,大数据在某种程度上催生一些新的思维和做事方法,大家想中文翻译大数据很简单,就是“大”“数据”,英文中为什么用big data,不用large data,big和large到底有什么区别?严格来讲有非常细微的差别,large指相对具体一些,讲的是数量多,big抽象一些,big data从某种程度上不是指量大而是抽象的概况,是指思维的方法和做事情的方法。过去在生物制药时很多时候,尤其清华工科的学生,都要讲究因果关系,先找到症状的原因,可能是一种细菌,然后针对这制作一种药,然后进行小白鼠实验,再临床试验看看是否有效,这是一种思维方式。那么大数据是什么呢?比如斯坦福研究医院发现有一种治疗心脏病的药,对胃病可能管用,至于什么原因也无从知道,然后他们不用小白鼠做实验,直接临床试验,这个成本大概一亿美元,三年时间。因为他们已经知道这些药物性,不用从果蝇到白鼠实验,从而节省大量时间金钱。最后一点很关键,Google内部做事情的一个例子。大数据近几年的比较和我刚到Google的时候,那时候Google中日韩的搜索跟英文一样,连个分词都没有,经常是连一个搜索结果都找不到。因此我重新设计了一套算法,原来准确率有百分之五十到百分之七十,过两天有百分之七十五到百分之八十,每一点提升都涨得很快,但到了一定程度就基本走不动了,就像所说的机器翻译十年增长五个百分点,这谁受得了?但从05、06年以后,搜索积累了大量数据就不一样了,比如搜到了三十多条信息,就可以分析用户为什么点了某一条结果,借此提高搜索性能。再过到07、08年的时候数据量更大,有时甚至你不知道原因时就已经知道结果了,这时你就有一个思维方式的改变,由于大数据多维度看问题,就从多个方面保障了结果,这也是大数据的本质。


                          18楼2016-03-16 19:14
                          回复
                            以后要是有人问我大量的数据是不是大数据,不一定,得看一看。比如我的好友跟我说过,一个基因解码下来的数据一个PB这样的规模,比百度知道的数据量大多了,但这不是大数据,因为数据没有多样性,一个样本得不到太多的统计规律。


                            19楼2016-03-16 19:15
                            回复


                              20楼2016-03-16 19:15
                              回复