股票行情中心 - 证券频道 - 搜狐

大陆市场

上证指数 3154.66 +2.47 0.08%
深证成指 10234.65 +5.46 0.05%
中小板综 11167.92 +35.31 0.32%
沪深300 3439.75 -6.97 -0.20%
沪市B股 335.13 -1.02 -0.30%
深市B股 1116.77 -0.08 -0.01%
沪市基金 5799.02 -2.50 -0.04%
深市基金 8344.97 +25.94 0.31%

我浏览过的股票

名称价格涨跌额涨跌幅
    
    
    
    
    
<未浏览股票>
    
    
    
    

我的自选股

    
    
    
    
    
    
    
<未定义自选股>
    
    
    
    
    
    

大陆行情

  • A股
  • B股
沪涨
新日股份 9.65 10.03%
坤彩科技 22.84 10.02%
联泰环保 24.48 10.02%
上海凤凰 27.37 10.01%
格尔软件 41.98 10.01%
深涨
泰尔股份 7.98 10.07%
中化岩土 12.17 10.04%
河钢股份 5.04 10.04%
巨力索具 11.40 10.04%
钧达股份 17.34 10.03%
沪跌
水井坊 23.03 -10.00%
多伦科技 53.75 -10.00%
华懋科技 32.12 -10.00%
航天长峰 26.00 -10.00%
国发股份 10.19 -9.98%
深跌
圣农发展 16.73 -10.01%
易华录 30.60 -10.00%
群兴玩具 11.98 -9.99%
洋河股份 80.00 -8.65%
奥瑞金 7.14 -6.05%

领涨板块

合约 均价 涨跌幅 领涨股
沪自贸区 16.05 5.33% 界龙实业
券商板块 13.63 4.13% 东北证券
生物燃料概念 12.14 3.81% 华光股份
铁路基建 12.70 3.24% 晋亿实业
新上海 13.98 3.20% 界龙实业
地热能概念 12.07 3.07% 常发股份
运输物流 9.78 2.80% 锦江投资
航空板块 6.87 2.79% 东方航空
公用事业 8.90 2.77% 申通地铁
期货板块 9.97 2.65% 东北证券

资金流向

净流入 净流入金额 现价 涨跌幅
净流出 净流出金额 现价 涨跌幅
新闻>正文

沈艳:统筹数据治理,助力新经济发展

2017年03月20日14:10 来源:搜狐媒体平台

  导读近年来,大数据在中国经济中扮演了举足轻重的角色,2014年-2017年,“大数据”连续四年成为政府工作报告中的“座上客”。2014年政府工作报告指出,“赶超先进、引领未来”-头脑风暴;2015年提出要推动大数据与制造业相结合;2016年指出要深入推进;2017年指出要加快大数据、云计算、物联网的运用,智能制造为主攻。近日,北京大学国家发展研究院教授、北京大学数字金融研究中心副主任沈艳教授就此接受了海外网的采访。

  沈艳教授分析称,我国拥有世界最大的人口规模以及网民规模,大数据资源十分丰富。关键在于要让企业、学术机构和不同群体参与到数据的使用与发掘当中,这对于促进经济发展,实现传统经济向新经济的顺利转型,具有重要意义。

  以下为采访实录:

  大小数据运用应根据研究目的选取

  记者:如今,海量数据正在以前所未有的广度和深度影响着人们的生活。与此伴随的是越来越多的人开始回归大数据的本源问题,探讨大数据的定义,在您看来,数据、小数据,大数据的区别及联系是什么?

  沈艳:为了回答这个问题,我先查了一下词典,我认为韦伯斯特词典关于‘数据’的定义对于理解如今何为大小数据的讨论,有借鉴意义。词典的第一条提到‘数据’叫factory information,就是‘事实性信息’,这个事实性的信息是用来推理、讨论和计算的;然后第二条比较有意思,第二条是说由感知装置或者是器官的信息输出。其中,这些信息既可能包含有用的信息,也有可能包含多余的无用信息,需要经过处理才能够有意义的信息。这样一来我们通常要回归到数据的本源上讨论到统计。统计最早开始于人口统计,古代君王想知道自己到底统治了多少人就需要人口统计。由此我们来看小数据它有几个特点,第一个,它是为特定目的收集的,比如说我要统计这个国家有多少人;第二个,我们看它多半是结构化数据,比如我有一个专门的年鉴,上面记录我们某一年有多少人,男的多少人,女的有多少;第三个,在使用过程中比较透明,大家都拿一本年鉴,看我们俩分析的本领谁更强,所以这个时候不同的学者可以用同一套数据,也可以交叉验证研究结论。

  记者:那么与小数据相比,大数据又有哪些特点?

  沈艳:大数据通常说有三个‘V’,volum,velocity和variety,主要就是数据量大,实时,种类多等等。大数据的生成过程和小数据不同之处在于大多数的大数据本身并不是为了一个特定目的搜集的,比如说我们在网络上搜索,我们只是为了满足我的需要,但是搜索背后的公司把这个信息利用起来,把它变成了一个大数据。所以,它记录的颗粒比较细,包含很多冗余的信息,它对于分析和处理要求比较高。所以,这里我打了个比方,好像在同一天有两个孩子出生,A家庭是传统家庭,做法是每年到生日的时候,就带孩子到照相馆照照片,所以十年我有十张照片记录了孩子的成长。B家庭是未来式的家庭,他家里安装摄像头,只要孩子到的地方就会录到这个孩子。这样,这个孩子从0岁到10岁,在这个家里面都有了录像。在这里,A家庭做法类似于小数据,收集的目标很清晰,就是要记录孩子的成长。虽然有可能时间和金钱成本相对比较高,但是输出的结果也是很清晰。第二种类似于大数据的处理方法。因为技术的进步,允许我们用颗粒更细的方法来记录信息,记录信息的成本大幅降低,我们全部都储存在网上或者移动硬盘就可以记录很多很多信息。但是,这个数据收集的目标是不清楚的,家庭为什么收集这个信息,万一将来有用呢,也说不清楚什么用处,因此它在使用和分析的时候成本就比较高。我从这个例子想说明,大数据并不一定比小数据更好,其实它取决于你的目的,假如我记录孩子成长,单纯为这一个目的的话,那么我前面说的小数据的例子,我把照片这样放下来,可能是很感人的,很好的过程。另外一方面,如果这个家里出了一个突发事件,孩子受伤了,想知道孩子是怎么受伤的,这个时候你调用颗粒度很细的那个录像,就能够帮助到了。所以当我们说到大数据和小数据的区别的时候,虽然它们在表象上,大数据能够记录更多的信息,但是它的颗粒度更细,它有更多的多余的信息,但是它对于分析的要求是更高的,不见得大数据一定更好,它取决于你要研究的问题,你的目的是什么。

  大数据分析需要“大小结合”、“人机结合”

  记者:您在之前的采访中提到过,大数据发展谨防“一哄而上”,据悉我国目前数据污染严重,很多原始数据存在夸大或瞒报现象。面对此现状,您认为可靠的大数据分析需要具备哪些关键点?

  沈艳:可靠的大数据分析具备什么样的特征。第一个是目标要明确。我举一些例子,首先我觉得从我们刚才的比方来看,一个有效的分析它一定是分析目标比较明确,你的目标明确在于什么呢,是不是这个目标只用大数据分析才能实现,还是高质量的小数据就够了,又或者是需要大数据和小数据相结合。有的问题高质量的小数据足够了,类似于刚刚我说的,我要记录孩子成长就够了,或者我们要了解一个地区的经济发展的基本状况,回溯它历史发展的年革,一个产业在一个地区的形成、基本的结构和格局,那这些信息,我们其实高质量的小数据就够了,专门部门为我们收集的资料就够了。

  另外有一些问题它可能需要大数据和小数据的结合,比如我们曾经做的新经济指数,想要刻画新的经济部门在国家当中的变迁。那么,当你在构造这个框架的时候,就需要结合现有的一些小数据。

  第二就是数据的质量很重要。其实从我们刚刚那个比方能够看出,即便我有大量的信息,假如我只是这个孩子一个上午的活动,可能还不如我十年的照片给我的信息量更大。所以数据量这里一个常用的说法叫‘垃圾进,垃圾出’,也就是说如果数据源的质量不够好的话,也就不要指望后面分析结果的质量会高。至于原始数据存在夸大瞒报这样的问题,我觉得后面我们还会讲到,更多的是细节,一方面是可能是存在故意,但是不能忽视的事情,度量这个经济活动的各个方面,本来就是很不容易的任务,大数据数量大、实时,更多信息是冗余,所以其实对于数据质量它有更高的要求。

  第三就是数据分析方法。得有好的方法,才能有好的数据分析的产品和结果,那么其实在我看来,孤立的使用大数据做出好产品的情形我很少看到。

  记者:也就是说在实际操作过程中要将大数据和小数据互相融合?

  沈艳:对,是这样。主要原因有这么几个。第一个,大数据一般不是有目的的收集,产生很多数据以后,人们把它记录下来,这个收集的过程使得我们需要评估这个数据质量,并且需要一些标准。而这些标准往往需要我们用一些小数据来验证。所以,我认为可靠的大数据有这样两个特征,一个叫大小结合,大数据和小数据相结合,第二个也是最近的一个心得,叫人机结合。

  大小结合我们已经说了,你拿到大数据,那么这个数据本身质量怎么样,往往需要用很多小数据去验证。

  第二个人机结合,是说其实在数据分析的过程当中它有很多参数,比如这个数据怎么清洗怎么整理,这些东西都是要经过人去做,一些关键参数的设定,它是需要人脑去完成的,所以一个好的产品最后我们应该也是人的直觉上也是能通过的。我这里举个例子,大家知道去年比较热的事情,就是Alpha Go以Master为名战胜各大围棋高手,有人说这是机器打败人类,说这是大数据的胜利,也是人工智能的胜利。其实我觉得,这是一个看问题的视角。但另外一个角度是:人类利用数据和开发数据的能力的证明。在这个例子当中,它其实一定程度上,首先是大小数据的结合,小数据指的历代经典的棋谱,大数据就是这个程序写完之后他要跟很多不同的人去对弈,这个过程也是一个机器学习的机会。所以,它是一个人机结合的过程,

  那么这个人机结合,它不仅指人类教给机器人类的思维方式,因为这个Alpha Go的原理在于深度学习,近似于人类的学习的步骤。另外一个视角,是未来一个发展趋势,一方面是教给机器人怎么思考,另外一方面你也可以给人装备机器具有的一些能力。其实,这个我们已经有体会了,比如说我要去某一个方面,我拿着手机GPS搜索一下就可以了,我们原来可能没有办法那么简单就到某个地方,这就是人借住机器的步骤。比如《必然》那本书里头讲到现在的国际象棋冠军Magnus Carlsen,他就特别善于利用人机的结合,利用人工智能来下棋,所以这是挺经典的实际应用的例子。所以,我认为大小结合不仅指的数据分析的时候你需要小数据,另外在评估一个大数据的质量好坏的时候,我也会需要使用小数据,比如谷歌流感趋势刚开始出来的时候特别火,说它可以提早两个礼拜去预测流感,但是在后期它的预测不那么准了,不那么准的标准就是美国疾控中心的预测可以比它做的更好。大小数据的结合,一个可靠的分析,大数据如果不能做的比小数据好,我们可能就需要考量一下。

  另外还要避免“垃圾进,垃圾出”,这就需要有很多的高质量人才,参与到数据质量的评估和数据质量的分析当中。从“人机结合”这个角度你可以往前看能够看到需要跨界的人才。比如说我要做音乐领域的大数据的产品,那我不仅需要懂算法的人,我也需要懂乐理、懂音乐、甚至懂人文心理的一些人,需要懂得用户心理,要怎么呈现给他们,他们才更愿意接受。

北京大学国家发展研究院教授、北京大学数字金融研究中心副主任沈艳教授

  文章来源:海外网

  

  “未名湖数字金融研究”公众号(iif_pku)为北京大学数字金融研究中心(Institute of Digital Finance, Peking University)的官方公众号。北京大学数字金融研究中心(原北京大学互联网金融研究中心)是由北京大学中国社会科学调查中心、上海新金融研究院和蚂蚁金服集团于2015年共同发起成立的学术研究机构。中心是北京大学的二级机构,挂靠北京大学国家发展研究院。中心致力于开展金融科技、普惠金融、金融改革等领域的学术研究,向社会提供权威的科研成果,为政府决策提供参考,服务于金融行业的发展和监管。

  

  

  

  

  公众号iif_pku

  关注并回复关键词

  “报告”或“指数”,

  获取精彩报告内容