=ks訴矡韄!fkm\裉xl罏*q抁o吚驳U‐桭:3#[# IG$藄 K萂`a面睮皎鼦[堂燊/>i,珊K缪荮Ow燁>G嚵誘 IU乏篝麱瞆敜| 共e跘n!Uw碎=))K猏驼Q眣閆胂椱'n菸gi慛KZr$G]攖趪h5TH-爼%覸潝唻 繞嵍秆ztqT罱袣醯谁'WZ焳:邡鎿智螏禣]k]Xk趆舐_谧狭揋珋TE巄k柅櫰3呕ā%舜]閽諅5ド栓fh&雐G憉T葝咒e璙骱僱"椸0埅甼パ懞禭H)K砯僧M怹A$谌P憤l慏TZ熊埗e赢蒼ZE.RB紅憥i堲aq6无k'嶏.F让虍磇kCA膢冲H:爮%WP篺 eQ5#趵 B亹 繑"$a樟鉣v丑颌LKS抍+匱6粣q蘪=惮傾*Y圠;,ds楸鬱vjk漺搀G耆^稍4#3铯婛,穧鸭 毖劕RZ枥醡,楫4戴倉8腱J;U娃砟)?S6r,覲%蕐4&%B 愆蔎8m:資孊╧苽T礠炣]=&&鰩3妀D奀P佪鲂)Dz e⒋髋 $閌9U劯}儭岵$懛尗YN赲H诇(}A秏邙(鼡.k簨飑攅M漽錙5吧噈賞:戀)堕榚7S眅[貪@滍螛篿;甝烫%ǔt$5}屟馡孙x趉鍂='撉0'9JF1,襾tc$坶溂Тg黝忆a鳦 湤鲹L碎2薗<脫k幈&kz諾?s嬨cs蚣挆|桗p凒挬瓾歓H釃氦酇錟m憯/貮l杲b夫;@]v淏 i篔K媰y鶯M嘉階b襤%脪4B謥1銭 荩韲蛎 磗傪~H耛X砮U諏 n5%瀣錳 S腅|U\ H端诓彆5裃%y贈yN寜%{ @+豄+椴 萞︽O滽"凊嶻依G髝1iqF2Ashy汏*$0jRi<惽j勽.戨畒|O╦燺拤?W餎pj言詽c#俞髿a蛰 躖R窗敀e綆 O蹂塴阋Ww抄;g*X榖猷ER))鴑査腝r 0龃O漬~q ;N絋榆嚋與fP[杭2%唷( 霑 r躓碋>縃b彲k嶬4屚0K懹E{')#b8|1)#鸩(㘚悯U ⒚( L讑龕&炊率暸尜谁底綹?>&-]釶[ЬY縭基嵪痩猆宕藁菥l泤宏xP7總匕yn褫(▆@軵撕箶M?ag笄岾椕@劫L} w&c詞F"D矻燼鲟佹'w!"痐蠔磰奷},媝琿缡訃7洘~竬囟錞MV橪>sz憝俔\仨>6>w濕盶.;痆纁瀃鑿V,)>砾U珰]]瀇漇e驼-.歘<嵉銔銖7艑簱]璗╝*>}餗箫'Cr懴瞩=膲媃R嬰酵*軘塣2曦茭m鰿I娰r ;(G繗哠譣賞鷬玒J蒳R?L 捴04虒儆徶郬 `梮氯迖SE至砑s絬長胙{岾g=7b `u駎y$鎑ㄚwO5N cc嗵篕岘=x纉lr硄M兂慴*☆椋踳6瀟鮠<騜%蝈!匰iSY衴.)4䞍0T汊迤僑懑N禢S蕭3 埒Mm=yKt泗魍飋o+>]gyA啿仅晪I 齣o;k]Sh 拂:J痿I .齜a歨[鄿 q泲纘籏b 鲨QI+锬^&Rァ!Isf咐晭%韅煕漟╋匐4?D 禦teg掯 [撧舰孎"\讯亪玉35N烝 %樻鑱畦霧!u"曆钧)崠砠*葃C51橌 ' 轰 炢 H 鬖#0-g;BO諸0<Rk汯y诼#舄lT6T燸挿3{銭"d進P猽 cm!;Bx奱豿榓篫5嵤,磰抡撘js鞇鏍HR%蜮凞&="慞)樴䲢飡伒{]#pIe鵑洂< J鏹訩逩9*kHW d脪2錁禰校肧R&y-絮~輝p耚恋 qH 0堳鸹<:N] 琻 讔X@翰 拎笲09kYy犎MQ\#$WG闒亩糤悅壽$绒ze宍 l)ネ瓃戅dO鲆h^%C=qWG处蘚K惩S今}伕9碵湷.'磨7飕lF甿2M镋脱\Q葲讕拒倔篾;#-V頀弢隴渪5瀢沷9=鄥d憮_o 鲝><杁#C濇嗱f&)鹢r睋赤@蓓4u5L谺蓙0懣)䲡O!下s碚碯z'皊 1$憤僻O~泱迄/涍~=U 蠅刨蘦g$響6,%瑽F䦆愂绬|聐 o踳螑莻鏽鏌恃/b汘T3驜?z'利舋晠, 5F僠瘷@>荍舸#{{櫆 磸:86蚇帒运A侪昌H <泲T亘P舗.艻``讘8捩 攝E櫜i*+諠澳搷跐X,GI蔋h@H慣(HcPN+捝5拮A簝庼昴[硢襻嫜#兠l:膲>oJ迯銈%絷 療︺禋*D7[湞擢VH砇Mb欐S醧Щ~y%靆{踚!砫僱备饂^氩彎W3卋枪U逷坋b-'酺殬I艦+97dk汘8q%q秝郅(蜓ㄗ`e};麾;城(痗I%栽Н+y錈!'菉mgQDg绮崯鞠F法鄌顖盒懈w瓚k謙囨嗦^蹐滦藤8N貶(鹘猉>饉摳e61褸D?n^8/F 传╩t\h&68u6?u 喐匰坊窃%T'謴_8䎬缬?從殹=赏修崣℃貹xBDI&5森蹎箞飚&XRfu灏 y2/Q2寀泱5樿謌g[侄樆t蚅:庱g淋>i氳蔥xbk篋^皁"xY 鏚qpq$dJ?儩Y眼耕䜩óGVc})褤忖偣&潆.#甫皲闷>哼q唉y﨔簖?揙r?濥3彽傘D&J 腅洵3淽旛Q蛬dE< 裺昒昺(稑u GFEN刕鰲%!鈊`pZH岢d3諌9%誨{闶巅T洌羙$窵硷合-(茞Ywq蘘X":纔*!Z饏漎{2Rsi尾5 剐某]x呺l縇*=ir规壛帛刓泗穤绅NI%寗C 鎼盔U錪}煑0埂tL椥.V5fO'僡幽Y杪姗-獾7梧'1L 氇鐓"=:﹦塋W青紩竾a"攉図覜 |孹VCjK碯h苎c23鸰殪H艵幓3蘃pD6骫儛讚X峆縛桸撀'a圿G渀 蛕蛻N>夛(Z1]a袥ZP(-^VB@,.斍佊+!瀷0镤亲3甕+^3ZgB祰G直Ⅳr蛣3斴|矨岔j妿孽+奫O5/6H8(糲洴憶淗訉U/闅r獊M剦9儚筠 ddiiI貨师x呍\娊蓇穓诔7k僤酢驫濘wa闰繵,I() .%軘U')l蠨迿8挬&)u5E特藡2 QCC>繏鮾r%F磁)F爴鈠皿 ih鏬fH1頒f7d鈴  鲘zM* 垷Hz!饙z^) 甡衡屫`撈ιS%迎N{z儳+CP秢i俻F橱噓%6;)h僕擷柢zx聴笇撟燞篌踿榺5H沓PL?d馿蔊壨>鲀<媖P$;稅@:恌韞C類猔洶棡讫足uXvB>:激琎m$4]sWD)鞅呄I09狟柯殥r#寺眔熒N摺琨\\1=@妀.e7く链g@Ggp=V緱W䦂/a栁6藲;聴]恛E 呀謌蝪 {遌攽 繐 臻亱蕸耬悆au憌-@邎6三毤|0jxy綷;薷鵘D1 }cJ茟U庅襽錀\#]6暫#'vo 垤Еa楽O萷眖熮鳉\:B盚4紸w迈,x煎>讆-r/鸐ɑ[沜(&7dNM岧6焨奾K桾2顇 旈h>凸_"T眜.D=壶菱/'kE簒I*蔽1 /塥號b`蟣M( vC櫘8鹒5a7%'*7:&E=閳 簁 C85n3p9褱x'坟歺沤p粆蘅糥韑4幆9占r;説P扟姰D|歮>踕哒Z籐65N賘{^$殝R3祛4 袏^ZG3~友蜘閖o寪蜱1Ie|^暺2 *i娽~髐泖b焵:馕玌澟+N~/'憯腟瑟穼P<' $B齊}郿罳y`衑彤% hZ雠4這z屶楸C上F荆馈翷嚫 I)#bV *Zk" 9頋t瀪嗉鱥:袄饟钵笐韭:>胑鼫!身芶4(y vf5v-M.撶}旆4% &胖;;WiL H倧V%觗橒帹O汍Qu諲-6洂鴥壭i鞉婙风潿畷夜\丧蓃N __ ~swy棜烡{剖燕妰鋤珬e{缛t攌喻0S圍跊妋:CrKqU蟟燦@ 審.堸,齩]2@e
新闻>正文

沈艳:统筹数据治理,助力新经济发展

2017年03月20日14:10 来源:搜狐媒体平台

  导读近年来,大数据在中国经济中扮演了举足轻重的角色,2014年-2017年,“大数据”连续四年成为政府工作报告中的“座上客”。2014年政府工作报告指出,“赶超先进、引领未来”-头脑风暴;2015年提出要推动大数据与制造业相结合;2016年指出要深入推进;2017年指出要加快大数据、云计算、物联网的运用,智能制造为主攻。近日,北京大学国家发展研究院教授、北京大学数字金融研究中心副主任沈艳教授就此接受了海外网的采访。

  沈艳教授分析称,我国拥有世界最大的人口规模以及网民规模,大数据资源十分丰富。关键在于要让企业、学术机构和不同群体参与到数据的使用与发掘当中,这对于促进经济发展,实现传统经济向新经济的顺利转型,具有重要意义。

  以下为采访实录:

  大小数据运用应根据研究目的选取

  记者:如今,海量数据正在以前所未有的广度和深度影响着人们的生活。与此伴随的是越来越多的人开始回归大数据的本源问题,探讨大数据的定义,在您看来,数据、小数据,大数据的区别及联系是什么?

  沈艳:为了回答这个问题,我先查了一下词典,我认为韦伯斯特词典关于‘数据’的定义对于理解如今何为大小数据的讨论,有借鉴意义。词典的第一条提到‘数据’叫factory information,就是‘事实性信息’,这个事实性的信息是用来推理、讨论和计算的;然后第二条比较有意思,第二条是说由感知装置或者是器官的信息输出。其中,这些信息既可能包含有用的信息,也有可能包含多余的无用信息,需要经过处理才能够有意义的信息。这样一来我们通常要回归到数据的本源上讨论到统计。统计最早开始于人口统计,古代君王想知道自己到底统治了多少人就需要人口统计。由此我们来看小数据它有几个特点,第一个,它是为特定目的收集的,比如说我要统计这个国家有多少人;第二个,我们看它多半是结构化数据,比如我有一个专门的年鉴,上面记录我们某一年有多少人,男的多少人,女的有多少;第三个,在使用过程中比较透明,大家都拿一本年鉴,看我们俩分析的本领谁更强,所以这个时候不同的学者可以用同一套数据,也可以交叉验证研究结论。

  记者:那么与小数据相比,大数据又有哪些特点?

  沈艳:大数据通常说有三个‘V’,volum,velocity和variety,主要就是数据量大,实时,种类多等等。大数据的生成过程和小数据不同之处在于大多数的大数据本身并不是为了一个特定目的搜集的,比如说我们在网络上搜索,我们只是为了满足我的需要,但是搜索背后的公司把这个信息利用起来,把它变成了一个大数据。所以,它记录的颗粒比较细,包含很多冗余的信息,它对于分析和处理要求比较高。所以,这里我打了个比方,好像在同一天有两个孩子出生,A家庭是传统家庭,做法是每年到生日的时候,就带孩子到照相馆照照片,所以十年我有十张照片记录了孩子的成长。B家庭是未来式的家庭,他家里安装摄像头,只要孩子到的地方就会录到这个孩子。这样,这个孩子从0岁到10岁,在这个家里面都有了录像。在这里,A家庭做法类似于小数据,收集的目标很清晰,就是要记录孩子的成长。虽然有可能时间和金钱成本相对比较高,但是输出的结果也是很清晰。第二种类似于大数据的处理方法。因为技术的进步,允许我们用颗粒更细的方法来记录信息,记录信息的成本大幅降低,我们全部都储存在网上或者移动硬盘就可以记录很多很多信息。但是,这个数据收集的目标是不清楚的,家庭为什么收集这个信息,万一将来有用呢,也说不清楚什么用处,因此它在使用和分析的时候成本就比较高。我从这个例子想说明,大数据并不一定比小数据更好,其实它取决于你的目的,假如我记录孩子成长,单纯为这一个目的的话,那么我前面说的小数据的例子,我把照片这样放下来,可能是很感人的,很好的过程。另外一方面,如果这个家里出了一个突发事件,孩子受伤了,想知道孩子是怎么受伤的,这个时候你调用颗粒度很细的那个录像,就能够帮助到了。所以当我们说到大数据和小数据的区别的时候,虽然它们在表象上,大数据能够记录更多的信息,但是它的颗粒度更细,它有更多的多余的信息,但是它对于分析的要求是更高的,不见得大数据一定更好,它取决于你要研究的问题,你的目的是什么。

  大数据分析需要“大小结合”、“人机结合”

  记者:您在之前的采访中提到过,大数据发展谨防“一哄而上”,据悉我国目前数据污染严重,很多原始数据存在夸大或瞒报现象。面对此现状,您认为可靠的大数据分析需要具备哪些关键点?

  沈艳:可靠的大数据分析具备什么样的特征。第一个是目标要明确。我举一些例子,首先我觉得从我们刚才的比方来看,一个有效的分析它一定是分析目标比较明确,你的目标明确在于什么呢,是不是这个目标只用大数据分析才能实现,还是高质量的小数据就够了,又或者是需要大数据和小数据相结合。有的问题高质量的小数据足够了,类似于刚刚我说的,我要记录孩子成长就够了,或者我们要了解一个地区的经济发展的基本状况,回溯它历史发展的年革,一个产业在一个地区的形成、基本的结构和格局,那这些信息,我们其实高质量的小数据就够了,专门部门为我们收集的资料就够了。

  另外有一些问题它可能需要大数据和小数据的结合,比如我们曾经做的新经济指数,想要刻画新的经济部门在国家当中的变迁。那么,当你在构造这个框架的时候,就需要结合现有的一些小数据。

  第二就是数据的质量很重要。其实从我们刚刚那个比方能够看出,即便我有大量的信息,假如我只是这个孩子一个上午的活动,可能还不如我十年的照片给我的信息量更大。所以数据量这里一个常用的说法叫‘垃圾进,垃圾出’,也就是说如果数据源的质量不够好的话,也就不要指望后面分析结果的质量会高。至于原始数据存在夸大瞒报这样的问题,我觉得后面我们还会讲到,更多的是细节,一方面是可能是存在故意,但是不能忽视的事情,度量这个经济活动的各个方面,本来就是很不容易的任务,大数据数量大、实时,更多信息是冗余,所以其实对于数据质量它有更高的要求。

  第三就是数据分析方法。得有好的方法,才能有好的数据分析的产品和结果,那么其实在我看来,孤立的使用大数据做出好产品的情形我很少看到。

  记者:也就是说在实际操作过程中要将大数据和小数据互相融合?

  沈艳:对,是这样。主要原因有这么几个。第一个,大数据一般不是有目的的收集,产生很多数据以后,人们把它记录下来,这个收集的过程使得我们需要评估这个数据质量,并且需要一些标准。而这些标准往往需要我们用一些小数据来验证。所以,我认为可靠的大数据有这样两个特征,一个叫大小结合,大数据和小数据相结合,第二个也是最近的一个心得,叫人机结合。

  大小结合我们已经说了,你拿到大数据,那么这个数据本身质量怎么样,往往需要用很多小数据去验证。

  第二个人机结合,是说其实在数据分析的过程当中它有很多参数,比如这个数据怎么清洗怎么整理,这些东西都是要经过人去做,一些关键参数的设定,它是需要人脑去完成的,所以一个好的产品最后我们应该也是人的直觉上也是能通过的。我这里举个例子,大家知道去年比较热的事情,就是Alpha Go以Master为名战胜各大围棋高手,有人说这是机器打败人类,说这是大数据的胜利,也是人工智能的胜利。其实我觉得,这是一个看问题的视角。但另外一个角度是:人类利用数据和开发数据的能力的证明。在这个例子当中,它其实一定程度上,首先是大小数据的结合,小数据指的历代经典的棋谱,大数据就是这个程序写完之后他要跟很多不同的人去对弈,这个过程也是一个机器学习的机会。所以,它是一个人机结合的过程,

  那么这个人机结合,它不仅指人类教给机器人类的思维方式,因为这个Alpha Go的原理在于深度学习,近似于人类的学习的步骤。另外一个视角,是未来一个发展趋势,一方面是教给机器人怎么思考,另外一方面你也可以给人装备机器具有的一些能力。其实,这个我们已经有体会了,比如说我要去某一个方面,我拿着手机GPS搜索一下就可以了,我们原来可能没有办法那么简单就到某个地方,这就是人借住机器的步骤。比如《必然》那本书里头讲到现在的国际象棋冠军Magnus Carlsen,他就特别善于利用人机的结合,利用人工智能来下棋,所以这是挺经典的实际应用的例子。所以,我认为大小结合不仅指的数据分析的时候你需要小数据,另外在评估一个大数据的质量好坏的时候,我也会需要使用小数据,比如谷歌流感趋势刚开始出来的时候特别火,说它可以提早两个礼拜去预测流感,但是在后期它的预测不那么准了,不那么准的标准就是美国疾控中心的预测可以比它做的更好。大小数据的结合,一个可靠的分析,大数据如果不能做的比小数据好,我们可能就需要考量一下。

  另外还要避免“垃圾进,垃圾出”,这就需要有很多的高质量人才,参与到数据质量的评估和数据质量的分析当中。从“人机结合”这个角度你可以往前看能够看到需要跨界的人才。比如说我要做音乐领域的大数据的产品,那我不仅需要懂算法的人,我也需要懂乐理、懂音乐、甚至懂人文心理的一些人,需要懂得用户心理,要怎么呈现给他们,他们才更愿意接受。

北京大学国家发展研究院教授、北京大学数字金融研究中心副主任沈艳教授

  文章来源:海外网

  

  “未名湖数字金融研究”公众号(iif_pku)为北京大学数字金融研究中心(Institute of Digital Finance, Peking University)的官方公众号。北京大学数字金融研究中心(原北京大学互联网金融研究中心)是由北京大学中国社会科学调查中心、上海新金融研究院和蚂蚁金服集团于2015年共同发起成立的学术研究机构。中心是北京大学的二级机构,挂靠北京大学国家发展研究院。中心致力于开展金融科技、普惠金融、金融改革等领域的学术研究,向社会提供权威的科研成果,为政府决策提供参考,服务于金融行业的发展和监管。

  

  

  

  

  公众号iif_pku

  关注并回复关键词

  “报告”或“指数”,

  获取精彩报告内容