中国信息通信院研究院副主任兼大数据工作组组长魏凯:中国大数据产业发展与标准
全球发达国家美、英、日、俄等均重视军民融合技术,中国近年来也在大力推动军民融合,既是强军,也是富国的迫切需要,是促进经济转型升级、建设创新型国家,实现由工业大国向工业强国转变的迫切需要。北京时间7月7日,2016中国军民大数据产业高峰论坛在南京召开,论坛上邀请到了众多专家学者、行业专家以及优秀企业代表,共同探讨大数据分析在军队信息化建设中的重要作用,探讨如何做好军工领域的大数据建设工作,探讨大数据在军工领域的价值和实践意义。
成都创新互联主营洛隆网站建设的网络公司,主营网站建设方案,成都App定制开发,洛隆h5微信平台小程序开发搭建,洛隆网站营销推广欢迎洛隆等地区企业咨询中国信息通信院研究院副主任兼大数据工作组组长魏凯
中国信息通信院研究院副主任兼大数据工作组组长魏凯在论坛上为参会者带来《中国大数据产业发展与标准》的主题演讲,以下是演讲实录。
魏凯:我今天给大家做一个分享,大数据产业的进展和我们国内的一些情况。大概有几个内容,一个是我们先看一下,国际上大数据发展的走向,跟大家介绍全面的认识,其实在2015年的时候,如果是民口的话,高科技公司都会看到这张图,新型技术的曲线,如果在这个曲线上出现的技术,可能会受到这个产业界的高度的关注。
从2011年到2014年,Gartner公司每年都会发布这样的一个曲线,大数据肯定会在这上面出现,但是正当大数据在国内外炒的火热的时候,2015年的时候,他已经从这个曲线消失了,2015年的时候,Gartner把这个大数据从曲线中删除。很多在2015年2016年准备融资的企业,还找Gartner要理论,我们正准备去赚一笔突然间你们又不炒了。为什么?Gartner工程师,也认识到了这个问题,他们还专门写了博客来回应,为什么他们把大数据从曲线上删除,他们认为,大数据不是不热了,不是已经退烧了,而是成了一个新常态,不是一个炒作的话题,而是一个真正落地的工作。
在这个新型技术的观察里头,把很多与大数据有关的技术都列上了,比如说数据分析技术,还有一些商业智能的新技术,数据资产管理的平台等等。其实他们与大数据相关,更落地的一些概念,一些工具已经在企业里头逐渐落地了,甚至大家现在可以看到,在军方,我们都很关注,大数据在辅助战场决策中的作用。
在2012年美国大数据发展行动计划中,美国国家战略里很重要的一条就是(DAPA),美国国防部下面的高级研究计划里头,其实把大数据作为军事领域一个很重要的方向。其中有很多项目,比如说有一个叫(X Data),这个项目是DAPA里头,有知识决策和知识库来支持单兵作战,在现场的决策知识中,有很多新技术、新理念,已经进入到每个行业里,落地生根,其实也不是一个炒作的一个话题,而是真正在落地。
大数据其实是一个很大话题,它不光是一个技术的命题,它其实还有很多管理,很多商业模式的问题,其实第一个问题,大家在应用大数据技术来做业务的时候,其实很多企业都碰到的问题就是我的数据从哪儿来,这个是可能对于民口的企业最突出,军口的企业可能也面临着这个问题,数据来自不同的部门,整合的问题,从民口的情况来看,数据孤岛在任何的公司任何的国家都是存在的。
这里头我们看到一个趋势,有很多公司想办法用商业化的手段,打破数据孤岛,这张图是美国的商务部,FTC的他一个报告上的一张图,他们认为在美国正在形成一个产业,就是叫数据供应商的产业,他们做数据供采集和交换交易的这些公司,他做什么事情,他其实是在社交网站,在线下的购物商场,在政府的数据开放的门户上,去抓取各种各样的数据来源,然后做整合,做分析,做关联。把原来分散在各个角落的数据资源,变成一个可以用商品来提供给需要数据人,已经很发达,这个后台的数据交易,交换的市场,比如现在已经形成了几大数据来源。比如说聚焦NCTUE,他就是美国几十家这个运营商成立数据交换的中心,形成了非常复杂的这个数据供应的生态,这个我觉得是大数据时代很重要的一个。
因为我们现在处于一个数据极大丰富的时代,每个人的数据,每个企业的数据,单独来看,增速很快,但是我们同时处在一个数据严重短缺的时代,每个公司,他在应用大数据的时候,都觉得需要外部数据,获取很难。我们是看到这样一个趋势,就是数据供应,未来会形成一个单独的产业,而且越来越大,这是第一个问题。
第二个观点,技术创新是非常活跃的,待会儿会有中科院和生物工厂的几位同事可能会讲到技术创新的方面,从2000年左右到现在,大数据在短短这么几年的时间里,它经历了很多代的技术变迁。
这样底层的技术,这么多年一直在变化,之后一直在演进,而且性能成熟度提升的非常快。从原来的可能刚开始大数据技术,在企业里头,其实是一个外围的,第二平面的一个他的平台,现在逐渐进入生产系统,比如说很多银行的放贷系统其实已经把数据用到他信用评估里头去了。很多的贷款其实不要信贷员去做评估而是一个通过数据系统去做评估,来决策这个贷款地实际上进入这样一个状态,那随着底层技术的稳定,成熟,给上面的应用,给业务人员提供了很大的创新的空间。
比如说我们现在的机器学习,流分析,交互分析,慢慢地越来越多得应用在企业里,这是底层技术的,我们有一个看法,共性技术沉淀,越来越完善。
第三个方面,就是大数据应用,现在面临着一个问题,大数据不管在金融、电信、医疗等等这些行业,它的应用还没有到产生价值的爆发点。我们认为其实还处在非常初期的阶段,美国也是这样。所以在大数据的整个应用中,还没有到最高用户,决策层的事业里,大家是一个尝试性小试牛刀的阶段。
我们在国内的感觉也是一样的,这些银行,这些保险机构,他们的大规模的大数据的采购。大规模的大数据部署,还正在尝试中没有很明显的一个飞跃,未来应用其实最关键,应用要创造价值,应用我们看到有两个维度在演进,一个维度是,他需要多元的数据,原来可能是我在数据库上做分析那么未来可能数据仓库,很多工业系统,连数据仓库都没建起立,这是把跨部门的内部数据整合起来,未来还要把外部数据做整合,不仅要建内部的数据仓库,还要建开放式的数据生态,调用外部的API去做一些决策。这是数据员的方向,还有一个是挖掘算法不断的智能化,从现在我们只能做报表只能做历史帐单的查询,这是最简单的应用,到未来,可能会有一些预测性的,决策性的,比如说互联网上,最成熟的大数据系统,其实是市制竞价广告这类的,他不需要人决策,他是一个闭环的。但是在很多企业应用里头,其实没有形成这一个智能的,自动的闭环这样一个数据的应用的系统,所以应用的智能化水平,可能也是未来会逐步的提升,两个角度,一个是数据越来越多,一个是算法学习智能。这是两个途径。
从产业生态上来看,我们观察大数据产生的意思是什么,谁在做这个生意,有真正生意,大数据里头有什么生意可以做呢,有人在2012年的时候,画一张图,大数据里头有提供技术的,有提供数据分析工具的,有提供垂直行业的应用的,2012年,可能大家看到已经很多人在做了,这是国际上的一个趋势可能很小,大家仔细看,看不出来,分辨率不高的话,看不出来。我的一个核心意思是想讲这样的问题从2012年到2016年,这个生态的演化速度非常的快,2012年这个环节,做大数据生意环节其实很少,有十来个不同分工的环节,到了2016年就非常的复杂,他的分工越来越细,越来越专业,比如我们在基础设施这块的有做私有云的解决方案的,有在公有云上做大数据分析服务的在垂直行业里头,他更进一步的细分成了传媒的,医疗的等等很多行业。整个生态不断的在繁衍在细化,非常的活跃,这是国际上的一个情况。国内也是这样,稍候会有一个详细的介绍。
为什么大家都很关注这个事情,特别是在国家层面上,美国政府在2012年出台大数据行动战略,欧盟在2014年出台了一个文件叫打造数据驱动的新经济。欧盟未来可能希望用数据驱动来给他创造很多价值,为什么大家都这么关注,为什么领导们这么看中大数据的这个技术,我们这里也是采集了各方面的分析。
其实从狭义来看,大数据的产值,比如说卖软件,卖硬件,卖服务,这个狭义的产值,其实是不大的,比如全球统计下来,这三块的产值是300亿,这是狭义的SAT的产业里头的产值,大概300亿美元左右,我们对中国的也是做了统计,大概一百亿美元的量级,这个量级在整个的经济里头,在整个信息产业里头都算比较小的这样一个规模。但是他的间接价值很大,有人把他做过比喻,就像蜜蜂和蜂蜜的产值关系一样,如果大数据的直接产值,相当于蜂蜜的一年的产值,比如说一年蜂蜜,可能有几十亿人民币的产值,但是如果你要把蜜蜂的价值,衡量出来,他其实是很大的,他如果没有蜜蜂,他的整个农作物就崩溃了这个体系。大数据也是,他的间接价值是非常大,也很多算法估计这个,大数据对于GDP,对于工业,对于服务业的拉动。
在中国,我们的研究院和经济研究所做了一个分析,大概是0.6%到0.8%这样一个水平。间接经济很大。各国非常重视。美国大家都有所了解,美国前几年关注正面的,关注怎么来促进大数据的发展,他除了一系列政策,包括开放数据,包括孵化开源软件,前天我们医院跟美国夏威夷大学的一个教授在交流,他们在很重要的讨论的一个问题就是,大数据可能会带来歧视,比如大数据的推荐系统可能会嫌贫爱富。
大数据的广告,可能会让这个社会更加不公,这些是他们现在关注的人类终极价值的问题。美国,欧盟,英国,日本,他们都在把大数据作为一个很重要的话题在讨论,正面的,负面的,落地的政策的,这些都在去关注一些法律的完善。总的来说,各国政府是非常重视大数据的发展,我们国家的情况怎么样,大家可到,我们这里大概对国内的大数据的核心的产业的这些公司,做了一个梳理,大概分为三个环节,2016年大数据的图谱做了一个简化,我们大概分成三个环境,第一个环节就是有谁在做数据的供应,数据清洗数据的交换,比如从数据供应上,可能有很多的手里持有数据的人的作用,比如说运营商,银行,航空公司,这些人,其实已经开放了很多API来供大家调用,还有一些数据交易所,中游的有很多做平台,做产品的人,像这里头列到的,包括今天待会儿会讲到的一些公司,在做发行版。
从上游来看,我们也面临的问题,就是数据的供应非常短缺,你看你们的客户肯定都在说,你在给我做应用的时候,最好能给我找到一些数据,但是政府数据,我们国家政府数据的供应,其实是很滞后的,开放程度很低,那么有很多地方在实践,这个其实我们认为,开放数据在中国可能会存在非常大阻力,利益格局的问题,责权力的问题,政府在开数据的时候,它们没有授权,另外一个是得不到很多的好处,其实是阻力很大,阻力大于动力,数据开放的事儿,有很多的问题,主要的问题其实是这个责任和权力的问题,还有就是数据交易所,我们国内,几乎每个月,都会成立一个数据交易所,你看现在,已经公开已经成立了也十几个交易所,数据交易所其实非常火,但实际上,他的成交,他的撮合,其实很不活跃的,因为大家还都有顾虑,对于数据交易平台,承担什么的责任义务,其实心理没底,这个平台是一个黑盒子,另外有数据的人,其实很难去做决定,把数据拿到上面去卖,他的利益,可能他衍生的问题,自己没有保障。
所以说数据交易平台,这个事情,其实在探索中,还是在等待这个制度的完善,模式的成熟,最重要的问题,其实是责权力,责权力不对等,导致一方面,黑市的数据交易很活跃。另外一方面,有数据的人,其实不敢拿出来跟人合作,他的红线是不清晰的,什么数据可以交易什么数据不能交易。然后他的定价水平,其实是不足以来让他做决定的。
比如说像一个地铁,像公交一卡通的公司,他们的数据到底能够值多少钱,谁也说不出这个价值来,他怎么来界定他数据资产的价值,其实在这里头,责任非常不清晰的,还需要较长时间的探索。
在技术创新上面,我们可以看到在国际上有三个阵营,我们不知道认同不认同,有一批原创的,他们天天去发各种各样的论文,比如在国际顶尖会议上去发一个论文,而且这个论文,其实不是停留在一个图书馆里头的论文,他的论文,其实对产业界的影响力非常大,会孵化出很多新的项目,大家很多开源软件,照着这些论文去实现,对产业界影响很大。整个来说,应该是一个三大梯队的状况,有一批人,像谷歌,像美国的这些前沿的研究所。包括我们中国我们看到,计算所在前沿技术上,也贡献越来越了。还有一类做开源软件的。这类人,其实以开源社区为纽带,把他们串起来,对业界贡献也是非常大的。没有开源软件,其实大数据技术发展不起来。
第三个环节,我们很多的厂商。在把开源软件转化成产品方面做了很多的贡献,国内的这些技术开发商,这些软件平台提供商,可能大部分我们感觉到,应该处于第三个梯队,就是产品供应,其实对于前沿的技术方向引领,架构的引领,其实还有待进一的去努力,短期内,很难改变这个格局,应用方面,国内到底情况怎么样像刚才说的,行业应用上没有大规模的启动,还是在两端。两端的迫切性非常高。一个是互联网公司,自建,自用,他们的大数据系统,很早在部署。因为他们的广告,他们的核心业务,其实就跑在大数据上,另外一段,是政府这一端。我们看到在公安、税务,政府很多监管部门,他们对大数据的项目的需求是非常强烈的,另外政府热还有一个方向就是他要拉动产业的发展,所以两头非常热。其他的行业,其实发展的水平参差不齐。
主要的状况还是在用新技术,解决老问题,这是现在一个状况我们大部分的企业,还是用新的数据分析。来做报表的查询,在做详单的分析,在做关联的分析,其实这个是本来原有技术,某种程度说可以解决。但是只是性能成本,新的技术有很多优势,这个是平移大数据技术往老业务上平移,未来,可能很大的空间是在左边,新的业务,一些化学反映,会产生更大的价值,这是一个方向,从区域上,大家可能来自全国不同的地方,那也形成了很多,各地也形成了自己的一些模式。比如说最火的贵阳,他们在各个方面探索非常前沿,还有上海,北京,他们自己有不同的模式,比如贵阳可能是你数据中心的基地为依托,来发展他的产业,中关村可能是他们的软件产业,信息产业本身就很发达,他们希望通过技术,大数据来形成一个新的聚集,不同的地方有不同的模式,总结起来,其实就是全球来看,这个大数据,已经成为常态了。
“大数据”这三个字在未来可能会消失。但是数据的分析,高级分析,数据管理,数据资产的交换流通,可能是会留下来,会持续很长时间去发展这个是不会变的。各个国家都在大力的支持它,技术快速的演进,而且底层技术越来越成熟稳定,我国国内的情况,其实这个产业在快速的跟进,那么各个行的探索,包括相关产业里头的规则,包括数据流通的规则,数据标准制订,都在探索中,应用可能也有待各位很也里头的专家来一块去推动,我的演讲到这里,谢谢大家。
网页名称:中国信息通信院研究院副主任兼大数据工作组组长魏凯:中国大数据产业发展与标准
浏览地址:http://myzitong.com/article/chggee.html