新闻  |   论坛  |   博客  |   在线研讨会
干货 | 数字经济创新创业——DWF和Apache IOTDB研究项目介绍(1)
数据派THU | 2022-12-23 10:01:05    阅读:212   发布文章

下文整理自清华大学大数据能力提升项目能力提升模块课程“Innovation & Entrepreneurship for Digital Economy”(数字经济创新创业课程)的精彩内容。


主讲嘉宾:Kris Singh: CEO at SRII, Palo Alto, CaliforniaVisiting Professor of Tsinghua UniversityYingbo Liu, Associate Research Fellow of School of Software, Tsinghua UniversityPengcheng Zheng,Timecho


今天我们将分享两个来自清华软件学院的非常重要的项目。这两个项目都与数据有关,如何管理大量数据,如何创造数据价值。未来是数据经济时代,谁拥有最多的数据,谁能够挖掘数据价值,谁就是赢家。

图片 

图片


数据量呈现指数级增长,因为数字经济,现在万物皆可数字化。一切过程、系统和沟通都是通过数据来完成。上述图表展示了数据体量的爆炸性增长趋势。而大部分的数据是在近十年甚至是近五年之内形成的,所以根据这种趋势可以预测未来五年的情况。

图片 

图片


大部分数据来源从之前的计算机、到笔记本再到只能手机,而现在则来自于传感器IOT。传感器产生的数据比其余来源加起来还要多得多。在未来几年内将会有总量超过650亿传感器,其产生的数据量可想而知。

图片 

图片


那么数据量是如何爆炸式增长的呢?我们从最开始的ERP企业管理系统,再到客户管理系统再到网络,再到所有其他的活动项目,因为我们所使用的技术和工具,数据量越来越庞大。你可能听说过大数据的5V,即体量(volume)、价值(value)、多样性(variety)、速度(velocity)、veracity(准确性)。数据体量庞大,数据的指数级增长已经超过了可控的范围,而体量大不足以让我们理解数据的价值,如何创造价值,如何理解数据的含义。数据多样性是指数据来源的多样性,数据是多种类型的混合。速度则是指数据运行有多快,可以用于理解我们的社会交往、智能手机和传感器的运行速度。最后一点是数据质量的多样性,数据真实程度以及有用性。数据符合二八定律,当我们处理数据时,只有20%的工作是真正用于数据分析,所以在分析数据之前,要先理解数据的含义。

图片 

图片


上述图表展示了数据并非特定于某一个部分,某一种行业或某一个地区,每一种行业都面临着机遇和挑战。数据不仅仅关乎医疗、电子商务,它涉及经济和商业的方方面面。数据是基础。你需要理解数据的价值,不同领域的数据有独特的含义、价值、技术和工具,但都需要处理大量的数据。

图片 

图片


数据分为不同类型,有结构化数据、半结构化数据和无结构化数据。大部分数据都是结构化数据,结构化数据是我们经典的数据库,我们在IT系统当中理解并使用。但现在爆炸的社交媒体、手机和传感器里的数据大部分都是无结构化的,这也是我们最大的机遇和挑战。我们如何理解结构化数据、无结构化数据以及介于两者之中的半结构化数据呢?

图片 

图片


数据分析不是新领域,它已经存在了将近60年时间。数字化数据始自60年代计算机刚出现的时候,网络也是在这一时期出现的。所以数据爆炸也是从这时开始的。首先是一个简单的数据库,然后是数据仓库,你学习如何将数据恢复到某个系统中,然后是数据挖掘。开始应用统计和其他一些技术和工具来帮助更好地理解。在过去的7年里,这个新的数据分析领域已经发展起来,处理所有新类型的数据。这也是我邀请英博和鹏程来讨论这一话题的原因。我们需要理解所有这些不同的数据源,最重要的是我们如何分析数据、如何创造数据的价值,仅仅拥有数据并不意味着什么,分析数据更重要,分析可以获取信息,信息可以帮助你采取行动,行动则可以创造价值。这是我们需要遵循的经典流程。

图片 

图片


尝试描述和理解数据,捕获数据并实现其意义,之后再采取行动做出预测,我们能从数据中获得些信息,以便于以后不会再犯类似的错误或可以创造更好的价值,再进一步实现数据分析过程的优化。这就叫做数据成熟度。以下图片中展示了你们需要学习和使用的数据分析工具。Hadoop用于数据存储和分析,MangoDB用于变化频率高的数据集,Talend用于数据整合和管理,Cassandra用于分布式数据集,Spark用于实时加工和分析大体量数据。

图片 

图片


数据分析和数据科学彼此相关,但是关注点不同。数据科学是在学校里学的课程,学习算法统计模型和代码,用知识来帮助你更好地理解数据。

图片 

图片


下图展示了数据分析的10个主要趋势。AI对数据知识简化助力颇多,我们有了更好的工具和技术,可以帮助我们分析数据。但问题是数据过于碎片化,对于决策而言,其涵盖不同方面,如何在采取行动前从不同途经捕获数据,另外一点是混合云服务,我们无法将所有数据都存储在学校内,因为数据量过于庞大,所以我们使用云计算,现在是混合云服务,包括公共云和隐私云,每一种各有利弊。我们如何在两种云结构中处理好数据。万物始自数据,数据是整个学科的中心。谈论所有话题之前都要先学习理解该学科的数据。

图片 

图片


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客