穹顶之上:未来大数据时代中的高级数据学

责任编辑:editor007

作者:花满楼

2015-03-03 17:35:27

摘自:Medium

为了充分实现大数据所能带给人类的福祉,我们必须将社会学以及一切与人类有关的学问重视起来,将其置于与数学以及计算科学同等重要的位置上。

大数据

为了充分实现大数据所能带给人类的福祉,我们必须将社会学以及一切与人类有关的学问重视起来,将其置于与数学以及计算科学同等重要的位置上。

21 世纪,这是一个多么适合上演奇迹的时代,不仅仅是因为它更容易去实现人们曾经的梦想,更是因为在诸多科技和媒体领域,人们普遍都感觉到自己已经被其进步的速度带得飞离地面,觉得每一个今天都已然成了明天。毫无疑问,我们已经生活在了大数据的时代,人类历史截止到 2010 年所产生的所有数据,汇集起来,将我们推向了一个更加壮阔宏伟的大数据的未来。

我的梦想,是希望拥抱一个充满了更多具有明确意义数据的时代中。为了实现这一点,我们应该对数据进行收集、分类、分析、解读、并将其联系组合起来。我们更要将数据视觉化,能够更加明确的表达出来,要让人们更加方便地进入数据。但是如今,那些所谓的「数据科学家」,更加倾向于在数学领域舞枪弄棒,他们普遍拥有计算机科学背景,却无法真正充分实现大数据所蕴含的潜力。

在我们开始对真正的大数据进行解读之前,让我先来澄清我口中的「大数据」的概念,它反映出来了两个各自独立,却又相互联系的概念。

第一层的 data,小写的 data,复数的 data。它是所有我们理解和衡量这个世界以及我们自身,有关定量乃至定性的范畴。

第二曾的 Data,大写的 Data,也是单数的 Data。这个数据比所有的部分集合到一起更加的综合庞大,这是所有一个将结果和行动打包起来的集合概念,直接对结果和行动之间的关系提供解释。

除了单纯的收集、储存、分类这些数据之外,我想说将数据情景化、故事化、视觉化同样是非常重要的工具,有助于我们来了解和描述事物之间的关系。而在这些工具之间的相互转换、组合、搭配,才是真正数据学的奥义所在。更重要的是,数据学并不仅仅简单的指代某种存储、命令、以及解读数字的能力,它更不可能是单单靠一个人就能够办到的事。

从供给方入手,这是在产出的每一个步骤环节都涉及大数据整合利用的过程,而在消费方的角度来看,它只看到最终产品的适用性。无论哪一方,大数据之于他们,就意味着要在生产和消费的过程中不断地去深刻理解和解决各种深层次的问题,这其中包括了战略方向、数据收集、过滤、分析、以及演示。

如果要总结现状的话,应该是这样的:那是我们想要去测量的东西,但是不知道该收集什么数据。那是我们想要收集的数据,但是我们不知道该如何收集;即便我们已经收集到了我们想要的数据,但是因为它们不是准确的所以无法真正投入应用;更无法对其进行解读;如果我们错误解读了这些数据,就会产生太多杂乱的声音和误导人的信号;之所以我们会错误的解读,是因为我们无法正确的对数据之间的关系进行分类,无法分清楚什么是相互关联影响,什么又是因果关系;进而我们想要利用这样的数据成为行事的依据,就在一开始埋下了错误的根源。

如果我们没有形成、并且掌握真正的数据学,我们很有可能遭遇一下的状况:我们不收集它;我们忽视它、我们看着它,却不知道应用;我们错误地应用;我们从中提取出来错误的信息,我们为了支持错误的观点,强行扭曲它使之成为有力的佐证。

而即将出现的高级数据学就能够帮我们解决上述的问题。现如今,每一个人都能够张口就给出几个数据,或者将其编进一个巨大的 EXCEL 表格,但是我们仅仅止步于此,面对成吨的数据,我们提取不出来任何有意义的信息。如果在这穹顶之上,能够真正纳入以下三个方面,那才真正能够实现高级数据学的内涵和意义:分别为「情境化」、「叙述」、「设计以及视觉化」。下面进行分别的介绍:

「情境化」意味着一个将所发现的数据置于合理的角度,使之与周遭能够联系起来的过程。

「情境化」在之前往往是社会学领域使用的一款工具。无论是社会学家、人类学家、经济学家、政治学家、心理学家、地质学家家、历史学家、考古学家,都在利用这个工具更好的理解他们所掌握的一切,面对学科内种种的存疑提供尽可能准确、合理的解释。同样,心理学、文学、宗教、艺术、历史、文化、以及语言在理解和记录我们的世界的过程中,自然而然实现了我们所说的「情境化」。

即便之前有了这么多领域的研究和应用,但是「情境化」依然没有被纳入到数据分析和挖掘的范畴中,更别说数据在收集之后所形成的决策上了。专注于去细分性别、姓名、教育背景、种族、宗教、家族历史、个人经历以及地理位置之间到底有着怎样的区别,这是「情境化」的关键。

如果将社会学中的研究方法和框架抽离出来,应用到数据学上,那么就能够回答以下这些关键问题:

是谁创造了数据,基于何种原因,在何种条件之下,有怎样的目的?在「数据抽离」的过程中,存在着哪些阻碍,切入点,以及背景前提影响着「数据抽离」本身?

是谁在收集、分析、解读、解释、以及视觉化这些数据?他们的目标是什么?看得见和看不见的偏见又是什么?他们在进入这个领域时都拥有怎样的个人背景?

谁是最终受众?你究竟能够找到怎样的方式,将你的研究成果能够更好地让这些受众理解,如果他们不理解、不认同的话你该怎么办?

现代思潮、地理位置、以及受众本身的个人信仰,这些东西将如何作用于上述的交流过程中?是否会影响他们理解你的观点?

「叙述」,是一种能够通过故事表达,从而完成解释、说服以及激励等作用的艺术。

叙述有很多形式,比如电影、广播、报告等等。至于回到我们的数据学应用范畴,那么我希望将其定义稍微往外面扩展一些,将讲述故事的源头转移到数据上面。

自从文明诞生以来,我们就非常重视这种讲述的技巧,你可以在教育系统中看到,公众演讲中看到,甚至在自我表达中都能见识到这种技巧。所以,让数据变得更加有意义的重要方面之一,就是要让数据转化为更加富有情节和感染力的叙述。别再待在冷冰冰的数字殿堂里面转悠了,去找那些会讲故事的人,去找那些英文专业毕业的文科生,哲学家,让他们来审视你的数据,他们会说出你完全想不到的另外一种解读方式。在此,我特别想引用 Google 公司曾经的哲学家,戴蒙·赫洛维兹(Damon Horowitz)博士曾经说过的一段话。他拥有哥伦比亚大学的文学学士学位、麻省理工大学媒体实验室的理科硕士学位、以及斯坦福大学的哲学博士学位。他是这么说的:

如果真的想要在人工智能领域获得成就,我想最重要的一步并非是再建起一个什么人工智能中心实验室,真正应该做的是要去打造一个表现更加理想的思想者,在这个目的驱使下,我们应该去学习哲学。我很高兴自己能够辞掉科技公司的职位,跑去学了个哲学专业的博士回来。这是我有生所做的最正确的决定之一。

「设计」,是一个将复杂的事物变得易于理解的过程。

设计是一个用于交流的奇妙工具,它能化腐朽为神奇。一个完全没有接受过教育的人,在面对精美设计的时候,是可以完全感知并接收到信息的。设计所拥有的简洁、亲和、示范性、以及其目的性,使得它能够让数据发挥更大的作用。自从人类早期,设计就成为人们将抽象概念和想法转换成具体信息的一种方式,比如他们用颜料涂抹在洞穴的墙壁上。它是我们人所以成为人的具体体现。维克托·帕涅克(Victor Papanek)在他 1971 年发表的书《Design for the Real World》里面这么说道:所谓设计的关键就是研究它是如何与人交互的方式。从这个意义上来说,将设计的学问融入到大数据中,将进一步发挥大数据造福世界的能力!

穹顶之上,它不仅仅意味着数字的堆砌和排列,而关键是如何去使用它们!

数据从目前来看,并不能称得上有趣。但是在设计和视觉化的帮助下,它是可以做到这一点的。当我们将 Data (大写的数据)与故事和意愿相结合,我们会变得更加优秀,聪慧,敏捷,并且能够做出更加有效的预见性决策。当我们在面对受众的时候能够拿出足够的简洁、用心、以及同情,我们会获得更多的目光,更多的人会愿意加入进来。如果我们能够收集正确的数据,过滤、分析以及通过某种智能的方式将其情境化,在基于某种逻辑的前提下去叙述它们,并且使之视觉化,那么无论是小写的 data,又或者大写的 Data,都能够在社会的各个层面转化成更加有用的事物。

当“数据学”升级为“高级数据学”,其中包括了以上三个层面的知识:“情境化”、“叙述”和“设计”。那么我们的社会,无论是政府政策、体育、金融、医疗、经济、商业、又或者是政治或者教育,都将被它改造。在这个转变的过程中,越来越多的人将带着自己的知识背景加入进来。

链接已复制,快去分享吧

企业网版权所有©2010-2024 京ICP备09108050号-6京公网安备 11010502049343号