曾道长24码中特料

从数据可视化到交互式数据分析
发布时间:2019-09-11

  高可视性的可视化项目主要关注两个目的:带来灵感和帮助解释。然而,可视化可以通过数据分析来增加对复杂问题的理解,这样的项目虽然不多见,但不代表不重要。

  注:本文是作者在参与纽约的Uber数据可视化大会上所做演讲的书面精炼版本,以下是作者原文。

  高可视性的可视化项目主要关注两个目的:带来灵感和帮助解释。然而,可视化可以通过数据分析来增加对复杂问题的理解,这样的项目虽然不多见,但不代表不重要。

  我知道我这样总结可能存在严重简化的风险。但是,我发现根据主要目的(有意或无意)确定数据可视化的三类主要用途是很有用的,这也有助于我在本文后面阐明一些观点。

  第一个用途是激励人们,让人们惊叹!但这种惊叹不仅仅是在肤浅的表面,而是真正让人们获得更深层次的思考、美感和敬畏。可视化具有令人难以置信的力量,可以吸引人们的注意力,同时也可以将它们引入梦幻般的虚拟世界,将抽象概念转化为更有形的存在。

  我见过最具启发灵感的一个完美的可视化例子是我朋友Giorgia Lupi的一个作品,是他用自己独特的手绘风格(以及数字)所创作的杰作。(点击链接可以看看最近在现代艺术博物馆展出的照片check this recent one exposed at MOMA)

  第三个用途是从数据中提取信息,用来解释问题同时增加对一些有趣现象的理解。当然,解释性可视化也有助于人们理解某些事物。但这里的主要区别在于,在解释性的可视化中,作者已经知道了可视化的内容(在执行了一些分析之后),而在分析学中,可视化的主要价值是帮助人们第一时间理解数据。

  这篇文章,以及之前的演讲,旨在更好地定义可视化在数据分析中的角色,并激发更多关于可视化领域正在发生的事情的讨论,遗憾的事,这件事情并没有像其他事情那样引人注目。

  世界上不乏有趣而重要的问题,是我们希望通过数据分析能更好地理解的。以下是我个人经历中的一些案例,我在这里描述它们并不一定是因为它们是我们能够解决的最重要的问题,而是因为我对这两个案例很熟悉。

  你要如何才能让数以百万计的评论变得有意义?如何发现可疑事件?如何识别值得关注的评论?

  事实证明:即使简单如一个全局的“分面搜索”界面,对这项任务也是非常有用的。我们开发了一个名为RevEx的简单工具,它使得我们的合作伙伴能够监测医疗事故上取得一些进展,并就他们的发现发表一些令人关注的文章。

  RevEx。我们开发的一个交互式数据探索工具,帮助ProPublica的查尔斯·奥恩斯坦(Charles Ornstein)从Yelp的数百万条评论中筛选信息。

  这是我们最近与Agari公司建立的合作。他们的主要目标是追捕骗子并扰乱他们的活动。他们收集有关骗子活动极其有趣的数据,希望利用这些数据更好地保护个人和企业免受恶意攻击。

  这非常重要!与他们交谈,我更好地了解到诈骗对一些人造成了多么糟糕的影响。0118开奖网,有些人的生活因为骗子的不法行为而被彻底毁掉了,这不仅仅是收件箱中收到垃圾邮件而已。

  你注意到了吗?当我们谈论数据分析问题时,我们经常将目标描述为“理解”某些东西。然后我们可以假设数据分析的主要目的是通过数据更好地理解某些东西。

  这个关系是这样的:数据/模型是我们想要研究的一些现实的描述。人类对现实有一个心理模型,并使用数据/模型来研究它,以便可以更好地理解它。(这个概念值得整篇博文,我希望在不久的将来可以写一篇。)

  难题说明通常太高级且宽泛,无法直接转换为数据分析操作(这个问题经常被忽视且未被充分理解)。通常,需要将难题(隐式地,或者更好地,显式地)转换为许多数据分析问题。

  并非所有项目都需要这一步,但有些项目需要。当通过建立模型可以更容易地解答问题时,使用统计建模和机器学习的方法会很有用。虽然建模人员谈论的大部分内容只是预测,但模型对于探索和生成假设来说依然是非常强大的工具。可以用于此步骤的方法包括聚类、降维、简单回归和将文本转换为有意义的数字的各种NLP(自然语言处理)方法。

  这是眼睛能够观察数据的一步。现在,大多数人在考虑到这个阶段时会联想到花哨的图表,但是像表格和列表这种简单的表达方式对于很多问题来讲反而是非常合理的可视化表达。在这里,从数据转换和查询(或从某些模型)获得的结果被转换成我们的眼睛可以消化并能够理解的内容。这是我们所有人,数据可视化者热爱的一步。

  一旦结果生成并以某种视觉形式呈现,就需要有人对其进行解释。这是至关重要的一步,也是经常被忽视的一步。展示屏幕背后有这样一个人,他需要理解所有这些彩色点和数字的含义。

  所有这些步骤最终会产生一些新的知识,并且在大多数情况下,还会产生额外的问题或假设。这是数据分析的一个有趣特性:它的结果不仅是答案还有可能是问题;当我们希望能引出更好更准确的问题。这一步骤有一个重要点是,可能会产生不正确的推论。因此并非所有的过程都必然带来积极的结果,也不是所有的分析都同样有效。

  虽然我将这些步骤按顺序呈现,但是真正的过程根本就不是这样的。随着更多的问题、需求和限制被理解,人们总是从一个步骤跳到另一个步骤,也是高度迭代的一个过程。你通常会先提出一个最初的问题,通过分析得到一个答案,并在你完成此过程时,产生新的问题和需求,然后重新开始。

  对于我们这样的数据可视化人员来说,这是重要的观察结果。尽管我们非常喜欢可视化这一步,但是我们必须认识到,当可视化被用于数据分析时,它仅仅代表了多样化展示集的一小部分。这并不是说可视化不重要或不具有挑战性,但是了解全局更是至关重要。整个数据分析过程过程的有效性取决于上面的所有步骤,而不仅仅是视觉表现。

  为什么?因为交互随处可见。每次你告诉你的电脑该做什么,你的电脑会返回一些信息给你,你就有了某种形式的交互。

  对于许多人来说,交互式可视化只涉及WIMP接口,直接操作、单击、鼠标悬停等。然而命令行界面也是交互式的:用户告诉计算机要做什么,而计算机做出相应的反响与回应。改变的是交互“模态”,而不单只是对象是否可交互的。

  在我看来,我们应该讨论的是在数据分析系统中直接操作交互和命令行交互的优缺点。尽管直接操作的优点和缺点在其他地方已经详细讨论过(NN/g 研究团队出过一个很好的总结summary),但我们还没有很好地理解它在数据分析中的作用。大多数现有系统都依赖于命令行接口。

  我想通过强调几个我认为与交互式数据分析相关性较大的挑战来总结本文。同时这也是我认为在未来几年数据分析方面需要取得更多进展的地方。

  当我们通过计算机与数据交互时,需要做的第一件事就是将我们的问题和想法转换成计算机能够读取的规范(SQL就是一个很好的例子)。

  交互式规范系统做得很好的一个是Tableau中使用的VizQL语言(VizQL language),它将用户的选择转换成系统能够理解的正式语句,并用于生成查询和适当的可视化表示。

  我个人认为,对这一点我们必须以更包容的态度来看,并认识到,尽管有很大一部分人可能会从数据分析工具中受益匪浅,但他们没有时间、资源或动力去学习如何使用规范化语言。因此,尽管我是R and Jupyter和panda组合等数据科学编程工具的超级粉丝,但我仍然不确定我们是否应该期望每个人都达到这种熟练程度,以便对数据进行有用的处理。

  Trifacta’s Wrangler和Open Refine是两个很好的例子,可以让人们更容易地访问负责的数据处理,它使人们无需编写任何代码即可执行大量的数据处理。

  一旦从查询和模型中获得结果,下一步是进行(可视化的)呈现,以便用户能够观察和理解,这是数据可视化的范围。尽管当大多数人听到“数据可视化”时,他们想到的是色彩丰富的花哨图形,但是期望简单的数据图表成为检验结果的有效方法完全是恰当的。我发现个有趣的点,我们使用“可视化”这个词来表示复杂的图形,但实际上简单的表格也和其他图表一样属于可视化。

  这里要讨论的另外一个问题是:“为了对数据分析有用,可视化需要多么花哨?”

  然而,这并不意味着进行有效地数据可视化是容易的! 真正困难的是,如何巧妙、有效和创新地去使用、调整和组合这些图表,这比人们愿意承认的要困难得多。在某种程度上,要想在可视化方面取得进展,创新和教育工作应该更多地关注深度,而不是广度。我们需要更多地了解如何能够更好地使用现有的方法,而不是寻找更多的隐喻和技术(尽管我们也需要不断创新,尝试一些疯狂的东西)。

  你看到这些展示的时候你学到了什么?当你碰巧学到了一些东西时……你能确定你所学到的东西代表了某种真实的现象,而不仅仅是统计上的巧合吗?

  当我们看模型的解释时,我们面临一个更大的问题。机器学习方法使用非常复杂的程序将数据转换成更抽象的结构,但在这个过程中,我们完全丧失了理解其内容、质量和可信性的能力,建立“主题模型”。这是噩梦。

  该方法将文档集合输入,并返回作为单词集捕获的一组“主题”。问题是,大多数时候返回的内容根本没有任何意义。以下是我们实验室最近做的一个项目的例子。

  你会怎么处理这个?这是一个重要的问题,不仅需要ML(Machine Learning)专家的合作,也需要和强感知能力的人合作,这样这些方法才能更有效地产生一个能够真正增强人类心智的人类技术系统。

  世界上不乏需要解决的相关问题,而数据分析可以发挥重要作用帮助取得进展。无论好坏,数据无处不在,大部分的物理世界都留下了数据痕迹,这可以帮助我们更好地理解某些事物。为那些想要解决重要问题的人工作或与他们合作。选择一个你喜欢的领域并尝试获得更好的理解与认知。

  如果我们想要提升数据分析和可视化的影响力量,并将其交给那些为我们解决重要问题的人(如医生,气候科学家,安全专家),我们需要更多地关注分析工具而不是可视化。构建下一个令人惊叹的图形可能很有趣、有启发性甚至在某种程度上会有用,但最终我认为我们需要为其他人构建工具,以帮助人们利用数据和可视化蕴含的全部力量。

  如果你刚好在从事数据分析项目,请向我们展示是如何完成的!但不要只展示最终产品,希望过程也能可见。让我们在哪个环节出问题了,以及是如何应对问题的。

  一起看看你们在项目中遇到的死胡同,也许大家都能从中学到一些东西。同样,如果你开发了一个工具,尽可能让更多人都用到。你永远不知道,某个人在某个地方可以使用这个工具做什么,也许做出了你无法想象的卓越事件。

  将人们头脑中的想法转换成机器能够理解的指令仍然是相当具有挑战性的。在编程语言方面已经取得了很大的进展,但是在不编码的情况下创建规范仍然非常具有挑战性。

  正如我上面提到的,解释是一个很大的挑战。正如我上面提到的,解释是一个很大的挑战,尤其是当我们关注于旨在与人交互的ML(MachineLearning)方法时,我们首先需要更好地理解解译是如何工作的,以及解译与既存知识和专业知识之间的关系。我们还需要开发更容易理解更灵活的方法,来接受来自人工代理的输入和反馈。

  这真的很复杂!虽然认知科学的一些基础研究已经存在,但还缺少一个公认的模型可以指导设计师和工程师开发和评估复杂的交互系统进行数据分析。在这些方面取得进展将使我们能够更好地理解交互式数据分析的工作原理,并有希望能指引我们如何创建更好的工具来思考分析数据。

  人人都是产品经理(是以产品经理、运营为核心的学习、交流、分享平台,集媒体、培训、社群为一体,全方位服务产品人和运营人,成立8年举办在线+期,线+场,产品经理大会、运营大会20+场,覆盖北上广深杭成都等15个城市,在行业有较高的影响力和知名度。平台聚集了众多BAT美团京东滴滴360小米网易等知名互联网公司产品总监和运营总监,他们在这里与你一起成长。


本港台同步现场报码| 波肖门尾图库| 开奖直播| 六合资料库| 四海图库总站| www.330568.com| 风逍遥高手论坛| www.0004111.com| www.988226.com| 3224刘伯温开奖网站| 公牛网| 香港马会开奖资料|