如何运行数据可视化项目

来源：数据分析与知识发现 【在线投稿】栏目：综合新闻时间：2021-06-19

编辑导读：产品每天都会产生海量的数据，将这杂乱的数据用图表或者动画等可视化的方式展现出来，提升可读性。那么，如何运行一个数据可视化项目呢？本文作者从自身工作经历出发，对此进行分析，希望对你有帮助。

每个数据可视化项目都始于需求，无论需求来自问题还是决策，每个项目都有特定的流程。首先，每个项目都需要数据进行可视化。在每个数据可视化项目中，都需要考虑许多因素来最大程度地降低风险并确保项目成功。

本文将解释其中的许多概念以及可用于特定类型业务的一些用例。探索的关键主题之一是风险，因为在决定使用哪些数据以及特定图表类型如何最好地表征数据时，最小化风险是一个关键因素。除了风险之外，团队还可能面临与数据无关的某些限制。需要考虑团队中的人员和技能，因为这可能会限制可视化可以呈现给哪些受众。

在设计数据分析项目时，我们常常想知道首先从哪里开始？从数据收集、清理、探索、分析和可视化，需要做很多工作才能获得对业务可操作且有利可图的洞察力。

步骤 1：了解业务问题

在项目开始时，重点是清楚了解工作的整体范围、业务目标、利益相关者正在寻求的信息、他们希望你使用的分析类型以及关键的可交付成果。在开始分析之前定义这些元素很重要，因为它有助于提供更好的洞察力。此外，一开始就搞清楚很重要，因为在项目完成之前可能没有另一个提问的机会。

步骤 2：了解数据集

此阶段从初始数据收集开始，然后进行数据质量检查、数据探索等活动，以发现对数据的初步见解，或检测有趣的子集以形成隐藏信息的假设。我们可以使用多种工具来理解数据。根据数据集的大小，我们可以使用 Excel 来管理可管理的数据集，或者使用更严格的工具，如 R、Python、Alteryx、Tableau Prep 或 Tableau Desktop 来探索和准备数据以供进一步分析。

要记住的关键事项是确定关键变量以研究数据、查找错误（遗漏的数据、逻辑上没有意义的数据、重复的行，甚至拼写错误）或任何需要修改的缺失变量所以我们可以正确地清理数据。

重要的是要注意，在企业/业务环境中工作时，让对源系统具有敏锐知识的人员（例如 DBA）参与进来会有所帮助，他们可以帮助理解和提取数据。

步骤 3：数据准备

一旦组织了数据并确定了所有关键变量，我们就可以开始清理数据集。在这里，我们将处理缺失值（替换为均值、删除行或替换为最符合逻辑的值）、创建新变量以帮助对数据进行分类并删除重复项。数据准备任务可能会执行多次，并且没有任何规定的顺序。在此步骤之后，最终数据集已准备好输入建模工具进行进一步分析。

从业务角度来看，在整个数据准备过程中，需要不断加深对数据结构、内容、关系和派生规则的理解。必须验证数据是否处于可用状态，并且可以管理其缺陷，并了解将其转换为用于报告和可视化的有用数据集需要什么。在这种情况下，利用数据剖析可以帮助探索企业源系统中的实际内容和关系。数据分析可以像编写一些 SQL 语句一样简单，也可以像专用工具一样复杂。例如，Tableau 的数据准备是用于分析小型项目数据的绝佳工具。对于企业，很多ETL供应商提供了多种工具，可以根据业务的需要和预算进行选择。

步骤 4：建模

在这一步中，我们将使用各种建模技术来测试数据并寻找给定目标的答案。通常，同一数据挖掘问题类型有多种技术，对数据形式有一些特定要求。常见模型包括线性回归、决策树和随机建模等。

步骤 5：验证

一旦我们完成构建模型（或多个模型）并进行最终部署，就必须彻底评估模型并审查构建模型所执行的步骤，以确保其正确实现业务目标。模型是否正常工作？数据是否需要更多清洗？你找到客户想要回答的结果了吗？如果没有，可能需要再次执行前面的步骤。

在此步骤中，关键是确定问题、定义、转换规则和数据质量挑战，并将其记录下来以备将来参考。从商业角度来看，这样的文档对于未来的用户很有用。维护问题列表并验证数据验证期间面临的新问题可以显着提高项目质量，并有助于扩大未来改进的范围并定义业务的基础设施需求。

步骤 6：可视化

模型的创建通常不是项目的结束。即使模型的目的是增加对数据的了解，也需要以对客户有用的方式组织和呈现派生的信息。根据要求，此步骤可以像生成报告一样简单，也可以像实施可重复的数据评分（例如段分配）或数据挖掘过程一样复杂。