您相信 从 大数据分析 中 获得的见解吗 ?您应该考虑哪些因素来决定您是否 可以信任 结果。在这篇文章中,我考虑了最重要的问题。 你 能 对 我提出的问题 回答是或 否吗 ?
信任 是一个如此强大的情感词。 在我加入 Informatica 负责 数据 质量研发 后不久 ,这是与我的新老板 Ivan Chong 的第一次谈话之一 ,我 问了这个 问题;与客户交谈时的 关键信息是什么?在他的回答中,他提到了 信任这个词 。 哇,如何 用一个词来 概括 DataProfiling 和 Data Quality 功能; 客户 可以 更加信任他们的数据。
作为 Oracle 的数据库迁移大师,我没有使用信任这个词,但我相信我试图表达同样的观点。我在 Oracle Migration Workbench 所做的事情中使用了等效性。如果您总共有 10 个表和 100 万行,当您迁移到 Oracle 时,您应该有相同的 10 个数据类型相同的表,并且存在相同的 100 万行。我提到过侵入性和非侵入性的变化。 Oracle 分区功能是非侵入性的,因为它对应用程序或用户是透明的。由于返回结果的及时性,用物化视图替换标准视图可被视为侵入性更改。这可能对应用程序和用户都很好,但它应该是经过深思熟虑的决定。
在 Singularities ,当我们将 基于 SaaS 的 解决方案 推向 针对商业 用户的 市场时 , 信任 我们正在做出的决策中的重要特征。 这些是我们 问 自己的 问题 :
我 信任 我的托管供应商吗?
由于 我们将 通过 SaaS 交付我们的 解决方案 ,因此我们必须提出这个 问题 。 如果我 查看当前的 市场领导者 Amazon Web Services ( AWS) ,我 会 在他们的网站上 看到一个涉及 安全性的 部分 。通过查看 他们的 功能列表和最近的 Forrester Wave™:公共云 平台 服务提供商的 安全性 , 2014 年 第 4 季度 ,他们被显示作为彻头彻尾的 领导者 。我有信心 可以 回答 对 那个问题 是的 。
我信任 我的 平台 吗 ?
为了 从 我们选择 Hadoop 的 平台 上获得 我们想要的 可伸缩性和开放性 。 我可以信任 Hadoop 吗?要 回答这个问题 ,您必须考虑 您将 选择 哪种 Hadoop 发行版 、 您将 如何 配置它以及托管供应商是否支持您选择的发行版。 在流行的 Hadoop 发行版 之一 Cloudera 中,我很高兴地发现:
-
Cloudera Navigator - 合规就绪 数据 治理
-
Cloudera 导航器 加密 - Hadoop数据 透明 加密
-
敏感数据 编辑 - 从 不需要的 地方删除敏感信息 。
我 想 我 可以 对 这个问题 回答 是 。
我信任我的原始数据 吗 ?
我 如何 信任我的原始数据 ?你不能 100% 信任 它,但你 可以 采取措施建立对它的信心。 如果我 戴上 Data Wrangler 的帽子,给我原始 数据 ,因为它来自生成它的实体。忘掉您的经典 数据 仓库技术,不要对其建模并挑选 IT 认为 最 有趣的 内容 。 请让我 这样做。 考虑到 Hadoop 是 一个可扩展的 平台 ,我通常会 以原始原始格式 保存 数据 ,直到找到可证明的洞察力。 然后 我 可以 优化数据 管道。 请 不要过滤或汇总 数据 ,因为我可能对寻找随 时间变化的模式(时间 序列分析)大海捞针感兴趣。有了 强大的 数据 处理 平台 , 让我 找到了那些宝贵的金针。使用 您选择的 数据 整理工具的 数据分析 功能 ,推动 数据 集质量改进或发现 数据 质量 问题。 使用这种方法,轻松地说 是 。
我信任我的 分析 吗 ?
我 使用了 哪些分析函数 ,为什么选择它们? 我使用了 哪些 参数 ? 对于机器 学习算法, 我 使用的 训练 集是什么 ? 它与我 现在 使用的 数据集 有很大不同吗 ?从 我们自己的 角度来看,Singularities 是一个基础完善的 平台 ,可以学习、存储 个人和实体的 全面而精确的 模型 并与之交互 ,因此它们 可以用于 刺激、预测、诊断和探索建议的应用程序,以影响他们 在不同场景下的 行为 。 奇点模型可以是 在自治系统中执行复杂操作的代理。
Singularities 基于强大的 信息建模 数学理论 。 它 使用 变量 和 信息 方程 来表示实体及其信念状态和 行为 。 对于奇点这个问题 , 我 可以 回答 是。
我相信我所看到的吗?
什么 可视化 工具显示从您信任的 分析 中获得的见解 ?它是实时访问这些见解还是使用缓存机制?在 选择包含在您的仪表板中的 可视化 中,您是否进行了任何预过滤 , 这在显示的结果中是不明显的?
本文阐述了要考虑的主要问题,您是否会 相信您所看到的那些 引人注目的 可视化效果 ?我不 认为信任 应该是假设的,它应该是 赚来的 。我 已经 指出了 5 个问题,您也应该 能够 回答是。
我们对您 对信任的想法 以及对大 数据 和 分析的 影响 很感兴趣 。您可以给我发电子邮件: donal.daly@singularities.com 。