跳过导航
跳过mega-menu

将原始数据洞察力转化为卓越业务

安德鲁•摩根, 6point6的数据主管, 相信数据供应链将成就或摧毁任何组织. 在这里, 他强调了采用整体方法进行数据实体匹配的好处,以应对“极其复杂”的数据环境带来的挑战.


通过数据实体匹配增强业务决策

在今天的数字世界, 数据的质量和弹性可以说是做出明智的业务决策和提供卓越服务的最重要的成功因素. 从原始数据中快速准确地推断出有价值的见解,使组织能够应对复杂的挑战,并降低不准确的风险, 潜在的破坏性结果.


优化数据供应链

从原始数据中得出见解的过程需要创建一个数据供应链,包括3个阶段:

  1. 创建、获取和收集原始数据
  2. 原始数据的转换和集成, 包括实体匹配,将记录链接在一起,形成一个整体的、改进的数据集
  3. 最终数据产品的消费和分析

开发一个中央数据收集策略是一种当代最佳实践,用于协调团队如何跨组织的流程和事务捕获信息. 这种方法产生结构良好的数据集,支持用于多种目的的快速和准确的分析,并减少诸如重复记录或丢失信息等问题的可能性.

然而,许多组织, 比如中央政府, 是否有来自众多收集系统的大型遗留数据集,每个系统都有自己的细微差别, 质量的挑战, 系统更新生命周期和漂移的使用模式. 这些数据通常是从复杂的计算机系统中收集的, 每个都是为单一服务设计的. 这种差异导致了难以识别的数据差异, 跟踪, 或者解决——增加了数据分析得出错误结论的风险,比如错误的身份. 认识到这种情况的惊人复杂性, 考虑到英国政府已经向公众提供了近25份,000个数据集.


在数据策略中优先考虑个人

用以用户为中心的方法设计服务优先考虑用户的体验和满意度. 例如, 就公共部门服务而言, 许多政府机构奉行“以民为先”的理念,以市民对服务的满意程度作为衡量成功与否的基准. 这一理念为展示运营效率和建立卓越声誉提供了机会.

就数字服务而言,用户想要的是无缝的、积极的在线体验. 提供一个中央公共服务门户,个人可以通过它管理他们当前和历史的数据,如驾驶执照, 护照或医疗服务提供者, 在为新事务访问和重用信息方面是否具有显著的便利性.

安全和隐私是最重要的,数据保护法将适用于个人数据的处理. 错误地将数据记录归因于公民或未能将记录与公民联系起来,这充其量是不方便的,并可能产生破坏性后果, 导致用户满意度低,并给参与开发和运营服务的各方带来声誉风险.

这些服务期望需要严格的数据治理和跨部门的数据共享. 然而, 将无数不同的数据集整合在一起所涉及的复杂性和不同的考虑因素不应被低估. 可靠地创建跨公共部门服务的公民交易的单一视图是一项关键挑战. 这就是为什么政府部门和机构越来越重视可信的数据专家来开发最佳解决方案.


集成原始数据与数据实体匹配

数据实体匹配是一种强大的方法,您可以在数据供应链的第二阶段使用它来处理不同的原始数据源. 通过这种方法, 您可以查询多个数据存储,以识别最有可能与感兴趣的实体相关的记录——实体是数据科学工具可以作为单个数据单元处理的唯一对象, 比如一个人, 学校, 产品, 发票或化学品.

随着技术的进步,数据实体匹配的方法也在不断发展. 简单的基于规则的匹配是一种基本方法, 然而,这种方法不能轻易区分真阳性(正确归属于某一实体的记录)和假阳性(错误归属于某一实体的记录)。. 对于大型数据集, 结果的不确定程度可以排除单独使用这种方法的可能性.

机器学习方法使用上下文信息来实现更好的准确性和效率. 例如, 当尝试实体匹配与不同名称相关联的记录时(Janine Smith), 简•史密斯, J. 史密斯)给个人, 人工智能可以识别一个名字的起源语言,并知道它在该语言或文化中如何变化, 以及其他识别字段,如出生日期和地址.

机器学习方法还支持跨语言匹配名称. 例如, 执行安全检查可能需要对个人姓名使用不同语言或文字的记录进行实体匹配. 除了使用文本,数据实体匹配越来越多地使用生物识别.


目前的数据匹配软件提供了量身定制的方法和高精度

最优的数据实体匹配方法取决于数据源和项目目标. 制定一个包含资源的量身定制的总体计划, 数据的整合和未来利用是成功的关键.

自动化复杂的数据匹配任务显然提供了许多好处,例如快速处理大量数据. 然而,研究不确定匹配仍然需要人为干预. 它是实体匹配软件的准确性, 哪些是减少需要人工审核的记录数量的关键.

系统包括 玫瑰Babel Street®将人类知识内置到人工智能(AI)和十多种特定的语言算法(如语音)中, 音译拼写变化, 无序的名字, 和昵称-提供一个快速和智能的匹配系统,从许多不同的角度解释和分析数据. 对于每一个比较, 罗塞特生成了一个匹配置信度评分,并解释了哪些因素进入了计算. 这种可解释的人工智能使用户能够显著扩展和微调系统的匹配行为,以反映数据的特定性质, 一个组织的语言变化和业务优先级. 这种灵活性和针对性有助于优化结果的准确性,并最大限度地减少假阳性和假阴性(应该归因于实体但实际上不是的记录)。.

其他类型的系统侧重于实现专门的算法来进行概率记录链接. 通常这些类型的系统将使用Fellegi-Sunter匹配算法,该算法为用户提供可解释的概率匹配. 司法部已经公开了一个 本系统的实现

这两个系统都使用分数阈值来表示对比赛的信心, 因此,用户可以验证并调整记录匹配到提供可信记录链接的阈值. 例如, 分数高于84%将被认为是匹配的, 而低于76%的分数则不会, 在验证阶段,一组人类测试人员将调查落在这些阈值之间的结果, 准确地检查最大限度地链接记录,但最大限度地减少链接错误的截止. 

一旦记录被链接和整合, 这些系统允许对名字进行最复杂和劳动密集的搜索和评估, 地址和日期将自动处理并实时处理. 这种自动化,准确性和可靠性节省时间的好处是相当可观的. 洞察的即时性也有助于更明智的决策,并可以防止不法行为,如欺诈活动.


结论

组织需要高质量的数据供应链,以便在当今的商业环境中有效运作,并准备好应对新的机遇. 数据供应链通常直接决定组织提供和支持的最佳服务标准, 及时的商业决策. 它们还可以提高整体运营效率,降低可能影响服务的风险.

对于所有处理大型数据的组织来说,数据实体匹配是数据策略的关键组成部分, 不同的数据集. 它通过允许组织从许多不同的来源收集数据来构建和采取更大的行动,从而增强了数据收集策略. 通过将记录有效地连接在一起, 组织能够在更广阔的世界中更好地观察其客户的360度视图, 为改变组织的工作方式提供显著的好处.

即使有足够的人员和资金, 实现这些数据实体匹配系统通常比预期的要困难. 技术挑战并不是唯一的困难, 由于变更方法和向新流程的平稳过渡也可能难以计划和实现. 与一个值得信赖的合作伙伴合作——他知道如何开发整体数据策略和优化数据实体匹配工具——可以实现您的“公民优先”愿景.

 



全球最大的博彩平台巴别塔街

Babel Street是世界上最先进的身份情报和风险操作值得信赖的技术合作伙伴. Babel Street Insights平台提供先进的人工智能和数据分析解决方案,以缩小风险-信心差距.

欲了解更多信息,请访问 babelstreet.com.




安德鲁•摩根

安德鲁•摩根

安德鲁·摩根是6point6的数据总监. 他是《十大正规博彩网站评级》一书的作者, 一本学习可扩展数据科学的教科书, 并且还发布了一些开源工具. 他有超过25年的数据项目经验, Andrew现在利用他丰富的技术经验来管理和领导高效的数据团队.



十大正规博彩网站评级

在这里注册