熙菱信息张登：人工智能提升数据治理智能化水平 | 熙菱信息SAILING︱全国领先的大数据智能应用服务高新技术企业

熙菱信息张登：人工智能提升数据治理智能化水平

2023.08.03

2023年8月3日，熙菱信息（股票代码：300588）副总裁、首席技术官张登博士，受邀出席由赛迪传媒、大数据产业生态联盟、《软件和集成电路》杂志社联合主办的 “大数据与数字经济大会暨2023（第八届）中国大数据产业生态大会”，发表了题为《人工智能提升数据治理智能化水平》的演讲。

熙菱信息是全国领先的大数据智能应用服务提供商，深耕软件信息服务和大数据应用行业已有三十年的历史，积累了丰富的数据治理技术与落地经验：建立了以智能识别预测、大数据建模、流程再造、智能物联4大核心科技为支撑的“盖娅”数字智能开放平台，构建了集物联感知、数据采集接入、数据治理、知识图谱的构建、大数据建模分析、数据可视化等全链条的完整数据服务能力链，赋能数字政务、数字警务、数字产业等多个领域细分场景数字化转型与效能提升。

会上，张登博士表示，数据治理贯穿数据全生命周期，是实现数据服务与应用的重要环节。在新的数据要素时代，特别是在数据计算、服务、应用和交易极大强化的情况下，数据治理的重要性不言而喻。不过，随着大语言模型浪潮的到来，依托传统数据中台工具进行人工数据治理的方法不再奏效，而AI可为数据治理带来全新的生产方式、生产效率以及数据产品形态和流通模式。并分享了熙菱信息以AI技术提升元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全和数据业务价值等方面的重要策略。

元数据管理：传统是通过创建非结构化数据的搜索索引的方式，对非结构化数据的元数据进行采集，存在数据过载、不一致、不完整等问题。采用语音识别、图像识别、文本分析等人工智能技术，可实现元数据的最初业务词库的构建，成为提取各类有价值的非结构化元数据的资源池。

主数据管理：主数据管理过程中常面临着如何在数量庞大的数据项中识别主数据、如何建立统一的主数据标准等问题。人工智能自动识别主数据，在所有数据中筛选出频繁出现或流动的数据，同时，快速确定主数据的可靠与可信数据来源，构建完整的主数据视图，且采用机器学习、自然语言处理可建立重复数据识别的匹配规则，在识别字段重复的主数据之后，不进行自动合并，并确定与主数据相关的记录，建立交叉引用关系。

数据标准管理：借助机器学习、自然语言处理技术，可以根据字段业务名快速整理出高频词根，将可能原本需要几个月的工作在几天内完成。同时，对业务字段名进行自然语言处理，精确分词，根据词根相似性将数据标准与元数据自动映射起来，让这一方面不再是实施工程师的噩梦。

数据质量管理：数据质量是保证数据高效应用的基础。机器学习可提取并识别存在的质量问题，从而制定有效的数据质量评估指标，最大化实现该指标下的数据质量的提升，同时，监督学习、深度学习也将实现对数据清洗和数据质量的效果评估，进而改善转换规则和数据质量评估维度，并随着数据量和业务期望的逐渐变化，使数据质量提升方案动态更新。

数据安全保障：安全是数据要素交易和流通的红线，随着新的数据类型、数据生产方式、数据处理方式和终端形式不断涌现，数据安全挑战也随之加剧。基于相关政策、标准规范，熙菱信息使用知识图谱、NLP、图像识别等技术可以有效识别敏感数据，分析隐私数据资产的关系，实现数据资产分级分类。同时，基于身份数据、事件数据、行为数据和设备环境数据，通过身份识别、时间识别、行为识别等，实现数据安全视角上的用户画像，最后构建信任评估模型，最终根据数据安全等级和信任等级实现数据动态访问权限控制。

数据业务价值提升：数据的最终目的是实现数据价值流通。运用语义分析技术可以提高“数据资源业务化描述能力”，加速与知识图谱技术深度融合，实现对各实体数据进行关联关系、中间关系、隐藏关系等分析挖掘，形成静态关系、动态关系信息，汇聚形成完整的知识图谱，助力数据治理的标准化、高效化，同时，应用根据业务提取相关特征的机器学习算法，可对样本数据、特征数据进行持续迭代优化，实现对目标人员行为预测。

熙菱信息已在多个数据治理项目中强化AI赋能，大幅提升场景数据的质量和价值，真正助力用户提质增效：在某省级项目中，针对汇集的3000余种话单样式数据，熙菱信息利用NLP技术完成近2700余种话单格式的自动化识别，准确率超过90%，效率提高了3倍；在国家禁毒大数据中心AI情报大数据分析服务中，依托数据的自动化接入、标准化、特征计算和知识图谱的自动构建，实现了7个超过85%准确率的核心业务模型，帮助用户实现了50%以上的抓捕。

当前，数据治理已延伸至各行各业，在数据生命周期的各个阶段通过相应的工具与方法论，使数据发挥出更大的价值。张登博士表示，熙菱信息将通过不断地探索、创新、实践，提升数据治理智能化水平，推动实现数据的自动接入、自动处理、自动调整、自动服务、自动保护：

通过长期积累的数据内容和用户习惯自动识别新的数据集，找到相似的数据接入模型，自动转移数据；识别数据内容，自动匹配必要的数据处理规则和质量检测规则，高效处理数据；根据历史信息、当前数据量和可用计算资源，自动调整任务执行计划，优化性能；根据用户使用习惯和使用需求，自动寻找、组合、生成新的数据服务，并按规范要求上架，达到数据找人的效果；自动检测敏感数据，通过脱敏、加密等手段实现敏感数据的主动防护。

LAST NEXT

更改密码

企业新闻

您的需求我们随时倾听

更改密码

企业新闻

您的需求 我们随时倾听

您的需求我们随时倾听