更改密码

企业新闻

熙菱信息张登:人工智能提升数据治理智能化水平
2023.08.03

202383日,熙菱信息(股票代码:300588)副总裁、首席技术官张登博士,受邀出席由赛迪传媒、大数据产业生态联盟、《软件和集成电路》杂志社联合主办的大数据与数字经济大会暨2023(第八届)中国大数据产业生态大会,发表了题为《人工智能提升数据治理智能化水平》的演讲。




熙菱信息是全国领先的大数据智能应用服务提供商,深耕软件信息服务和大数据应用行业已有三十年的历史,积累了丰富的数据治理技术与落地经验:建立了以智能识别预测、大数据建模、流程再造、智能物联4大核心科技为支撑的盖娅数字智能开放平台,构建了集物联感知、数据采集接入、数据治理、知识图谱的构建、大数据建模分析、数据可视化等全链条的完整数据服务能力链,赋能数字政务、数字警务、数字产业等多个领域细分场景数字化转型与效能提升。


会上,张登博士表示,数据治理贯穿数据全生命周期,是实现数据服务与应用的重要环节。在新的数据要素时代,特别是在数据计算、服务、应用和交易极大强化的情况下,数据治理的重要性不言而喻。不过,随着大语言模型浪潮的到来,依托传统数据中台工具进行人工数据治理的方法不再奏效,而AI可为数据治理带来全新的生产方式、生产效率以及数据产品形态和流通模式。并分享了熙菱信息AI技术提升元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全和数据业务价值等方面的重要策略。



元数据管理:传统是通过创建非结构化数据的搜索索引的方式,对非结构化数据的元数据进行采集,存在数据过载、不一致、不完整等问题。采用语音识别、图像识别、文本分析等人工智能技术,可实现元数据的最初业务词库的构建,成为提取各类有价值的非结构化元数据的资源池。


主数据管理:主数据管理过程中常面临着如何在数量庞大的数据项中识别主数据、如何建立统一的主数据标准等问题。人工智能自动识别主数据,在所有数据中筛选出频繁出现或流动的数据,同时,快速确定主数据的可靠与可信数据来源,构建完整的主数据视图,且采用机器学习、自然语言处理可建立重复数据识别的匹配规则,在识别字段重复的主数据之后,不进行自动合并,并确定与主数据相关的记录,建立交叉引用关系。


数据标准管理:借助机器学习、自然语言处理技术,可以根据字段业务名快速整理出高频词根,将可能原本需要几个月的工作在几天内完成。同时,对业务字段名进行自然语言处理,精确分词,根据词根相似性将数据标准与元数据自动映射起来,让这一方面不再是实施工程师的噩梦。


数据质量管理:数据质量是保证数据高效应用的基础。机器学习可提取并识别存在的质量问题,从而制定有效的数据质量评估指标,最大化实现该指标下的数据质量的提升,同时,监督学习、深度学习也将实现对数据清洗和数据质量的效果评估,进而改善转换规则和数据质量评估维度,并随着数据量和业务期望的逐渐变化,使数据质量提升方案动态更新。


数据安全保障:安全是数据要素交易和流通的红线,随着新的数据类型、数据生产方式、数据处理方式和终端形式不断涌现,数据安全挑战也随之加剧。基于相关政策、标准规范,熙菱信息使用知识图谱、NLP、图像识别等技术可以有效识别敏感数据,分析隐私数据资产的关系,实现数据资产分级分类。同时,基于身份数据、事件数据、行为数据和设备环境数据,通过身份识别、时间识别、行为识别等,实现数据安全视角上的用户画像,最后构建信任评估模型,最终根据数据安全等级和信任等级实现数据动态访问权限控制。


数据业务价值提升:数据的最终目的是实现数据价值流通。运用语义分析技术可以提高数据资源业务化描述能力,加速与知识图谱技术深度融合,实现对各实体数据进行关联关系、中间关系、隐藏关系等分析挖掘,形成静态关系、动态关系信息,汇聚形成完整的知识图谱,助力数据治理的标准化、高效化,同时,应用根据业务提取相关特征的机器学习算法,可对样本数据、特征数据进行持续迭代优化,实现对目标人员行为预测。


熙菱信息已在多个数据治理项目中强化AI赋能,大幅提升场景数据的质量和价值,真正助力用户提质增效:在某省级项目中,针对汇集的3000余种话单样式数据,熙菱信息利用NLP技术完成近2700余种话单格式的自动化识别,准确率超过90%,效率提高了3倍;在国家禁毒大数据中心AI情报大数据分析服务中,依托数据的自动化接入、标准化、特征计算和知识图谱的自动构建,实现了7个超过85%准确率的核心业务模型,帮助用户实现了50%以上的抓捕。


当前,数据治理已延伸至各行各业,在数据生命周期的各个阶段通过相应的工具与方法论,使数据发挥出更大的价值。张登博士表示,熙菱信息将通过不断地探索、创新、实践,提升数据治理智能化水平,推动实现数据的自动接入、自动处理、自动调整、自动服务、自动保护


通过长期积累的数据内容和用户习惯自动识别新的数据集,找到相似的数据接入模型,自动转移数据;识别数据内容,自动匹配必要的数据处理规则和质量检测规则,高效处理数据;根据历史信息、当前数据量和可用计算资源,自动调整任务执行计划,优化性能;根据用户使用习惯和使用需求,自动寻找、组合、生成新的数据服务,并按规范要求上架,达到数据找人的效果;自动检测敏感数据,通过脱敏、加密等手段实现敏感数据的主动防护。