首页研究报告政策法规信息科技AI可信数据空间白皮书-华为
壹方

文档

5182

关注

1

好评

0
PDF

AI可信数据空间白皮书-华为

阅读 848 下载 98 大小 8.37M 总页数 55 页 2025-09-29 分享
价格:¥ 9.90
下载文档
/ 55
全屏查看
AI可信数据空间白皮书-华为
还有 55 页未读 ,您可以 继续阅读 或 下载文档
1、本文档共计 55 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
HUAWEI践行深度用云A可信数据空间白皮书A编制委员会PREPARATION COMMITTEE编制单位贵州省数据流通交易服务中心贵州大数据集团贵州贵旅数网科技有限公司华为云计算技术有限公司(排名不分先后)编委顾问朱宗尧徐昊张广肖霏编写成员潘伟杰金凯艾晓松胡琼元黄籽渝赵将吕东宋雪胡鹤袁波吴越邓龙江刘志杰刘泥君代新敏王似巍冯俊峰吴忠林李勇龙婕杨文敬张洪能尹舒鹤李媛杨松张中黄涛陈媛黄松杨舒宁徐强徐俊悦怡张志刚霍战鹏邝逸鹤周岩王立乔丽娜陈勇邴丽孙梦龙陈玙杨梦辉」唐如兵雷鸿伟郑辉张小军柏君孙思东张鑫洁唐文张溯陈吉栋叶飞白文武何志强(排名不分先后)CONTENTS目录0106-14数据空间与人工智能协同发展挑战0215-35A可信数据空间顶层设计1、数据空间发展与挑战1、新体系:数模协同2、人工智能大模型语料发展与挑战2、新架构:AN可信数据空间3、数据空间与A协同发展的关键挑战3、新生态:数智共生0336-49最佳实践案例0450-51参考引用1、贵州大数据集团公共数据授权运营空间实践2、贵州省文旅行业数据空间及大模型实践3、上海数据集团城市数据空间实践4、深圳南山数据可信流通服务探索实践5、华为企业数据空间探索实践前言PREFACE运营运营动运营动构建可信数据空间与人工智能协同创新范式,开启人工智能新时代。在数字文明加速迭代进化的时代洪流中,数据与人工智能共生发展正重塑全球经济的格局。数据作为我国第五大生产要素,其价值释放的深度与广度,直接决定了人工智能产业从“感知智能”向“认知智能”跃迁的新高度。当前全球数据总量虽呈指数级增长(2023年突破175ZB),但高质量语料尤其是中文语料严重匮乏,实际流通率却不足5%。数据产业面临“不敢共享、不愿共享、不能共享”的困局如同无形枷锁禁锢着A!创新的步伐。比如医疗数据因隐私顾虑难以赋能疾病预测模型,工业数据因竞争壁垒阻碍供应链协同优化,金融数据因权属模糊制约风险管控精度,这些挑战的本质,是数据要素市场化配置过程中“信任基础”的不足,也将严重制约着人工智能产业的发展。国家数据局重磅出台《可信数据空间发展行动计划(2024一2028年)》,以国家战略方式推动可信数据空间的加速建设,预计2028年国内将建成100个以上可信数据空间,包括城市、行业、企业、个人、跨境五类可信空间,打通数据要素流通的“最后一公里”。在A!时代,可信数据空间是战略级新型数据基础设施,它不是单一技术、工具的堆砌,而是制度规则、技术架构、生态系统三位一体协同的创新范式,将成为全域数字化转型的核心数字底座。随着人工智能技术指数级增长,生产型A!场景爆发式应用,大模型对高质量数据的“饥渴需求”进一步放大了可信数据空间的价值。本白皮书结合新技术的理解与创新实践的探索,梳理可信数据空间与AI协同发展的技术路径、制度框架与实践蓝图,提出A!可信数据空间的顶层设计与创新架构,希望借此推动产业共识,联合各界探索数据要素市场化改革的灯塔,共同开启“数据可信即A!未来”的新纪元。05数据空间与人工智能协同发展挑战1、数据空间发展与挑战在技术架构上,欧盟以GAIA-X、IDSA为代表,采用联邦式、去中心化架构。数据不集中存储,而是保留1.1数据空间国内外发展趋势在数据源地,通过联邦学习、隐私计算等技术实现协同分析。此外,还利用区块链、分布式身份认证等国际数据空间(IDS,International Data Space)的技术,保障数据流通的安全与可控。通过连接器机制概念最早起源于欧洲,旨在解决数据孤岛、隐私安全(Connector Mechanism),实现了不同系统间的数和权属不清等问题,推动数据的高效流通与价值释据互操作,提升跨域数据流通效率。放,促进数字经济的快速发展。在生态与应用方面,欧盟已启动14个共同数据空间,2016年,德国工业4.0战略率先提出工业数据空间覆盖工业制造、医疗健康、金融、能源、农业等领域。的概念,随后欧盟推出《欧洲数据战略》,将数据空典型案例包括Catena-X(汽车行业)、欧洲健康数据间建设提升至战略高度。美国、日本等国纷纷跟进,空间(EHDS)、德国工业数据空间(DS)等。这些数结合自身特点探索数据空间建设模式。截至2024年,据空间推动了产业链上下游企业的数据共享与协同全球已建成超过200个可信数据空间,覆盖工业、医创新,为欧盟数字经济的发展注入了新动能。疗、金融、能源、农业、交通等多个领域,实现了数据的安全可信流通与价值共创,成为数字经济高质量发全球可信数据空间建设发展日趋成熟,随着国家数展的关键基础设施。据局的战略布局和重点工作推进,我国可信数据空间的建设已逐步从试点探索走向规模化建设。2024年欧盟是国际数据空间建设的先行者,其发展模式以11月国家数据局发布《可信数据空间发展行动计划联邦式去中心化为核心。欧盟通过《欧洲数据战略》、(2024一2028年)》,首次在国家层面对这一新型数《数据治理法案》、《数据法案》等政策文件,强调数据基础设施系统布局,明确到2028年建成100个以据主权、多方协同治理和标准化,GDPR(通用数据保上可信数据空间的目标。护条例)为数据保护奠定了法律基础。建制度立顶设强行动促发展建制度框架规划蓝图场景驱动价值全面开展指引建设方向激发数据要素潜能释放数据要素乘数效应可信数据空间试点规模建设20222023.122024.112025.07国务院《要素市场化配置综合改革第二届数字政府建设峰会提出:让国家数据局《可信数据空间发展行国家数据局《2025年可信数据空试点总体方案》、《数据二十条》数据“供得出”“流得动”“用得好”动计划(2024-2028年)》间创新发展试点名单》破除要素流动障碍,提升协同效率提出建设100+可信数据空间公布首批申报成功的63个可信数据空间试点项目名单图1可信数据空间建设发展历程我国可信数据空间的建设可以分为四个主要阶段:1.2可信数据空间主要挑战·第一阶段:建制度(2020-2022年):国务院陆续可信数据空间作为国家数据基础设施的重要组成部发布《关于构建更加完善的要素市场化配置体制机制分,作为全域数字化转型的新型底座通过构建安全可的意见》、《关于构建数据基础制度更好发挥数据要信的数据流通利用环境,促进数据资源的共享共用,素作用的意见》等文件,明确数据列为新型生产要素,进而释放数据要素价值。国家数据局发布行动计划提出“三权分置”等制度,形成基础的制度框架,明确明确推进企业、行业、城市、个人、跨境五类可信数据数据要素使用规则,为数据要素市场化配置奠定基空间建设,可信数据空间建设目前还处于发展初期面础。临诸多堵点问题与挑战:·第二阶段:立顶设(2023-2024年):数据局负责·挑战一、数据供给意愿不足完成发布《数字中国建设整体布局规划》,明确构建全国一体化数据资源体系,提出让数据“供的出、流得①权属不清与价值分配难:数据产权界定模糊,数据动、用得好”的顶层设计方案。供给方担心共享后失去控制权或收益被稀释。例如,担忧数据泄露导致核心竞争力丧失;·第三阶段:强行动(2024-2025年):陆续发布《数据要素×”三年行动计划(2024一2026年)》、《公共②合规成本高:数据分级分类标准不统一,敏感数据数据资源授权运营实施规范(试行)》等管理要求,推(如医疗、金融)脱敏处理需专业团队,数据供给方动数据要素在各行业的应用与价值释放,明确从登记难以承担人力与资金成本。→授权→定价的完整链条。同时发布《可信数据空间发展行动计划2024-2028》明确可信数据空间定义·挑战二、数据流通效率低与定位,提出100+可信数据空间建设目标。①跨域系统数据协议不统一:政府、企业、行业数据第四阶段:促发展(2025年-):数据局发布《2025分散在异构应用系统中,数据结构、接口标准不统一,年可信数据空间创新发展试点名单》、数标委发布《可跨域流通效率低;信数据空间技术架构》,进一步加强牵引各类数据空间的加快建设。②安全与实时性矛盾:为满足“数据不出域、可用不可见”安全要求,隐私计算(如多方计算、同态加密、联合分析)导致计算性能延迟增加50%以上,难以支撑高价值场景(金融、物流、交通)等低时延响应要求。08·挑战三、高质量语料稀缺·挑战四、安全能力参差不齐政府、金融、医疗、制造等行业大模型专业语料稀缺,数据流通涉及数据提供方、使用方、服务运营方等众海量多模态数据(文本、图像、传感器)待标注数据多参与主体,不同主体的网络安全、传输安全、数据占比高,高质量语料转化率低(语义缺失、时效滞后安全等防护水平差异较大,容易成为攻击者突破的薄等),无法满足行业大模型训练推理阶段对行业标注弱环节,无法满足全链路数据安全防护要求。数据的诉求。2、人工智能大模型语料发展与挑战2.1人工智能大模型语料发展趋势1.从大语言模型到多模态/具身智能大模型的语料演进当前大模型技术正经历从弱人工智能(机器学习、神经网络、大语言模型)向通用人工智能(Aget、多模态、具身智能)的范式跃迁。这不仅对于模型架构的设计理念进行了重构,同时也对大模型各阶段的训练语料提出全新要求。弱人工智能通用人工智能超人工智能超越人类智力水平达到人类智力水平Agent自主行动内容生成语言理解1942195620222025模拟人脑达特茅斯ChatGPT发布OpenAl o3发布神经元素会议DeepSeek R1发布图2大模型技术发展演进阶段09首先,对多模态关联的复杂语料需求日益迫切。针对现在数据规模的主流路径,预计2025年合成数据在大模型语料质量,传统纯文本数据已经无法支撑多模A1训练中占比将达40%,例如工业数字李生场景中,态与具身大模型联合建模的需求。业界实践表明,在合成图像替代率从30%升至65%。多模态场景下的语料供给,需要进行跨模态语料数据精准对齐,实践通过融合图文信息,运动轨迹,场景同时语料数据的内容可信度保障面临更高要求。多模数据,使得复杂论文的解析准确率提升37%。此类多态语料的质检需建立跨模态的数据质量检验流程机模态场景在处理包含图表、公式的复杂文档时,需要制,避免图文内容不一致从而导致模型“越训越差”,在语料标准中体现语义逻辑关联能力,同比文本标注造成模型认知偏差。再例如,具身智能模型将与物理对于数据融合要求更高。世界进行高度交互,语料内容中需要包含安全边界参数(如机械臂操作力度阈值),确保与现实环境的适其次,语料规模需求同样呈现量级扩张。根据行业报配。告分析,多模态(视频)语料在智能监控领域的渗透率从2023年18%提升至2025年35%,例如特斯2.从通用模型到行业大模型的语料深化拉自动驾驶系统当前需要超20万小时多模态场景数据进行模型能力提升。此外,具身智能模型更需要空随着通用模型发展从试点到落地,具有行业属性的行间动态语料,比如物体运动轨迹、各类参数信息等。业大模型也逐步成为模型能力提升的重要转变,意味据求思咨询报告分析,全球A!语料市场规模预计在着A!技术从广度覆盖转向行业深度赋能,而行业大2025年突破109亿元。并且数据合成成为当前突破模型的性能侧更是高度依赖领域的高质量语料。学习真实世界特征,通用大模型赋能行业智能应用,行业大模型分析数据特征,理解真实世界减少繁琐低价值劳动,助力行业智能化场景化2B应用通用2B场景公文生成政务文档摘要智能客服2C现象级应用文档写作●办公场景智能风控代码开发知识助手智能对话●社交场景网站制作●编程场景缺陷检测●制造图片生成精准获客智能问答大模型模型基础能力模型能力开放行业知识结合政策法规库热线工单CommonCrawl互联网行业报告·行业准则政府发文●政务数据2023维基百科行业术语库产品文档编程语言规范行业规范操作指导金融数据公开数据开源代码库巡检记录●指导数据工勘记录行业通用数据行业生产核心数据图3通用大模型到行业大模型的数据需求演进10语料质量:随着通用语料的逐步耗尽,在高质量行业采用“本地小模型+云端大模型”架构,通过将企业内数据上的加工与使用成为各模型能力差距的主要原法务、财务等数据进行向量化处理,并结合联邦学习因。例如上海规划资源专项语料库,通过归集1200技术,使得跨机构数据协同合作的数据泄露风险降至份技术标准、5.7万份城建档案,建立“专家标注+A10.001%以下。校验双重标注模式,可以实现地图信息的精准规划,从而代替通用语料仅能提供政策咨询渠道等简单能力,成为垂类模型的“高配置语料库”。2.2人工智能大模型语料主要桃战内容可信:语料构建需要兼顾内容合规与机密性。尤其在医疗行业,领域语料常涉及大量个人隐私信息,当前随着模型尺寸及模型场景的不断发展,语料的端医疗记录,企业信息等敏感内容,因此对于数据内容到端建设与工程化能力也面临着挑战,具体展开为公的隐私保护,催生出隐私计算技术的逐步成熟与落地。开数据即将耗尽、领域数据流通困难、多模态对齐与比如每日互动公司推出的GAl Station智能工作站,合规性制约等三大维度,使得高质量数据资源成为模型能力提升的关键瓶颈。公开数据即将耗尽领域数据流通困难多模数据对齐与合规制约预计2026年,现有公开高质量“主动找数、被动供数”,数据融合对齐数据产权确权、语言数据即将耗尽领域数据集稀缺数据安全合规存在挑战图4人工智能大模型语料面临的关键挑战公开数据即将耗尽:随着智能化进程逐步推进,不同有得到解决。虽然私域数据的专业性、可靠性、准确语种的语料资源质量与规模差异巨大,在全球数据训度可与行业场景更好适配,但专业领域知识积累门槛练集中,英语等主流语言拥有海量高质量数据,中文高,周期长,数据隐私要求高,所以领域知识的共享语料数据的占比仅为1.3%。Epoch研究表明,基于在实际落地上还存在难度。当前语料消耗速度,预计将在2026年,现有的公开高质量语言数据即将耗尽。多模数据对齐与合规制约:不仅多模态数据的对齐与融合、数据合规流通等受制于技术的发展,在数据产领域数据流通困难:近年来,在数据流通、数据共享、权确权、数据资产入表等方面也需要通过政策法规制数据开放已有很多先进探索,但依然存在“主动找定数据加工的标准与规范。数、被动供数”,高质量领域数据的流通性问题仍然没113、数据空间与A!协同发展的关键挑战在当前数智化转型加速的时代,数据与人工智能的协同创新成为推动各行业数字化、智能化升级的引擎。然而,这一融合过程中面临多重挑战,“数据壁垒、隐私合规、技术异构性、信任机制不透明”成为数据驱动A!创新的关键瓶颈,Data+AI协同创新存在“三不可”的核心挑战。3.1挑战一、数据A1不可见ReportsBIReportsData ScienceData ScienceMachine LearingData WarehouseData WarehouseETLMetadata,Caching,Indexing LayerEData LakeData WarehouseModern Data WarehouseLakehouse Architecture图5数据湖仓的架构演进发展历程在过去的数十年时间内,各行业客户建设了大量的数高价值数据难以被快速、高效集成至A!训练/推理据库、数据仓库、大数据等系统,形成了非常复杂的生产流程中。数据架构和庞大的数据资源体系。但由于上一阶段的数据建设通常是围绕交易、分析等特定目标建设的系①跨域多主体系统异构建设,跨系统横向集成难,无统,从而逐步形成了大量的数据烟囱(Data Silos)架法为AI统一供数:构,数据的协同共享面临诸多断点和壁垒,无法满足A大模型时代对全量用数、高质量供数等新要求,因·缺少统一元数据管理,治理复杂度剧增:Iceberg、此Data For Al用数核心诉求是让全量数据“AI看得Hudi、Delta Lake、语料集对象存储各表格式的元数见”。据访问协议差异大,多个数据湖独立部署元数据管理,异构数据湖无法形成全局数据地图,跨系统数据,多形态异构技术体系,跨系统数据AI不可见发现成本高、血缘追踪割裂等。当前模型训练/推理数据涉及多主体、多云、多业务·缺少统一数据格式,跨格式数据计算性能差:多引系统间的数据集成与数据汇聚,由于多主体大数据平擎(Spark、Flink、模型训推等)编排场景下兼容性台建设采用异构技术平台、不同元数据管理、独立数差,跨格式联邦查询通过多catalog路由,查询计划据接口标准,导致跨主体跨域间数据无法高效流通、复杂、性能差。无法高效发现、汇聚、治理、加工、访问与检索,大量12·缺少统一权限管理,合规管控复杂度高:异构元数②标注质量、自动化程度低:行业标注标准不统一(例据管理多重权限体系叠加、审计日志分散,满足统一如医疗影像-磨玻璃影有多种定义)、专业人员参与IAM策略、统一审计的技术成本高、漏洞风险大。人员不足(海量医疗影像,需要专业医学专家参与标注)、人工标注成本高,准确率低。②缺少云边端一体化管理,中心训练->边缘推理纵向数据供给不足:③数据时效性差:行业语料、特定领域知识库的词汇和术语未及时更新,无法覆盖新事件与新知识例如·云边端数据孤岛导致语料碎片化:大量高价值行业行业政策法规语料停留在“2024年9月”。过时数据数据(工业设备、医疗检测、城市治理监测)滞留边缘引发“假事实”、加剧模型幻觉。端,导致垂直领域语料严重短缺;·多模态数据碎片管理,跨模态语义难对齐,A1不理·云边端元数据描述不统一:云边端数据缺乏统一解元数据管理和存储标准,导致语义对齐困难,需要大量人工治理,高质量供给成本高、难度大;长期分散存储和管理大量结构化数据(OLTP/OLAP)、多模态数据(文本、图片、视频、语音等),·云边端多级数据权限割裂:大量高价值端侧生产数导致多模态大模型训练与推理语料供给不足。据,缺少统一的权限管理和脱敏管理,合规使用风险大。①数据特征异构性导致语义对齐失效:同一对象的跨模态描述难以对齐,例如“医疗报告的文本描述与CT3.2挑战二、数据A1不好用图像的病症的映射关系不一致”;语料数据是大模型训练的重要“燃料”,但大模型语料②多模态元数据管理割裂,跨模态检索准确度低:不因为“数据分散、质量参差不齐、多样性不足、过拟合同数据系统的元数据标准不一致,无法跨数据系统的风险”等问题存在数据A!不好用困境。基于私域行业元数据多模态样本自动关联,例如“T系统身份证ID数据加工高质量语料供给大模型训练与推理,需系统体系与人脸照片模式识别自动关联”。性解决清洗、标注及优化等高质量语料要求的核心问题。·专业领域知识的理解瓶颈,高度专业化术语与上下文缺失·数据质量差,A1不好用①高价值结构化数据关联断裂:传统高价值结构化①数据噪声与错误:大量的语料存在拼写错误、语法数据集缺少跨表跨字段的语义关联,结构化数据集的错误、乱码、隐私非合规、内容非合规、重复内容、低离散型导致大模型难以构建实体间的语义联系,例如质内容等,并且自动化和智能化去噪程度低、成本高、大模型无法理解外键语义、无法理解多字段含义关联准确率低。13
文档评分
    请如实的对该文档进行评分
  • 0
发表评论

特惠

限量优惠活动

正在火热进行

站长

添加站长微信

领取新人礼包

下载

便携运营智库

立即下载APP

工具

运营导航

工具推荐

帮助

帮助中心

常见问题

分销

50%直推收益

30%间推分成

AI

智能对话

办公助手

顶部