热门文档
- 2025-04-21 11:02:12 2025年中国宠物行业白皮书
- 2024-11-17 13:23:03 Mckinsey:2024中国消费趋势调研
- 2025-03-07 11:57:25 【剧星传媒】《哪吒2》资源推荐0205
- 2024-07-31 22:30:59 城市飞行营地总体规划及主题体验区概念设计规划案
- 2024-05-19 21:59:54 2024小红书餐饮行业方法论
- 2024-03-22 23:03:56 红爵啤酒品鉴会“红爵之夜 嗨啤TIME ”主题活动策划方案
- 2024-07-21 20:53:59 2024全球E-Bike市场洞察报告(电动自行车)
- 2024-07-09 21:55:15 如何运营你的小红书?
- 2024-08-18 12:25:23 2024年科大讯飞1024招商方案
- 2024-11-04 20:41:56 淘天集团:2024年家装家居行业营销解决方案
- 2025-05-06 14:49:34 中国剧本杀行业研究报告
- 2024-09-08 21:00:26 【Short TV】ShortTV出海短剧内容生态

1、本文档共计 40 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
软通智慧中国人民大学高瓴人工智能学院AIGC(生成式人工智能)赋能城市治理应用白皮书联合发布:软通智慧科技有限公司中国人民大学高瓴人工智能学院CONTENTS目录序01前言06A1GC与大模型研究09■1.1从统计理论到大模型,人工智能发展的飞跃09■1.2从Word2Vec到Transformer,NLP技术浅析09■1.3A1GC大模型体系及其技术概要城市治理数字化基因:大模型赋能城市治理新范式15■2.1城市治理的现状与挑战16■22城市治理发展趋势:智能化17■2.3A1GC驱动的城市治理新范式:感知、汇聚、推理、行动17■2.4软通智慧城市大模型赋能城市治理的实践18■2.4.1RLHF、上下文学习和第三方服务Plugin,.打造市民服务“一语通办”18■2.4.2多模态、预训练+微调范式和高效训练,赋能城市事件感知理解“一屏统览”22■2.4.3大模型+RPA加持,“数智”网格员上岗基层数据采集26■2.5软通智慧孔明城市大模型27■2.5.1整体架构■2.5.2GPT-Creator AlP应用赋能平台283技术保障+政策规范,确保生成式人工智能有序健康发展30■3.1生成式人工智能,打开潘多拉魔盒■3.2技术保障31■3.3政策规范32未来已来,你来不来33参参考文献35序共同探索人工智能在城市治理中的应用,推动城市可持续发展城市是人类生活、经济繁荣和科技创新的中心,城市也是人类最伟大的发明之一。城市以仅占全球陆地2%的面积,创造了70%的全球GDP,但是也消耗了60%的能源,产生了70%的温室气体和70%的固体废弃物。当前有超过50%的全球人口生活在城市,预计到2030年这个比例将上升到60%。然而,快速的城市化导致了越来越多的问题,交通拥堵、环境污染、能源危机、生态退化、温室气体、固体废物、城市无序扩张等挑战正危害着城市的可持续发展和损害着无数城市居民的生活质量和幸福感。随着城市规模的日益扩大和复杂性的增加,传统的城市治理方式逐渐显露出其瓶颈和局限性。有没有一种技术手段能够帮助人类去尽可能高效、精准地应对这些城市问题?这成为了无数城市研究者和科技企业孜孜以求的探索。随着人工智能技术的进一步升级和大模型研究的不断成熟,在GPT浪潮的带动下,生成式人工智能借助其感知、汇聚、推理和行动的超强能力,将各类数据和信息整合起来,为城市决策者提供全面而准确的参考,显示出在提升城市治理上的巨大潜力。在这份白皮书中,软通智慧提出了一种创新的城市治理范式,即物联网泛在感知、大数据融合汇聚、大模型理解推理的方式。这种范式基于现代信息技术的突破,将城市各个方面的数据和信息进行融合和分析,以形成对城市状况和趋势的深入理解。借助生成式人工智能基础设施的构建,城市决策者能够准确把握城市的治理需求,填补基层人力不足的空缺,提高治理效率。然而,本白皮书的意义不仅仅在于提出理念和构想,更在于关注市民的需求和福祉。软通智慧强调了通过联接城市服务、自然语言理解和生成,为市民提供具有温度的服务。借助人工智能的能力,城市服务可以变得更加便捷快速,满足市民多样化的需求,提高生活质量。通过人工智能的赋能,城市决策者将能够更好地理解和满足市民的需求,优化城市资源的分配和利用,推动城市的可持续发展。作为联合国人居署中国未来城市顾问委员会的成员单位,软通智慧的这些理念都与联合国人居署“以人为中心”智慧城市的理念不谋而合。应该指出的是技术具有变革社会的巨大力量,但是技术往往也不是中性的和无害的,我们需要防止其被滥用的风险并限制其对人类的不良影响。从以人为中心的角度出发,通过公众参与和跨学科合作,往往是一种可行的办法。在白皮书中我们也看到了软通智慧在技术保障和政策规范上所做出的前瞻性思考和同中国人民大学的跨学科合作真诚希望这份白皮书能够激发城市决策者、学者、企业和市民一起参与广泛的讨论和合作,共同探索生成式人工智能在城市治理中的应用和推动城市的可持续发展。让我们携手迈向一个更加智慧、宜居和可持续的城市未来。应盛联合国人居署中国办公室国家官员01序保持“科技向善”初心,打造有温度的社会治理2023年可以看作生成式人工智能的元年,以GPT-4为代表的大模型经过权威测试后被发现具有早期通用人工智能的特质。由于面临落地困难的挑战,人工智能几乎进入了下一个低谷。但是,GPT-4的及时出现为人工智能领域注入新的活力,国内外企业、研究机构、高校开始投入大量人力和物力到大模型的训练。这不是人工智能的又一次炒作,虽然以前被炒作了很多次。这一次情况确实大不一样,本质原因在于GPT-4的强大能力让所有人都看到了人工智能落地的巨大潜力。以GPT-4为代表的大模型,能与人自然地聊天(比如ChatGPT),能当作操作系统(OS)调用任何工具(即将人类的自然语言指令翻译成计算机能执行的指令),还有更多的潜在能力会被不断挖掘出来。同时,大模型也开始在各行各业有实质性的落地,比如微软在Office中嵌入GPT-4、在Bing搜索中接入ChatGPT。看起来似乎是大模型的能力超过某个临界点,导致传统人工智能模型的落地困难一夜之间就消失了。软通智慧是国内最早开始探索大模型在智慧城市场景中实际落地的企业。通过与中国人民大学、初创企业元乘象深度合作,将多模态大模型ChatImg的API接入到软通智慧的社会治理平台,大幅地提高了复杂社会治理场景的识别率,从而实现显著的降本增效。在接下来的几个月里,软通智慧将在多模态大模型Chatimg的基础上,利用智慧城市的垂域数据进行定制化的合作研究,打造属于自己的城市大模型孔明,有望在业务上形成自己的特色与优势,推出的社会治理解决方案有望成为国内To印-1。虽然通用人工智能赋能智慧城市具有非常广阔的应用前景,但是也面临安全和伦理上的巨大挑战。软通智慧将与中国人民大学在这方面也投入大量的研究精力,从模型研发的源头上就重视模型的安全和伦理,一起打造“有温度”的社会治理范例(比如智慧花果园社区),始终不忘“科技向善”的初心。最后,衷心地希望软通智慧在通用人工智能赋能智慧城市的探索能够不断深入,同时不忘“科技向善”的初心,力争做成智慧城市的头部企业。卢志武中国人民大学高瓴人工智能学院教授02序人工智能+城市治理,为现代化城市建设提供全新思路和途径数字经济时代,数据已然成为最重要的生产资料,和土地、资本、劳动力、管理并列,成为推动经济发展的生产要素。不是所有的数据都是生产要素。在我看来,有三大原因制约:第一称之为数据割据、第二称之为数据孤岛、第三称之为数据质量。数据割据借用了军阀割据的概念,指有能力有技术把数据互联互通,但是因为部门利益,而限制互联互通的状态。数据孤岛则是指确实因为技术原因或者互联互通的成本高昂,而无法互联互通的情况。数据质量是指数据的正确性、唯一性、统一性等问题。数据割据、数据孤岛、数据质量在实际的工作中,往往交织在一起,最终的结果就是数据不可用。我国是人口大国,每个人在上网过程中,都会产生数据。按理来说,自然是数据大国。但是不幸的是,因为上述三个原因,导致数据质量很差,有些高价值数据又沉睡在某某部门的“仓库”中,难以发挥社会价值。从数据治理的角度而言,说是“数据小国”也不为过。海量互通互联高质量数据的多寡,其实是制约人工智能发展的关键因素之一。这一点无论是人工智能从业者,还是决策机构,事实上是早有共识。但是直到ChatGPT横空出世,大家才意识到,这些基础的工作,和最炫酷的高科技关系之密切,远超过往。毕竟人工智能是学习人类“喂”给它的知识。如果只是喂它垃圾,那也只能是垃圾进垃圾出了。具体到城市治理,我们首要解决的同样是数据治理的三个难题。这是诞生足够聪明的可以完成城市治理的生成式人工智能的前提。A1GC一旦产生,则反过来可以源源不断的赋能城市治理,逐渐成为城市治理的重要手段,会大大提高城市治理的效率和水平。而且更进一步,人工智能技术与城市治理深度融合,将形成新型城市治理模式和理念,能够为智慧城市治理和现代化城市建设提供全新的思路和途本白皮书阐述了人工智能在城市治理中的基本概念和影响因素,以及其在城市治理中的应用前景和宏观影响,适用于城市管理者、决策者、政府部门、相关企业、研究机构以及社会公众,能够为通用人工智能赋能城市治理提供有价值的参考和指导,促进城市治理工作的创新与发展,创造更加美好、安全、智慧的城市。软通智慧是T届的老兵了,也是中关村大数据产业联盟的老会员。在这一次人工智能的浪潮中,抓住了产业的先机,率先把人工智能和城市治理结合起来,此举不但对于产业发展贡献巨大,同样也是软通智慧难得的一次跃升良机。中关村大数据产业联盟,也像数据一样,致力于为会员提供各类“互联互通”的服务,与政府之间的互联互通、与资本之间的互联互通、与其他会员之间的互联互通,在互通有无中,促进会员的发展。借为白皮书作序之际,祝愿软通智慧抓住这波通用人工智能大发展的浪潮机遇,引领城市治理领域的发展潮流,取得更大的成绩。赵国栋中关村大数据产业联盟秘书长南中轴元宇宙产业基地发起人■03序探索人工智能在城市治理中的应用:机遇与挑战OpenAl发布的ChatGPT掀起了人工智能广泛应用的热潮。Al大模型作为实现人工智能迈向通用智能的重要方向,其落地转化更多依赖具体的应用场景,城市治理便是其中的一个重要领域。本白皮书从多个方面深入探讨通用人工智能在城市治理中的应用,分享行业发展趋势和相关案例,为政府、企业和相关领域的专家学者提供参考。如今,随着新一代人工智能技术的快速更新迭代,生成式人工智能不仅可以处理大量的数据,进行复杂地分析,还可以进行自我学习和优化,更好地服务于城市治理,在城市治理的精准化、精细化,便民服务智慧化方面发挥重要作用。在构建智慧城市治理新格局中,通用人工智能是推进城市治理体系和治理能力现代化的有效措施。例如,在城市规划、交通管理、环境监测、公共安全等多个领域,可以帮助我们更准确地预测和解决城市问题。软通智慧作为率先把AGC大模型应用于城市治理的企业,研发出城市事件“一屏统览”、市民服务“一语通办”、网格员数“智”化应用等技术,为构建城市智能基础设施,城市治理应用和生态构建提供了有效赋能。然而,生成式人工智能的应用也带来了一些挑战。例如,数据隐私和安全问题、算法公平性和透明度问题等。因此,制定相应的政策和技术标准,以确保通用人工智能的合理和公正使用,成为一个难以回避的话题。从白皮书中可以看出,软通智慧对于隐私保护和信息安全的重视。本白皮书的发布,为业界提供了一个全面了解生成式人工智能在城市治理中应用的平台,推动了城市治理的创新和进步。我真诚地希望,通过这份白皮书,读者能够更深入地了解通用人工智能在城市治理中的潜力和挑战,进一步推动城市治理的现代化进程。最后,感谢软通智慧能积极承担行业引领作用,以智慧成果推进新型智慧城市建设;同时非常感谢软通智慧邀请协会为本白皮书作序。希望未来软通智慧能够持续发挥领域优势,为城市治理的智能化和数字化转型做出更大的贡献。郎丽艳深圳市人工智能行业协会执行会长04序生成式人工智能将促进城市从“智能化”向“智慧化”发展大模型、生成式A等技术迭代创新促进新一代A技术的发展,驱动行业应用的创新。近日北京、上海、广州、深圳等纷纷发布促进人工智能发展的行动方案、措施和计划,充分发挥政府的引导作用,推动生成式人工智能实现创新发展和理性健康发展。根据DC最新预测数据显示,中国人工智能(A)市场支出规模将在2025年达到219亿美元,其中政府投资占比达14%。随着城市数字化和智能化的深度发展,我国智慧城市发展已经进入“深水区”。运用大数据、人工智能等前沿技术推动城市管理手段、管理模式、管理理念创新,从数字化到智能化再到智慧化,是推动城市治理体系和治理能力现代化的必由之路。通用人工智能可以在热线咨询、政策服务、政务办理等政务服务中应用,借助大语言模型的学习、推理能力,提高民生、营商办事服务的精准度,提升服务效率、质量和满意度。在城市治理领域,通过大模型降低人工智能的准入门槛,进行城市态势感知,进行横向多事件维度及纵向多时间维度的关联,进行城市事件溯源、事件预测,把握城市脉搏体征。人工智能的发展必将促进城市的“智慧化”建设,提升市民和企业的切实体验,以及提升城市管理效率。智慧城市具备大量高质量数据及丰富多样的场景,必将是人工智能发展的主战场,智慧城市的大量投资建设也将促进人工智能的发展。软通智慧和高瓴人工智能研究院发表的白皮书,聚焦城市治理,探索大模型在智慧城市中的应用,非常有意义。白皮书的发布必将给大模型在城市中的应用提供借鉴,推动智慧城市的建设。孙吉峰DC中国数字政府和智慧城市行业助理研究总监■05前言2022年未,ChatGPT-一经推出即火爆全球,作为一款自然语言处理(Natural LanguageProcessing,NLP)大模型,ChatGPT:在意图理解和内容生成上,表现出了令人惊叹的性能。2023年初,ChatGPT的升级版GPT-4引入了对图片、语音的支持等多模态能力,多项考试分数已经超越了大部分人类。如果说2016年AlphaGo在围棋上战胜人类棋王,是Al在专业领域战胜人类的起点,那么以ChatGPT为代表的大模型的发布,则标志着泛化能力更强,通用任务处理更出色的生成式人工智能(AIGC:Artificial Intelligence Generated Content)的奇点来临。城市治理、民生服务作为智慧城市应用的主战场,因其场景的开放性、复杂性和不确定性,此前鲜有颠覆性的技术和应用出现。如今在大模型的发展浪潮下,人们也清晰的看到了,技术进步将给城市治理和服务带来颠覆性影响,甚至不可避免的引发社会形态的变迁。软通智慧作为A城市数据智能提供商,我们将不得不重新思考人类活动与人工智能之间的关系。本白皮书通过对以大模型为代表的生成式人工智能的回顾和研究,以场景化的形式对生成式人工智能如何赋能智慧城市应用进行了思考和分析,并针对城市如何构建智能基础设施进行了初步探讨和实践。亦期待各城市管理者以及行业同仁,在生成式人工智能的加持下,围绕城市治理、民生服务和行业赋能,发展开放共享的创新生态,加速构建新一代城市智能基础设施,服务百姓安居乐业,赋能干行百业蓬勃发展。作者软通智慧杨旭青周晖刘波郭文鹏雒冬梅李庆罗根照陆军柳涛李华章杨沛高丹蒲刘超李城中国人民大学高瓴人工智能学院卢志武教授高一钊博士感谢政产学研界专家、学者参与对本白皮书的指导、作序:联合国人居署中国办公室国家官员应盛中国人民大学高瓴人工智能研究院教授卢志武中关村大数据产业联盟秘书长赵国栋深圳市人工智能行业协会执行会长郎丽艳DC中国数字政府和智慧城市行业助理研究总监孙吉峰06参编单位简介软通智慧科技有限公司软通智慧科技有限公司(以下简称“软通智慧”)是中国领先的城市数据智能服务提供商,致力于成为城市数字化转型最可信赖的合作伙伴。十余年积累,软通智慧在城市数字化领域持续深耕和创新,以大数据、物联网、人工智能、数字孪生等技术为驱动力,为城市及政府管理者提供领先的产品与解决方案。秉承“数据赋能城市治理,场景释放数据价值”的价值理念,以“数据智能+信创”双轮驱动城市数字化转型,助力城市数字化发展,全面提升城市治理现代化水平。目前,公司在全国拥有30+业务中心,项目实施总数1000+,在全国190余城市建设了一批有深度、有特色、有影响、可持续运营的创新示范工程。软通智慧高度重视研发创新,依托“两院四中心”(创新研究院、技术工程院、A能力中心、算力能力中心、大数据能力中心、数字李生能力中心)积极将技术研发成果专利化、产品化、市场化。目前公司拥有80余项国家专利、600余项软件著作,在提升企业软实力及核心竞争力的同时,推动行业技术不断向前发展。连续多年被DG和国家信息中心授予“亚太智慧城市领军解决方案提供商”,多次荣获“中国软件和信息服务业十大领军企业”、“中国大数据企业50强”、“中国智慧城市生态国杰出贡献奖”等荣誉奖项。■07参编单位简介中国人民大学高瓴人工智能学院高瓴人工智能学院是中国人民大学下属学院,承担学校人工智能学科的规划与建设,开展本学科和相关交叉学科领域的本、硕、博人才培养和科学研究工作。学院由高瓴资本创始人、耶鲁大学校董、中国人民大学校友张磊先生捐资支持建设。作为贯彻落实党中央、国务院关于加快新一代人工智能的重要部署,加快构建赶超世界先进水平的人工智能人才培养体系,学院于2019年4月正式成立,时任中国科学技术协会党组书记怀进鹏院士、科学技术部副部长李萌、中国外文局局长杜占元等出席成立大会,耶鲁大学、普林斯顿、MT等世界一流名校发来贺信。中国工程院原常务副院长潘云鹤院士担任学院学术委员会主任,国家高层次人才专家、信息学院院长文继荣担任执行院长。“人工智能”本科专业于2020年2月通过教育部备案审批,首届本科、硕士、博士于2020年9月入学,现有学生289人。遵循世界一流高校“长聘制”人才管理体制,学院招募了来自麻省理工学院、剑桥大学、卡内基梅隆大学、杜克大学、微软亚洲研究院等世界一流高校和知名科研机构的一流师资。学院共有8位教师获得国家级人才称号。08第章AIGC与大模型研究1、AIGC与大模型研究人工智能概念,在1956年召开的达特茅斯会议上正式被提出。该会议是由信息学鼻祖克劳德·艾尔伍德农(Claude Elwood Shannon)(Marvin Minsky)、・(JohnMcCarthy)等十位信息学、数学、计算机学的科学先驱,在美国东部的达特茅斯召开的一次具有传奇色彩的学术会议。会上首次出现了“人工智能”(Artificial Intelligence,Al)这个术语,也是在这次会议上,他们决定,将像人类那样思考的机器称为“人工智能”。提到“人工智能”不得不提的另一个名字,则是享有“人工智能之父”称号的计算机科学家艾伦·图灵(Alan Turing),他在其论文《Computing Machinery and Intelligence》中提出了著名的“图灵测试”,定义了判定机器是否具有“智能”的方法。■1.1从统计理论到大模型,人工智能发展的飞跃达特茅斯会议以后,截至今日人工智能历经了67年的发展,纵观其历史,大致可分为:统计理论、机器学习、深度学习和大模型四个发展阶段。从大模型阶段开始,其对人类意图的准确理解以及内容生成能力,则标志着人工智能从判别式时代,开始走向生成式时代。■1.2从Word2Vec到Transformer,NLP技术浅析在展开讨论GPT大模型之前,我们把时间稍微往前回溯一下,通过一些案例简要回顾一下Word2VecSeq2Seq等早期NLP技术,以及大模型的奠基技术:Transformer结构。Word2Vec:Word2Vec(Word to Vector)即:词-向量转换,是由托马斯·米科洛夫(Tomas Mikolov)等科学家于2013年在论文《Efficient Estimation of Word Representations in Vector Space.》中提出的。Word2Vec是NLP的重要思想,它提出了一种将自然语言的词语转化为“可计算”的向量的方法,这个过程通常称为“嵌入”(embedding)。我们来看一个例子,下图将“King”、“Man"和“Women'”三个词进行了Word2Vec操作,并对它们的向量矩阵用颜色进行了可视化,其中每个色块代表一个特征(feature),特征向量用颜色表示:深红色为+2,白色为0,深蓝色为-2。从图中所显示的特征模式我们可以看到,“man”和“woman”两个词的向量矩阵在向量空间中的距离更近(这两个词的语义上相似度更高),而与“kig”的距离更远(语义上差异更大):10"Man"“Woman"Figure1Word2Vec和词向量空间Word2Vec的表示方法能够将词映射到一个高维的表示语义的空间中,即:词向量空间,使得计算机可以对自然语言进行“理解”和计算。Seq2Seq:Seq2Seq(Sequence to Sequence).,即:“序列到序列”,是伊尔亚·苏茨克维(llya Sutskever)等科学家在NIPS2014发表的论文《Sequence to Sequence Learning with Neural Networks?》中被学家。该论文在谷歌学术引用目前已经超过2.1万次,可见其在NLP领域的重要性,在其发表至今近9年的时间里,NLP的发展可以说或多或少受到了该论文思想的影响。Sq2Seq的思想其实很直观,就是把语言生成任务建模为序列到序列的任务。何为序列?句子就是一个文本序列,模型的输入是一个序列,输出也是一个序列。其提出的初衷,主要是用于翻译任务,后来广泛应用到对话生成、摘要生成等文本生成任务当中。这种结构的显著特点就是:通过编码器-解码器结构,维系着输入序列和输出序列的一个松散的映射关系,松散主要指,输入输出序列的长度是可变的,且无需严格对应。图解Encoder--DecoderEncodor向量CX1 X2 X3 X4Figure2Seq2Seq的编码器-解码器结构在实现Seq2S©q时,根据应用场景和任务不同,我们可以构建不同的编码器和解码器,这也就意味着序列之间的映射方法不同,如:从一种语言映射到另一种语言,是翻译任务;从一个问题映射到一个答案,是问答系统等等。而编码器和解码器的具体实现,可以是NLP的经典结构循环神经网络(RecurrentNeural Network,.RNN),也可以是其改良版本长短期记忆网络(Long Short-.Term Memory,LSTM),亦或是“注意力”(Attention)机制。11Tranformer:来到这里,一切开始变得熟悉起来:Transformer结构的本质,其实就是Seq2Seq的编码器-解码器模型加上“注意力”机制,该机制和Transformer结构,是谷歌公司翻译团队在2017发表的论文“AttentionIs All You Need”中首次提出。而何为“注意力”?简单地说,注意力能够在句子内部计算字词之间的相关性,使序列内部的字词产生关联,以更准确的将字词映射到词向量空间中。我们来看一个例子。假如我们有下面输入语料:聪明的/小明/在一间/明亮的/教室/写/一份/很难的/作业。分词之后可以看出来,“聪明的”这个定语是用来修饰“小明”这个主语的。假设“小明”这个主语所对应的token是一个三维空间(词向量空间实际维度要高得多)R当中的一个点,当我们用“聪明的”这个形容词来修饰这个主语之后,那这个主语在空间R当中的位置相较于不被定语修饰的tok的位置应该是有一定变化的(相当于该词的语境发生了变化,自身的含义也会发生变化)。同理,如果换成“愚蠢的小明”也将类似,将“愚蠢的”所对应的toke的信息搬运到“小明”这个主语所对应的token,只是愚蠢的定语将会对“小明”对应的token做负向的修改。Scaled Dot-Product AttentionMulti-Head AttentionMatMulSoftMaxMask (opt.)Scaled Dot-ProductAttentionScaleMatMul通过“注意力”计算,可以使得模型不仅能够关注当前位置的词,而且能够关注句子中其他位置的词(上下文),从而可以更好的编码这个词,即将其他词的理解融入到当前词中。更重要的一点,通过“注意力”机制的位置编码(Positional encoding)操作,能够使序列数据离散化,将循环神经网络系模型(RNN和LSTM等)难以并行化训练的问题很好的得以解决(RNN理解文章只能先看前文,再看后文,乱序的看意思不同;“注意力”机制模型可以乱序的看,也可以很多人一起看),从这个意义上看,可以说是“注意力”机制使得大模型的发展成为可能,正如其论文标题所述:Attention Is All You Need12
请如实的对该文档进行评分-
-
-
-
-
0 分