1、封面介绍

book.jpg

2、出版时间

2024年4月

3、内容介绍

本书以深入浅出的方式介绍多模态大模型的技术方法、开源平台和应用场景,并详细阐述因果推理、世界模型及多智能体与具身智能等前沿技术领域,有助于读者全面了解多模态大模型的特点及发展方向,对新一代人工智能技术范式和通用人工智能的发展起到重要推动作用。

全书内容共5章,第1章引领读者深入探索最具代表性的大模型结构,包括BERT、Chat-GPT 和ChatGLM等,为建立对多模态大模型的全面认知打下基础。第2章深度剖析多模态大模型的核心技术,如提示学习、上下文学习、思维链和人类反馈强化学习等,揭示多模态大模型的独特之处和引人入胜的技术内涵。第3章介绍多个具有代表性的多模态基础模型,如CLIP、LLaMA、SAM和PaLM-E等,为读者呈现多样和广泛的技术解决方案。第4章深入分析视觉问答、AIGC和具身智能这三个典型应用,展示多模态大模型在实际场景中的强大能力。第5章探讨实现AGI的可行思路,包括因果推理、世界模型、超级智能体与具身智能等前沿技术方向。

本书不仅适合高校相关专业高年级本科生和研究生作为教材使用,更是各类IT从业者的必备参考之作。

4、推荐理由

适读人群:本书旨在为对多模态模型感兴趣的读者提供入门指南,也可作为高年级本科生和研究生人工智能相关课程的教材。

5、作者简介

刘阳
中山大学计算机学院副研究员,中山大学人机物智能融合实验室(HCP-Lab)骨干成员。主要研究方向为多模态认知理解、因果推理和具身智能。截至2023年12月,在IEEE T-PAMI、T-IP、ICCV、ACM MM等期刊和会议上发表论文30余篇,2篇论文入选ESI高被引和热点论文。提出的视觉-语言因果推理开源框架CausalVLR受到国内外广泛关注。获得2023年中国软件大会“达闼杯”机器人大模型与具身智能挑战赛优胜奖,广东省第三届计算机科学青年学术秀一等奖。

林倞
人工智能领域国际著名学者(IEEE Fellow、IAPR Fellow、IET Fellow)、鹏城实验室多智能体与具身智能研究所所长、中山大学二级教授、国家杰出青年科学基金获得者、国家人工智能重大专项首席科学家;在多模态认知计算、生成式模型、具身交互与学习等领域形成一系列突破创新成果。截至2023年10月,发表论文400余篇(含T-PAMI论文40余篇),论文被引用30000余次(谷歌学术统计),5次获得最佳论文奖。获黑龙江省自然科学奖一等奖、吴文俊人工智能奖(自然科学类)、中国图象图形学学会科学技术奖一等奖等荣誉;指导学生获得CCF优秀博士论文奖、ACM China优秀博士论文奖及CAAI优秀博士论文奖。带领团队坚持产学研结合的科技创新思路,曾任商汤科技研究院执行院长,孵化新一代人工智能领军企业拓元智慧。在企业数智化、元宇宙、智慧城市等领域形成了具有广泛影响力的商业化产品和项目。

6、下载链接

本电子书可以提供下载,下载方式请移步:http://www.hbase.cn/archives/1147.html