ChatGPT专题研究:ChatGPT狂飙破壁,现象级AI应用引发范式革命

  一、现象级AI应用狂飙破壁,ChatGPT引发范式革命

  ChatGPT用户量两月破亿,现象级应用横空出世

  ChatGPT(Chat Generative Pre-trained Transformer)是由OpenAI开发的人工智能聊天机器人程序,于2022年11月推出。据瑞银集团, ChatGPT推出仅两个月后,即2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。作为比较,TikTok达到1 亿用户用了9个月,Instagram花了2年半的时间。

  智能化生产工具,提高生产效率

  ChatGPT是一个虚拟助手,可以帮助用户解决问题、提供信息和建议。通过人工智能技术实现自然语言处理和自然语言理解,ChatGPT能够快速 准确地回答用户提出的问题。可以通过文本或语音与用户交互,并通过不断学习和改进来提高能力和服务质量。现有使用案例中,用户可通过 ChapGPT实现代码生成、修改程序bug、写诗等。

  重新定义搜索,跨时代AI产品

  ChatGPT在智能化方面有跨越式进步,在多轮对话能力以及对话交互友好性上展示了惊艳效果。能够较准确理解问题,把生成的答案用易于人类 理解的语言组织起来,生成类似人类语言的文本答案。同时,ChatGPT的模型优化目标为有用、可信、无害,在道德上友善,符合大众的道德观。

  GPT-3大模型驱动,引发AIGC范式革命

  以ChatGPT为代表的AIGC应用在 2022 年的爆发, 主要是得益于深度学习模型方面的技术创新。不断 创新的生成算法、预训练模型、多模态等技术融合 带来了 AIGC (AI Generated Content)技术变 革,拥有通用性、基础性多模态、参数多、训练数 据量大、生成内容高质稳定等特征的 AIGC 模型成 为了自动化内容生产的“工厂”和“流水线”。 基础层是核心,GPT-3模型起关键支撑作用。 GPT-3一个大规模的通用语言模型,已经在来自各 种来源的大量文本数据上进行了训练。能够产生类 似人类的反应,并可用于广泛的语言相关任务。 ChatGPT基于目前较新的GPT-3.5模型版本进行研 发,专注于自然语言对话,接受了更广泛的语言模 式和风格培训,因此,能较GPT-3产生更多样化和 微妙的响应。

  C端应用时代降临,拉开AI商业变现帷幕

  OpenAI 在2023年2月1日推出订阅服务,名为ChatGPT Plus,每月收费20美元。订阅用户将获得全天候服务,并在高峰时段享有优先访问。用 户还可提前使用新功能及改进功能,应用的响应时间也更快。OpenAI预计2023年ChatGPT将实现2亿美元的收入。 微软计划将旗下所有产品全线整合ChatGPT。除了搜索引擎必应、办公软件Office外,微软还将在云计算平台Azure中整合ChatGPT,Azure的 OpenAI服务将允许开发者访问AI模型。

  政策反应迅速,国内科技巨头布局

  2023年2月13日,北京市经济和信息化局发布《2022年北京人工智能产业发展白皮书》,提出全面夯实人工智能产业发展底座。支持头部企业打 造对标ChatGPT的大模型,着力构建开源框架和通用大模型的应用生态。加强人工智能算力基础设施布局。加速人工智能基础数据供给。 国内科技企业纷纷对ChatGPT发表看法,百度、华为、腾讯、阿里巴巴等大多数头部企业表示,已经拥有、在研对标ChatGPT相关的模型及产品。

  关注AI三驾马车投资机会

  算法、算力和数据是人工智能发展的三驾马车,也是推动人工智能发展的重要基础。 算法层面,超大规模预训练模型推动AI效果不断提升。当前,预训练模型参数数量、训练数据规模按照 300 倍/年的趋势增长,继续通过增大模型 和增加训练数据仍是短期内演进方向。 算力层面,单点算力持续提升,算力定制化、多元化成为重要发展趋势。计算技术围绕数据处理、数据存储、数据交互三大能力要素演进升级, 类脑芯片、量子计算等方向持续探索。 数据层面,以深度学习为代表的人工智能技术需要大量的标注数据,这也催生了专门的技术和服务,随着面向问题的不断具体化和深入,数据服 务走向精细化和定制化。

  二、巨量数据规模引发质变,AI模型算力紧缺

  大型预训练模型引发质变

  Transformer基础算法模型的出现,为NLP和CV训练领域提供了强大支持。OpenAI的GPT预训练模型,以及百度的ERNIE模型,都是基于 Transformer模型建立。 Al 预训练模型,又称为大模型、基础模型 (foundation model),即基于大量数据(通常使用大规模自我监督学习)训练的、拥有巨量参数的模型, 能适应广泛的下游任务。预训练模型能够满足真实内容消费场景中的灵活多变、高精度、高质量等需求。 随着2018 年谷歌发布基于 Transformer 机器学习方法的自然语言处理预训练模型 BERT,人工智能领域进入了大炼模型参数的预训练模型时代。 预训练模型成为 AI 技术发展的范式变革,许多跨领域的 AI 系统将直接建立在预训练模型上。

  AI模型数据规模增长,AI算力需求井喷

  当前,预训练模型参数数量、训练数据规模按照 300 倍/年的趋势增长,继续通过增大模型和增加训练数据仍是短期内演进方向。未来使用更多种 图像编码、更多种语言、以及更多类型数据的预训练模型将会涌现。 当前算力距离AI应用存巨大鸿沟。根据 Open AI 数据,模型计算量增长速度远超人工智能硬件算力增长速度,存在万倍差距。英特尔表示,目前 的计算、存储和网络基础设施远不足以实现元宇宙愿景,而要想实现真正的元宇宙,目前的计算能力需量要再提高1000倍。

  据IDC预计, 2021-2026年期间,中国智能算力规模年复合增长率达52.3%。2022年智能算力规模将达到268.0 EFLOPS,预计到2026年智能算 力规模将进入每秒十万亿亿次浮点计算(ZFLOPS)级别,达到1,271.4 EFLOPS。 运算数据规模的增长,带动了对AI训练芯片单点算力提升的需求,并对数据传输速度提出了更高的要求。

  算力升级:AI训练芯片空间广阔

  IDC预计,到2025年人工智能芯片市场规模将达726亿美元。IDC全球范围调研显示,人工智能芯片搭载率将持续增高。目前每台人工智能服务器 上普遍多配置2个GPU,未来18个月,GPU、ASIC和FPGA的搭载率均会上升。通用性递减,专用性增强,为AI芯片的主要发展方向。 2021年中国以GPU为主实现数据中心计算加速,GPU在算力芯片的市场占有率接近90%。ASIC,FPGA,NPU等非GPU芯片市场占有率超过10%。 国际科技网络巨头公司谷歌、脸书,亚马逊等等在AI芯片领域从云端训练到终端产品应用,在开源框架赋能产业行业上有一定的领先优势。国内企 业也在打造从AI芯片注重云端训练+AI芯片终端响应+AI算法框架开源的生态体系。

  算力升级:冯氏架构“破壁者”,存算一体突破瓶颈

  冯氏架构以计算为中心,计算和存储分离,二者配合完成数据的存取与运算。然而,由于处理器的设计以提升计算速度为主,存储则更注重容量 提升和成本优化,“存”“算”之间性能失配,从而导致了访存带宽低、时延长、功耗高等问题,即通常所说的“存储墙”和“功耗墙”。 存算一体作为一种新的计算架构,被认为是具有潜力的革命性技术。核心是将存储与计算完全融合,有效克服冯·诺依曼架构瓶颈,并结合后摩尔 时代先进封装、新型存储器件等技术,减少数据的无效搬移,从而提升计算效率。中国移动已将存算一体纳入算力网络的十大关键技术。

  当前NOR Flash、SRAM等传统器件相对成熟可率先开展存内计算产品化落地推动。新型器件中RRAM各指标综合表现较好,MRAM寿命和读写 性能较好,均有各自独特优势与发展潜力可持续推动器件成熟,同步进行存内计算探索。 三星电子、SK海力士、台积电、美光、IBM、英特尔等都在进行存算一体技术的研究。国内公司中,亿铸科技、千芯科技、后摩智能专注于大算 力存算一体芯片,闪易半导体、苹芯科技、知存科技、智芯科、九天睿芯专注于小算力存算一体芯片。

  传输升级:高速光模块放量

  传输速度迭代不止,高速光模块出货预计大幅增长。据lightCounting统计,2021年,200G、400G和800G的高速以太网光模块发货量达222万 只,2022年预计将达600万只,同比170%以上,800G的产品有望在2022年开始逐步放量。 据lightcounting2022年3月预测,未来随着AI、元宇宙等新技术不断发展,以及网络流量长期保持持续增长,以太网光模块销售额也将保持较快 增长并不断迭代升级。预计到2027年,以太网光模块市场将达到100.11亿美元。

  传输升级:CPO与硅光技术降本增效

  CPO(协同封装光子技术)提升数据中心应用中的光互连技术。CPO将光学器件和ASIC紧密结合在一起,通过 Co-packaging 的封装方式,大体 积的可插拔模块被简单的光纤配线架所取代,因此前面板的物理拥塞得以缓解。而交换机和光学器件之间的电气通道大大缩短,因此CPO将增加 带宽和缩小收发器尺寸,提升系统集成度,同时降低功耗和封装成本。

  据lightcounting预测,数据中心将率先使用CPO封装技术。同时,随着AI集群和HPC的架构正在不断演进发展,可能会看到CPO部署在GPU、 TPU以及以太网、InfiniBand或NVLink交换机上,另外有许多基于FPGA的加速器也可能受益于CPO。预测在2027年,CPO端口将占总800G和 1.6T端口的近30%。据机构CIR预测,CPO市场规模将在2025年超过13亿美元,2027年达到27亿美元。

  硅光芯片基于绝缘衬底上硅(Silicon-On-Insulator,SOI)平台, 兼容互补金属氧化物半导体 (Complementary Metal OxideSemiconductor, CMOS) 微电子制备工艺,同时具备了 CMOS 技术超大规模逻辑、超高精度制造的特性和光子技术超高速率、超低功耗的优势。硅光芯片商业化 至今较为成熟的领域为数据中心、通信基础设施等光连接领域。目前,硅光技术在第一代4x25G光模块中主要应用于500m内的100G QSFP28 PSM4;在第二代1x100G产品中,应用有100G QSFP28 DR1/FR1和LR1,作用于500m-10km场景中;在400G产品中,主要聚焦在2km以内的 中短距离传输应用场景,产品有400G DR4。未来随着技术逐渐成熟,激光雷达、光子计算等领域的应用有望实现突破。

  三、AIGC跨越数据鸿沟,合成数据与日精进

  ChatGPT狂飙出圈,AIGC迎发展快车道

  AIGC(人工智能生成内容) 的狭义概念是利用AI自动生成内容的生产方式。在AIGC场景下,人工智能可灵活运用于写作、编曲、绘画和视频制 作等创意领域。初步估计,到2025年,人工智能生成数据占比将达到10%。根据《Generative AI:A Creative New World》的分析,AIGC有 潜力产生数万亿美元的经济价值。 ChatGPT属于AIGC技术在自然语言对话场景的应用。ChatGPT的火速出圈,将AIGC推向新的高度。

  AIGC提供数据燃料,驱动AI技术发展

  AIGC正朝着效率和品质更高、成本更低的方向发展。根据ChatGPT能够快速、准确地生产聊天内容的表现,可大胆推测,未来AIGC技术将会把 创造和知识工作的边际成本降至零,以产生巨大的劳动生产率和经济价值。 数据是人工智能的燃料和驱动力,人工智能发展所需的海量数据也能通过 AIGC 技术生成、合成出来,即合成数据(synthetic data )。合成数据 可以在数学上或统计学上反映真实世界数据的属性,因此可以作为真实世界数据的替代品,来训练、测试、验证 Al 模型。

  跨越数据鸿沟,合成数据推进实现AI 2.0

  合成数据将极大拓展人工智能发展应用的数据基础。 Forrester 将合成数据和强化学习、Transformer 网络、联邦学习、因果推理视为实现人工智 能2.0 的五项关键技术进展,可以解决人工智能 1.0 所面临的一些限制和挑战,诸如数据、准确性、速度、安全性、可扩展性等。Gartner 预测称, 到 2030 年合成数据将彻底取代真实数据成为 AI 模型所使用的数据的主要来源。

  合成数据为数据要素创造增量,潜在商业价值待挖掘

  根据 Cognilytica 的数据,合成数据市场规模在 2021 年大概是 1.1 亿美元,到2027 年将达到 11.5 亿美元。Grand View Research 预测,Al 训 练数据市场规模到 2030 年将超过 86 亿美元。Gartner 预测,到 2024 年用于训练 Al 的数据中有 60% 将是合成数据,到2030 年 AI 模型使用 的绝大部分数据将由人工智能合成。合成数据作为数据要素市场的新增量,在创造巨大商业价值的同时,也有望解决人工智能和数字经济的数据 供给问题。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论