ChatGPT专题研究：ChatGPT狂飙破壁，现象级AI应用引发范式革命

　　一、现象级AI应用狂飙破壁，ChatGPT引发范式革命

　　ChatGPT用户量两月破亿，现象级应用横空出世

　　ChatGPT(Chat Generative Pre-trained Transformer)是由OpenAI开发的人工智能聊天机器人程序，于2022年11月推出。据瑞银集团， ChatGPT推出仅两个月后，即2023年1月末的月活用户已经突破了1亿，成为史上用户增长速度最快的消费级应用程序。作为比较，TikTok达到1 亿用户用了9个月，Instagram花了2年半的时间。

　　智能化生产工具，提高生产效率

　　ChatGPT是一个虚拟助手，可以帮助用户解决问题、提供信息和建议。通过人工智能技术实现自然语言处理和自然语言理解，ChatGPT能够快速准确地回答用户提出的问题。可以通过文本或语音与用户交互，并通过不断学习和改进来提高能力和服务质量。现有使用案例中，用户可通过 ChapGPT实现代码生成、修改程序bug、写诗等。

　　重新定义搜索，跨时代AI产品

　　ChatGPT在智能化方面有跨越式进步，在多轮对话能力以及对话交互友好性上展示了惊艳效果。能够较准确理解问题，把生成的答案用易于人类理解的语言组织起来，生成类似人类语言的文本答案。同时，ChatGPT的模型优化目标为有用、可信、无害，在道德上友善，符合大众的道德观。

　　GPT-3大模型驱动，引发AIGC范式革命

　　以ChatGPT为代表的AIGC应用在 2022 年的爆发，主要是得益于深度学习模型方面的技术创新。不断创新的生成算法、预训练模型、多模态等技术融合带来了 AIGC (AI Generated Content)技术变革，拥有通用性、基础性多模态、参数多、训练数据量大、生成内容高质稳定等特征的 AIGC 模型成为了自动化内容生产的“工厂”和“流水线”。基础层是核心，GPT-3模型起关键支撑作用。 GPT-3一个大规模的通用语言模型，已经在来自各种来源的大量文本数据上进行了训练。能够产生类似人类的反应，并可用于广泛的语言相关任务。 ChatGPT基于目前较新的GPT-3.5模型版本进行研发，专注于自然语言对话，接受了更广泛的语言模式和风格培训，因此，能较GPT-3产生更多样化和微妙的响应。

　　C端应用时代降临，拉开AI商业变现帷幕

　　OpenAI 在2023年2月1日推出订阅服务，名为ChatGPT Plus，每月收费20美元。订阅用户将获得全天候服务，并在高峰时段享有优先访问。用户还可提前使用新功能及改进功能，应用的响应时间也更快。OpenAI预计2023年ChatGPT将实现2亿美元的收入。微软计划将旗下所有产品全线整合ChatGPT。除了搜索引擎必应、办公软件Office外，微软还将在云计算平台Azure中整合ChatGPT，Azure的 OpenAI服务将允许开发者访问AI模型。

　　政策反应迅速，国内科技巨头布局

　　2023年2月13日，北京市经济和信息化局发布《2022年北京人工智能产业发展白皮书》，提出全面夯实人工智能产业发展底座。支持头部企业打造对标ChatGPT的大模型，着力构建开源框架和通用大模型的应用生态。加强人工智能算力基础设施布局。加速人工智能基础数据供给。国内科技企业纷纷对ChatGPT发表看法，百度、华为、腾讯、阿里巴巴等大多数头部企业表示，已经拥有、在研对标ChatGPT相关的模型及产品。

　　关注AI三驾马车投资机会

　　算法、算力和数据是人工智能发展的三驾马车，也是推动人工智能发展的重要基础。算法层面，超大规模预训练模型推动AI效果不断提升。当前，预训练模型参数数量、训练数据规模按照 300 倍/年的趋势增长，继续通过增大模型和增加训练数据仍是短期内演进方向。算力层面，单点算力持续提升，算力定制化、多元化成为重要发展趋势。计算技术围绕数据处理、数据存储、数据交互三大能力要素演进升级，类脑芯片、量子计算等方向持续探索。数据层面，以深度学习为代表的人工智能技术需要大量的标注数据，这也催生了专门的技术和服务，随着面向问题的不断具体化和深入，数据服务走向精细化和定制化。

　　二、巨量数据规模引发质变，AI模型算力紧缺

　　大型预训练模型引发质变

　　Transformer基础算法模型的出现，为NLP和CV训练领域提供了强大支持。OpenAI的GPT预训练模型，以及百度的ERNIE模型，都是基于 Transformer模型建立。 Al 预训练模型，又称为大模型、基础模型 (foundation model)，即基于大量数据(通常使用大规模自我监督学习)训练的、拥有巨量参数的模型，能适应广泛的下游任务。预训练模型能够满足真实内容消费场景中的灵活多变、高精度、高质量等需求。随着2018 年谷歌发布基于 Transformer 机器学习方法的自然语言处理预训练模型 BERT，人工智能领域进入了大炼模型参数的预训练模型时代。预训练模型成为 AI 技术发展的范式变革，许多跨领域的 AI 系统将直接建立在预训练模型上。

　　AI模型数据规模增长，AI算力需求井喷

　　当前，预训练模型参数数量、训练数据规模按照 300 倍/年的趋势增长，继续通过增大模型和增加训练数据仍是短期内演进方向。未来使用更多种图像编码、更多种语言、以及更多类型数据的预训练模型将会涌现。当前算力距离AI应用存巨大鸿沟。根据 Open AI 数据，模型计算量增长速度远超人工智能硬件算力增长速度，存在万倍差距。英特尔表示，目前的计算、存储和网络基础设施远不足以实现元宇宙愿景，而要想实现真正的元宇宙，目前的计算能力需量要再提高1000倍。

　　据IDC预计， 2021-2026年期间，中国智能算力规模年复合增长率达52.3%。2022年智能算力规模将达到268.0 EFLOPS，预计到2026年智能算力规模将进入每秒十万亿亿次浮点计算(ZFLOPS)级别，达到1,271.4 EFLOPS。运算数据规模的增长，带动了对AI训练芯片单点算力提升的需求，并对数据传输速度提出了更高的要求。

　　算力升级：AI训练芯片空间广阔

　　IDC预计，到2025年人工智能芯片市场规模将达726亿美元。IDC全球范围调研显示，人工智能芯片搭载率将持续增高。目前每台人工智能服务器上普遍多配置2个GPU，未来18个月，GPU、ASIC和FPGA的搭载率均会上升。通用性递减，专用性增强，为AI芯片的主要发展方向。 2021年中国以GPU为主实现数据中心计算加速，GPU在算力芯片的市场占有率接近90%。ASIC，FPGA，NPU等非GPU芯片市场占有率超过10%。国际科技网络巨头公司谷歌、脸书，亚马逊等等在AI芯片领域从云端训练到终端产品应用，在开源框架赋能产业行业上有一定的领先优势。国内企业也在打造从AI芯片注重云端训练+AI芯片终端响应+AI算法框架开源的生态体系。

　　算力升级：冯氏架构“破壁者”，存算一体突破瓶颈

　　冯氏架构以计算为中心，计算和存储分离，二者配合完成数据的存取与运算。然而，由于处理器的设计以提升计算速度为主，存储则更注重容量提升和成本优化，“存”“算”之间性能失配，从而导致了访存带宽低、时延长、功耗高等问题，即通常所说的“存储墙”和“功耗墙”。存算一体作为一种新的计算架构，被认为是具有潜力的革命性技术。核心是将存储与计算完全融合，有效克服冯·诺依曼架构瓶颈，并结合后摩尔时代先进封装、新型存储器件等技术，减少数据的无效搬移，从而提升计算效率。中国移动已将存算一体纳入算力网络的十大关键技术。

　　当前NOR Flash、SRAM等传统器件相对成熟可率先开展存内计算产品化落地推动。新型器件中RRAM各指标综合表现较好，MRAM寿命和读写性能较好，均有各自独特优势与发展潜力可持续推动器件成熟，同步进行存内计算探索。三星电子、SK海力士、台积电、美光、IBM、英特尔等都在进行存算一体技术的研究。国内公司中，亿铸科技、千芯科技、后摩智能专注于大算力存算一体芯片，闪易半导体、苹芯科技、知存科技、智芯科、九天睿芯专注于小算力存算一体芯片。

　　传输升级：高速光模块放量

　　传输速度迭代不止，高速光模块出货预计大幅增长。据lightCounting统计，2021年，200G、400G和800G的高速以太网光模块发货量达222万只，2022年预计将达600万只，同比170%以上，800G的产品有望在2022年开始逐步放量。据lightcounting2022年3月预测，未来随着AI、元宇宙等新技术不断发展，以及网络流量长期保持持续增长，以太网光模块销售额也将保持较快增长并不断迭代升级。预计到2027年，以太网光模块市场将达到100.11亿美元。

　　传输升级：CPO与硅光技术降本增效

　　CPO(协同封装光子技术)提升数据中心应用中的光互连技术。CPO将光学器件和ASIC紧密结合在一起，通过 Co-packaging 的封装方式，大体积的可插拔模块被简单的光纤配线架所取代，因此前面板的物理拥塞得以缓解。而交换机和光学器件之间的电气通道大大缩短，因此CPO将增加带宽和缩小收发器尺寸，提升系统集成度，同时降低功耗和封装成本。

　　据lightcounting预测，数据中心将率先使用CPO封装技术。同时，随着AI集群和HPC的架构正在不断演进发展，可能会看到CPO部署在GPU、 TPU以及以太网、InfiniBand或NVLink交换机上，另外有许多基于FPGA的加速器也可能受益于CPO。预测在2027年，CPO端口将占总800G和 1.6T端口的近30%。据机构CIR预测，CPO市场规模将在2025年超过13亿美元，2027年达到27亿美元。

　　硅光芯片基于绝缘衬底上硅(Silicon-On-Insulator，SOI)平台，兼容互补金属氧化物半导体 (Complementary Metal OxideSemiconductor， CMOS) 微电子制备工艺，同时具备了 CMOS 技术超大规模逻辑、超高精度制造的特性和光子技术超高速率、超低功耗的优势。硅光芯片商业化至今较为成熟的领域为数据中心、通信基础设施等光连接领域。目前，硅光技术在第一代4x25G光模块中主要应用于500m内的100G QSFP28 PSM4;在第二代1x100G产品中，应用有100G QSFP28 DR1/FR1和LR1，作用于500m-10km场景中;在400G产品中，主要聚焦在2km以内的中短距离传输应用场景，产品有400G DR4。未来随着技术逐渐成熟，激光雷达、光子计算等领域的应用有望实现突破。

　　三、AIGC跨越数据鸿沟，合成数据与日精进

　　ChatGPT狂飙出圈，AIGC迎发展快车道

　　AIGC(人工智能生成内容) 的狭义概念是利用AI自动生成内容的生产方式。在AIGC场景下，人工智能可灵活运用于写作、编曲、绘画和视频制作等创意领域。初步估计，到2025年，人工智能生成数据占比将达到10%。根据《Generative AI：A Creative New World》的分析，AIGC有潜力产生数万亿美元的经济价值。 ChatGPT属于AIGC技术在自然语言对话场景的应用。ChatGPT的火速出圈，将AIGC推向新的高度。

　　AIGC提供数据燃料，驱动AI技术发展

　　AIGC正朝着效率和品质更高、成本更低的方向发展。根据ChatGPT能够快速、准确地生产聊天内容的表现，可大胆推测，未来AIGC技术将会把创造和知识工作的边际成本降至零，以产生巨大的劳动生产率和经济价值。数据是人工智能的燃料和驱动力，人工智能发展所需的海量数据也能通过 AIGC 技术生成、合成出来，即合成数据(synthetic data )。合成数据可以在数学上或统计学上反映真实世界数据的属性，因此可以作为真实世界数据的替代品，来训练、测试、验证 Al 模型。

　　跨越数据鸿沟，合成数据推进实现AI 2.0

　　合成数据将极大拓展人工智能发展应用的数据基础。 Forrester 将合成数据和强化学习、Transformer 网络、联邦学习、因果推理视为实现人工智能2.0 的五项关键技术进展，可以解决人工智能 1.0 所面临的一些限制和挑战，诸如数据、准确性、速度、安全性、可扩展性等。Gartner 预测称，到 2030 年合成数据将彻底取代真实数据成为 AI 模型所使用的数据的主要来源。

　　合成数据为数据要素创造增量，潜在商业价值待挖掘

　　根据 Cognilytica 的数据，合成数据市场规模在 2021 年大概是 1.1 亿美元，到2027 年将达到 11.5 亿美元。Grand View Research 预测，Al 训练数据市场规模到 2030 年将超过 86 亿美元。Gartner 预测，到 2024 年用于训练 Al 的数据中有 60% 将是合成数据，到2030 年 AI 模型使用的绝大部分数据将由人工智能合成。合成数据作为数据要素市场的新增量，在创造巨大商业价值的同时，也有望解决人工智能和数字经济的数据供给问题。