ChatGPT专题报告：GPT，大模型多模态应用展望

　　1. ChatGPT通过大模型突破AI瓶颈，GPT-4多模态应用带动商业化加速

　　概述：ChatGPT为NLP下的AI大模型，性能和使用体验超预期

　　ChatGPT是自然语言处理(NLP)下的AI大模型，通过大算力、大规模训练数据突破AI瓶颈。2022年11月，OpenAI推出ChatGPT，ChatGPT基于GPT-3.5，使用人类反馈强化学习技术，将人类偏好作为奖励信号并微调模型，实现有逻辑的对话能力。

　　ChatGPT本质上是通过超大的统计语言模型，对词语序列的概率分布进行建模，利用上下文信息预测后续词语出现的概率分布，其表现的超预期反映了在算力水平提升的情况下大语言模型技术路线的成功，通过对大规模的未标注的文本数据进行训练，突破了AI发展的技术瓶颈。根据《瞭望》新闻周刊报道，OpenAI为了让ChatGPT的语言合成结果更自然流畅，使用了45TB的数据、近1万亿个单词来训练模型，训练一次的成本高达千万美元，一个月的运营成本需要数百万美元。

　　概述：OpenAI倾力打造ChatGPT，获得微软有力加持

　　ChatGPT出自美国AI创业公司OpenAI，是AI大模型领域的领军者。OpenAI在2015年由Sam Altman、Peter Thiel、Reid Hoffman、Elon Musk等人创办。公司成立之初，即确定了包括制造“通用”机器人和使用自然语言的聊天机器人的发展目标。2019年，OpenAI获得来自微软的10亿美元投资，为Azure云端平台服务开发AI技术。2018年起，OpenAI开始发布 GPT(Generative Pre-trained Transformer)模型，2020年发布GPT-3，可以完成答题、写论文、代码生成等任务，被视为人工智能竞赛的里程碑事件，并直至ChatGPT的推出引起AI的热潮。

　　除了NLP领域，OpenAI还在多模态领域取得成就，包括发布了AI图像生成器DALL-E2，对音频转录编辑器Descript、AI笔记应用Mem等进行投资。

　　演变：GPT-1—无监督预训练+有监督微调

　　GPT-1发布于2018年6月，参数量达1.17亿，预训练数据量约5GB。GPT-1包含预训练和微调两个阶段，考虑到自然语言处理任务中有标签的语料少，GPT-1先在大量的无标签数据上训练语言模型，然后在下游具体任务(如分类、常识推理、自然语言推理等)的有标签数据集上进行微调。1)在无监督训练中，GPT-1采用Transformer的架构，即标准的语言模型的目标函数，通过前面的词预测后面的词;2)在有监督训练中，采用标准的分类目标函数，仅需对第一阶段预训练的语言模型做出很小的结构改变，即可应用于各种下游任务。

　　GPT-1使用了BooksCorpus数据集来训练语言模型，其中有7000余本未出版的书籍。具体表现上，在有监督学习的12项任务中，GPT-1在其中9项上的表现优于专门训练的受监督模型。

　　演变：GPT-2—无监督预训练+多任务学习

　　GPT-2发布于2019年2月，参数量达15亿，预训练数据量约40GB。GPT-1使用的概率条件模型为p(output|input)，GPT-2 使用相同的无监督模型学习多个任务，将概率条件模型修改为p(output|input, task) ，期望模型对不同任务的相同输入产生不同的输出。此外，GPT-2采取Zero-shot设定，不需要下游任务的标注信息，而是根据给定的指令理解任务。因此 GPT-2的核心思想在于多任务学习。

　　GPT-2训练的数据集来自社交新闻平台Reddit，共有约800万篇文章，体积超40GB。具体表现上，在8个语言模型任务中，仅通过Zero-Shot学习，GPT-2在其中7个上领先。GPT-2表明，随着模型容量和数据量增大，GPT模型的潜力仍有望进一步显现。

　　展望：GPT-4—此前外界预期参数量变化不大、使用门槛有望降低

　　GPT-4备受业界期待，训练成本控制有望带动商业潜力的极大增强。ChatGPT的突出表现使得外界对GPT-4十分期待，自2021年以来便有报道称GPT-4“即将推出” ，OpenAI公司CEO Sam Altman今年受StrictlyVC采访时表示GPT-4将在 “有信心可以安全且负责任地运行时”推出。外界此前也曾预期，GPT-4的推出或分阶段进行，例如GPT-3也是先开放给合作伙伴、付费用户和学术机构，才在2022年底开放给公众。

　　在参数量上，针对有传言称GPT-4参数量将达到百万亿，OpenAI公司CEO Sam Altman予以否定。此外，AI专家Alberto Romero预测，GPT-4的重点在数据处理优化上，因此其使用门槛有望降低，我们预计训练成本的控制将带动其商业潜力的增强。

　　展望：GPT-4—最新消息称推出在即、支持多模态

　　最新消息称GPT-4将于下周推出，支持多模态应用，开启通往人工通用智能之路。根据德国科技媒体“heise在线”报道，当地时间3月9日，微软德国公司首席技术官Andreas Braun在名为“AI in Focus – Digital Kickoff”的活动中透露称 “将在下周推出GPT-4，它将是一个多模态模型，会提供完全不同的可能性——例如视频”。这意味着GPT-4可以管理不同语言数据的输入和输出，也能够做到输出图像甚至视频。在活动上，微软AI技术专家对多模态AI的应用案例进行了介绍，例如能够将电话呼叫的语音直接记录成文本，这为微软位于荷兰的一家大型客户节省500个工作小时/天。

　　GPT-4对多模态的支持使得外界对模型潜力的预期进一步强化，原因在于多模态感知是建立人工通用智能(AGI)的重要一步，基于此能够执行人类水平的一般任务。

　　商业模式：C端推出订阅制会员，B端提供调用API接口

　　ChatGPT迅速走红，以订阅制服务B端、C端客户，成本控制下将有效加速商业化落地。ChatGPT自年初以来，持续出圈，截至2023年1月末月活突破1亿，成为史上增长最快的消费者应用。考虑到计算资源所牵涉的庞大训练成本、运行成本，ChatGPT的商业化路径已正在探索、明确中。

　　商业模式—1)C端：OpenAI发布ChatGPT Plus订阅计划，每月收费20美元，相较于免费版本，即便在高峰时段用户也能正常访问ChatGPT，响应时间更快，可以优先使用新功能，有望引领AI技术变现新模式;2)B端：OpenAI发布 ChatGPT API，开发者可以将ChatGPT集成到产品中，价格为$0.002/1k token，相较于GPT-3.5降低90%，我们预计成本控制后有望快速带动GPT相关应用爆发。根据微信公众号“智东西” ，生鲜电商Instacart、跨境电商Shopify、照片分享应用Snap、单词背诵应用Quizlet等已率先接入ChatGPT API。

　　2.Transformer架构支撑GPT走向多模态，构筑AIGC领域核心基石

　　GPT采用的Transformer架构在NLP领域已跻身主流

　　GPT沿用主流Transformer模型，该模型采用自注意力机制，在NLP上表现优于RNN(循环神经网络)。2017年，谷歌在《Attention is All You Need》中提出Transformer模型，可用于文本摘要、机器翻译等NLP任务。在NLP方面， Transformer模型的自注意力(self-attention)机制可以为输入序列中的任意位置提供上下文，进而模型能够一次性处理所有输入数据，而非RNN一次只处理一个单词的情况，由此模型可以减少训练时间，能够在更大的数据集上进行训练。目前，基于Transformer的预训练语言模型已成为NLP领域的主流。

　　Transformer也可用于CV领域，相较于CNN实现性能巨大提升

　　Transformer也可用于CV(计算机视觉)领域，表现出巨大的性能提升。CV领域此前更多由CNN(卷积神经网络)主导，而Transformer凭借着自注意力机制，表现出了巨大的性能提升。根据微软亚洲研究院，Transformer在图像分类、物体检测等任务中刷新了测评记录，例如2020年Transformer被首次应用于图像分类任务，结合海量的预训练数据，ViT在 ImageNet-1K的validation评测集上取得88.55%的准确率。Transformer也在视频动作识别、视觉自监督学习、图像复原、图像分割等视觉任务中取得优异成绩。谷歌提出的ViT-MoE模型目前在参数量上领先，达到了150亿。

　　Transformer支撑下GPT有望走向多模态，构筑AIGC领域核心基石

　　GPT有望基于Transformer延伸至多模态，构筑AIGC核心基石，GPT-4或实现领跑。当前，基于Transformer的多模态学习成为AI领域的研究热点，研究者们提出了大量的Transformer变体。鉴于Transformer具有较少的特定于模态的架构假设，以及生成式预训练、大模型&大数据路线的成功，Transformer能够联动CV与NLP，通过联合建模完成，打破CV与 NLP领域之间的壁垒。微软亚洲研究院2022年推出BEiT-3预训练模型，在目标检测、实例分割、语义分割、视觉推理、图片描述生成等任务上取得了SOTA的迁移性能。我们认为，基于Transformer架构，GPT未来有望延伸至多模态，助力内容创作由UGC、PGC全面走向AIGC，赋能通用领域以及金融、教育、医疗、传媒等垂直行业。

　　3.通用与垂直场景多点开花，GPT变革内容生成与交互方式

　　通用场景：搜索引擎—GPT+文本&图像&视频重塑搜索结果呈现方式

　　搜索引擎接入GPT后结果呈现方式大为变化，或影响行业盈利模式与竞争格局。用户使用传统的搜索引擎时，需要手动翻阅搜索结果，判断是否为所需要的信息;而当搜索引擎接入GPT后，用户可直接获得答案集合。尽管受制于训练语料、成本等因素，答案准确性有待商榷，但在结果呈现方式上实现了变革，未来或与传统的搜索引擎相结合。如进一步实现多模态，搜索结果将更加丰富。微软在Bing中上线ChatGPT能力并开启测试，以聊天方式展示搜索结果，并可在对话中推荐广告。微软必应官方博客宣布，目前Bing日活突破1亿，集成搜索+聊天功能的Bing预览版自推出以来总聊天次数已超过4500万次。鉴于微软可能掀起搜索行业的第二次变革并颠覆此前的盈利模式，谷歌在2月初展示由大型语言模型LaMDA 驱动的类ChatGPT应用——Bard，并计划大范围推广。

　　通用场景：办公软件—GPT+文本&图像打造效率型生产力工具

　　GPT有望融入办公流程，率先推动办公软件转型为智能办公平台。微软将于3月16日召开名为“Future of Work with AI” 的发布会，预计将展示ChatGPT类技术在Teams、Word、Outlook等生产力套件中的应用。我们认为，在GPT的赋能之下，办公软件作为效率型生产力工具的属性将更加突出，功能上将更加智能化，用户有望享受到智能办公平台所带来的便利性与效率大幅提升。例如，在Word中，GPT将能够帮助用户生成文本，或将文档集汇总为关键点，使得用户快速理解和分析信息;在Outlook中，GPT可以处理收件箱文本，帮助用户更快捷地撰写或回复电子邮件;在Excel中，能够根据提示提取数据，如要求“按照利润列出世界前五大公司”后，生成Excel公式或制作可视化图表。

　　垂直场景：教育—GPT+文本&对话&翻译催化启发式、个性化教学

　　GPT有望催化“启发式”教学模式，加快教育领域的个性化、多样化变革探索。ChatGPT可以理解为一名“全能教师” ，即便是小众、冷门的领域，也能够给出相对有逻辑的回答。我们认为，GPT技术将催化“启发式”教学模式，引导学生更加积极主动地进行思考、发问，并与“全能教师”进行对话探讨，这有别于传统的应试教学模式。

　　垂直场景：金融—GPT+文本&对话赋能客户服务、投研支持

　　GPT有望对金融行业的经营、管理、产品营销及客户服务等方面产生巨大影响。近年来，金融机构在合规趋严、人力成本上升等因素的影响下，对于数字化建设的意愿强烈。考虑到ChatGPT在内容生成等方面的突出表现，我们认为，GPT 有望率先落地对外的客户服务与对内的投研支持。以银行业为例，电子客服仍处于AB判断阶段，引入GPT将更好地服务于客户需求;在证券、基金业，个人投资者存在的大量疑惑将可通过GPT解决，机构投资者在投研中也将获得来自GPT 的协作。GPT有望重构金融行业客户服务端，也有望进一步增强机构内部的投研能力，助力经营效率提升与成本优化。

　　垂直场景：医疗—医疗信息化厂商卡位核心系统，助力构建GPT能力

　　医疗信息化公司作为医疗机构信息化底座提供者，有望助力构建GPT能力。根据复旦大学附属华山医院信息中心主任黄虹在接受第一财经采访时透露的情况，医院内部落地GPT的场景包括：就医导诊，以提升医疗效率;构建内部知识库，以提升临床研究效率;汇集历史病历，辅助医生提升电子病历书写效率。考虑到医院本身在信息化能力上的相对薄弱，我们认为以创业慧康、卫宁健康、医渡等为代表的医疗信息化公司作为医院内部系统的供应商，有望帮助医院构建GPT能力。

　　互联网医疗平台卡位线上问诊，GPT有望助力问诊效率大幅提升。2020年疫情爆发以来，互联网医院凭借着突破时空限制、免接触等优势，迎来快速发展。平安好医生、阿里健康、京东健康等平台搭建了轻问诊模式，主要通过自有医生、外部签约医生提供问诊服务。我们认为，GPT可以用于在线问诊支持，为用户提供基本的、常规化的问诊服务。这将助力互联网医疗平台实现问诊效率的大幅提升，问诊服务的供给能力将不再受制于链接的医生数量。

　　垂直场景：图像视频—GPT+图像&视频强化内容智能化生产与处理

　　GPT有望改变图像视频领域内容生产模式，多模态提高信息输出丰富度。图像视频行业新老业态交织，构成相对多元，以生产和传播文字、图像、艺术、影像、声音等形式存在，包括报纸、图书、广播、电影、电视、动漫等诸多细分领域。从产业链条来看，图像视频行业主要涉及信息采集、制作、分发、传播等，我们认为GPT将主要影响产业链前端的采集、制作。结合中国信通院《AIGC白皮书》，我们预计在GPT赋能之下，特别是对多模态的延伸，图像视频行业有望进一步提高写稿机器人、采访助手、视频智能剪辑、合成主播等新兴应用的供给能力，既改变内容生产模式，也满足信息接收者对丰富内容的需求。