0°

OpenAI最新解密,ChatGPT的本质是无损压缩器

  自从去年12月ChatGPT问世以来,AI的发展正式进入快车道,整个行业开始“按日迭代”。从1957年以来,人类在经历了数轮AI浪潮后,这次通用人工智能(AGI)是真的要来了。

  我们团队在2月发表了对ChatGPT技术原理的深度剖析,得到了业内专家朋友们的广泛认可。但随着研究的深入,越来越多的问题浮出水面:

  ChatGPT强大的一个重要原因是大语言模型的涌现能力(Emergent Abilities),那么涌现能力究竟为何产生呢?

  GPT-5会有哪些意想不到的性能表现?

  AGI会走向何方,对社会经济活动又会产生怎样的影响?

  在这篇文章中,我们针对以上问题进行深入探讨,并且给出尽可能详实的分析过程。本文浓缩了我们团队的研究成果,共分为以下四个部分:

  大语言模型的本质:性能强大的无损压缩器

  视觉信息是知识的富矿:从文本走向多模态

  大数据时代的数据荒:运用合成数据破局

  AGI对人类社会经济活动影响:展望与思考

  写在前面:熵简科技是一家专注于帮助资管机构实现投研数字化的科技公司,主要客户包括中金、中信、广发、建投、国信、招商、华夏、嘉实、银华、博时、汇添富、兴全、易方达等证券与基金公司。我是熵简科技的创始人费斌杰,但在写下这篇文章的时候,我更多是纯粹作为一个在新技术浪潮下,既兴奋又紧张的见证者和参与者,尽可能客观地评述分析这项新技术对我们行业会带来怎样的影响与冲击。以下分享是我们熵简团队的研究成果,LLM技术发展日新月异,当前时点的分析难免错漏,欢迎各位指正。

  大语言模型的本质:性能强大的无损压缩器

  在最近OpenAI的学术分享会中,Jack Rae提出了一个重要的论断: 大语言模型的本质,其实是一个性能强大的数据无损压缩器。

  LLM = Compression

  这个论断并不是很直观,但却揭开了“通用人工智能”非常重要的一角,值得高度重视。为了让大家理解这个观点,我们从“学习”这件事本身来探讨。

  上个世纪以来,人类普遍认为“学习”是一种人类特有的才能,机器无法真正地掌握“学习能力”。随着深度神经网络技术的发展,人们通过构建“人工神经元”来模拟大脑中的“生物神经元”,从而使得机器开始具备一定的学习能力。

  图:生物神经元(左)与人工神经元(右)对比

  而现在,OpenAI得出了关于“学习”的最新结论: “学习”这件事本身,可以理解为对有效信息进行无损压缩的过程。

  为了更好地理解这个观点,让我们来做一个思想实验。 假设我们需要搭建一个模型,用来处理英译中的翻译任务。

  最简单粗暴的方式,就是列举出每个英文单词对应的中文,即rule-based mapping。假设我们枚举完了所有英文单词的中文对照表,写出了一本1000页的词典。

  但通过这本词典,我们真的能够有效完成所有英译中的翻译任务吗?答案是否定的。因为基于规则的映射系统是非常脆弱的,只要在翻译过程中遇到一个之前没有遇到过的新单词,系统就崩溃了。

  因此,这个模型的翻译性能是很弱的,可以理解为“该模型没有真正学会翻译”。

  重点来了,现在请你把这本1000页的词典,“无损压缩”成一本200页的手册。字数减少了,但是信息量不能少,因此你不能简单地从1000页中抽取200页构成一本“小词典”,而需要通过对数据进行高维编码,从而实现无损压缩。

  经过压缩后的这本200页的手册中,不再是简单的单词映射,而是包含了主谓宾、定状补、虚拟语气、时态、单复数在内的英语语法。相比于一本“词典”来说,它更像是一本“教材”。

  图:降低任务描述长度等价于增加对任务的理解

  注意,在这个压缩的过程中,“学习”作为一种隐式的过程,起到了知识编码的作用。通过把一本1000页的词典压缩成一本200页的手册,模型“学会”了英语语法,掌握了英译中的知识。 通过这个例子,不难发现:学习的本质,可以理解为对有效信息进行无损压缩的过程。压缩率越大,学习的效果就越好。

  根据OpenAI的最新观点,基于GPT的大语言模型的是 性能卓越的数据压缩器。语言模型的本质,是不断预测下一个词的概率分布,从而完成生成式任务。

  但是从“无损压缩”的角度来看,如果模型对下一个词的预测更加准确,就意味着其对知识的理解更深,从而获得对这个世界更高的分辨率。 随着模型规模的提升,基于信息熵计算出的压缩率也会逐渐提升,这就解释了为什么模型的性能会随着规模的增加而增加。

  而提升模型的压缩率并不只有 “增加规模”这一种方法,正如Jack Rae所言:Scaling is not all you need。更好的算法架构、基于Plugin的工具集成、合成数据的运用都能够有效提升模型的压缩率 ,从而实现模型性能的进一步提升。

  图:提升模型压缩率的几种方法

  视觉信息是知识的富矿:从文本走向多模态

  既然大语言模型发展的目标,是不断提升对有效信息的压缩率。那么自然地,如何获取尽可能多的有效信息,就成为了一个重要命题。

  人类是一种拥有语言能力的视觉动物,我们大脑皮层中约有三分之一的区域是用于视觉信息解析的。因此,视觉信息是人类知识的富矿。

  图:大脑皮层中的视觉信号中枢

  举个例子,我们都知道“太阳从东边升起,西边落下”,这是一个常识。但如果分析一下我们是如何学到这个知识的,我相信绝大多数人是通过眼睛亲眼看到的,而不仅仅是通过书本学习到的。

  推而广之, 视觉信息往往是人类知识的源头。由于人类具备语言和写作能力,人们会把通过视觉获取到的信息慢慢地转变为文本形态传播出来。

  因此,如果把人类已获得的全部知识看作一座冰山,那么以“文本”为载体的数据只是冰山一角,而以“图像”、“视频”为载体的数据才是人类知识真正的富矿。这也是OpenAI的GPT-5会基于海量互联网视频进行学习的原因。

  具体而言,如果给模型看大量的天文观测视频,模型有可能学习出一个隐式的开普勒定律;给模型看大量的带电粒子运动轨迹,模型可能会学习出洛伦兹力的数学表达;当然,我们也可以更大胆一些,如果给模型学习强子对撞机的海量实验数据,模型是否可以解开希格斯玻色子的秘密,从而解答物质的“质量”之谜,这一切都相当值得期待。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论