ChatGPT成长“蚕食”内容源，百年媒体巨头急得跳脚

　　继小说作家、画家等文艺界人士之后，新闻出版行业也有执牛耳者站出来尝试划清人类创作与AI的边界。

　　2023年12月最后一周，美国严肃新闻机构《纽约时报》将OpenAI和微软告上法庭，指控这两家公司在未经授权和付费的情况下，使用其数百万篇文章训练“ChatGPT”“Copilot”等生成式人工智能应用，甚至能在用户相应提示下逐字背诵其报道内容，并对其进行总结概括，还能进一步模仿《纽约时报》报道风格写作——所产生的虚假内容竟然还要被AI归咎于《纽约时报》。

　　而微软必应搜索的智能搜索功能，几乎一字不差地抄袭了《纽约时报》旗下专业测评推荐数码和家电类产品的“Wirecutter”的内容，但必应回答界面并没有为相关内容给出引用来源，也不包含原本附在产品推荐中的返利链接。

　　该报的诉讼书中称，这不仅影响了报纸的声誉，还对报纸线上内容访问量、订阅收入以及广告收入造成“价值数十亿美元的法定及实际损失”。因此，《纽约时报》要求OpenAI和微软停止使用其内容，销毁包含侵权材料的模型和训练数据。

　　创建于1851年的《纽约时报》是最早一批选择数字化转型的媒体之一。2008年后，在新媒体、网络广告蓬勃发展和金融危机余韵的夹击下，美国传统报纸广告收入2011年锐减19亿美元，创60年来历史新低，《纽约时报》也同样面临低谷。

　　穷则思变，《华尔街日报》《纽约时报》等媒体机构决定在保留纸媒出版发行的前提下，全面实施数字发行，并坚持引入线上付费墙，增加数字订阅和数字广告收入以维持生存。

　　《纽约时报》曾在关键时刻转型成功

　　凭借扎实的新闻报道内容，以及不断扩大的“订阅用户专享”数字化产品范畴，包括游戏内容、音频、专业测评推荐数码和家电类产品的“Wirecutter”网站等，《纽约时报》在用户留存率一路走高。根据纽约时报集团最新财报，其线上数字用户群已经增长到880万，线上订阅收入能占到其总营收的6成左右。

　　左右线上订阅收入规模的根本虽然在内容质量，但相应的，也离不开版权保护意识和用户付费习惯，而这正是AIGC应用产品所挑战的关键点。

　　不过，诉讼也并不是所有新闻网站的选择。美国政策新闻网站Politico 、财经新闻网站Business Insider以及世界三大通讯社之一的美联社均选择和OpenAI达成协议，允许OpenAI使用其全部或部分内容，而新闻网站将能利用其技术。《纽约时报》也曾尝试过与OpenAI和微软谈判，但在“为内容支付公平的价值”上并未达成共识，不过另外几家科技公司谷歌、Meta、苹果都已经答应这一条件，只是细则并没有公布。

　　AI成长需要蚕食优质内容

　　为什么众多AI多模态通用大模型都对优质内容趋之若鹜?我们可以把大模型看作小孩，用什么样的数据“喂养”“训练”就像其成长环境，最后的成品输出总会带有这部分影响。哪怕是用同一组数据训练，先用哪部分也会导致最后的结果也大不相同。

　　国内头部互联网企业都对AI投入颇多，不光在模型层竞争，在芯片层、框架层和应用层也不遑多让。但是推出的类似ChatGPT的产品，无论是在业内还是用户端评价，都和OpenAI有“一个档位的差距”。

　　这一方面是因为，OpenAI长期不愁生存，只需要集中力量投入到AI事业，所以早在2018年就已经推出第一代大语言模型GPT;另一方面就是数据质量的差别。

　　算法、算力和数据已经是AI大模型迭代公认的三大基础要素，但实际上，国内中文语料、图库都不完善，各家公司要自己投入人力去累积、沉淀、清洗，时间消耗太久。不愿意错过这一AI浪潮的企业大多选择直接用美国的数据集来训练AI，才会有各种乌龙事件发生。

　　据公开资料，GPT-3数据训练权重最高的数据集是Common Crawl，它是一个海量的、非结构化的、多语言的网页数据集，它包含了超过8年的网络爬虫数据集，几乎是所有大模型训练的必选项。

　　而在其中，至少有1600万条独特的内容记录来自《纽约时报》，是最具代表性的专有来源之一，贡献率仅次于维基百科和美国专利文献数据库。GPT使用的其他数据集也同样囊括了大量包括《纽约时报》在内的头部媒体、论坛所产出的内容。

　　Open AI的CEO萨姆·奥尔特曼(Sam Altman)在发布最新一代GPT-4 Turbo

　　利用媒体机构长期大投入所创作出的新闻内容，来生产替代该媒体的产品，且没有因此付费给任何一家媒体平台，这当然会引起行业内的不满与反击。据《纽约时报》透露，OpenAI的爬虫现在已被拒绝访问;英国新闻机构BBC也已经采取措施阻止Open AI和Common Crawl等网络爬虫访问其网站，以此阻止Open AI等大模型厂商自动收集BBC的新闻内容。

　　既然ChatGPT们没法选择自己的“成长环境”，很有可能也不知道自己在“剽窃”“说谎”，那么作为家长的大模型厂商们就应该为不公平竞争行为所破坏的行业生态负责。

　　结语

　　“作品在未经同意的情况下被拿去训练”已经成为AI时代最广泛、最具争议性的版权法律问题，而且在这背后还隐藏着各行各业隐私、数据大规模泄露的风险，甚至在部分创作者眼里，Open AI已经是一个“大规模、系统性盗窃的商业组织”。

　　从作家、编程工程师到艺术家，再到编剧群体，几乎所有原创内容生产者都意识到了AI的冲击力，并以不同方式抓紧争取更具倾斜性的保护政策，以保证自己的权益。

　　如今，随着GPT从开源走向闭源、Open AI等厂商加快商业生态的搭建，各个垂直行业的AI产品也不会停下脚步。在AI深度改造行业之前，媒体平台也必须学会如何在博弈中寻找与AI的共存之道。