01 Open AI与ChatGPT
OpenAI成立于2015年,是由美国著名创业孵化器Y Combinator的总裁Sam Altman和特斯拉的CEO马斯克(Elon Musk)发起的让全人类受益的非盈利组织。OpenAI承诺开源所有技术,鼓励研究人员公开发表工作成果,将专利(如果有的话)与全世界共享[1],避免使用危害人类或过度集中权力的AI或AGI(通用人工智能)[2]。2018年,因公司经营理念问题,马斯克与OpenAI分道扬镳。在研发AI模型的过程中,OpenAI面临越来越大的经济压力,最后不得不在2019年转变为盈利性公司,之后获得了微软10亿美元的投资。2022年1月,路透社援引的Semafor报告称,微软正考虑投资100亿美金给OpenAI(总估值290亿美金)[3]。
ChatGPT是OpenAI于2022年11月推出的人工智能聊天机器人程序,该程序是在GPT-3.5(一种自然语言预训练大模型)基础内核上使用监督学习和强化学习进行训练所得到的模型。在监督学习过程中,ChatGPT收集了全新的人类对话语料,并将其与GPT-3.5的监督学习语料合并。在强化学习过程中,ChatGPT首先训练了一个得分模型来对模型输出进行排序,然后用该得分模型来对生成模型输出进行反馈,并优化该生成模型。最终由强化学习得到的模型即为ChatGPT。ChatGPT以文字方式互动,可以实现与人类对话交互,还可以实现文本生成、自动问答、自动摘要等在内的多种任务。
ChatGPT的成功来源于更早期发布的GPT-3模型以及对RLHF的优化。GPT是Generative Pre-trained Transformer(生成型预训练变换模型)的缩写。它是基于Transformer架构(2017年由谷歌提出),GPT的主要优势在于它可以通过预训练大量语料数据来获得对语言任务的预测能力,而不需要大量的人工标注数据。它具有良好的语言生成能力,可以生成文本、回答问题、对话等多项语言任务。RLHF(Reinforcement Learning from Human Feedback人类反馈强化学习)[4][5]是一项涉及多个模型和不同训练阶段的复杂概念,包括以下三个步骤:预训练一个语言模型(LM);聚合问答数据并训练一个奖励模型(Reward Model,RM);用强化学习(RL)方式微调LM。
2023年3月15日,多模态预训练大模型GPT-4[6]正式发布,能够处理文本、图像两种模态以及25000个单词的超长文本输入,并通过文本输出。GPT-4能够很好的支持图像输入,能够理解图片中的幽默之处,并且具备理解长上下文的能力,在各种专业和学术基准测试上表现出人类水平,包括通过模拟律师考试,分数约为全体考生的前10%。相对于以前的GPT-3.5模型,GPT-4明显减少了“幻觉”,在团队内部对抗性设计的事实性评估中,GPT-4的得分比GPT-3.5高19个百分点。但是,考虑到GPT-4这样的大模型的竞争格局和安全影响,OpenAI并未公开有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的更多详细信息。目前,ChatGPTPlus版本已经使用GPT-4模型。
智谱AI团队研究发布的《ChatGPT团队背景研究报告》[7]称,2023年2月,ChatGPT团队规模不足百人(共87人)。分析发现,其显著特征是“年纪很轻”、“背景豪华”、“聚焦技术”、“积累深厚”、“崇尚创业”和“华人抢眼”。该团队平均年龄为32岁,“90后”是主力军。他们引领的这一波大型语言模型技术风潮,充分说明了那些经常被认为研发经验不足的年轻人,完全有可能在前沿科技领域取得重大突破。团队成员绝大多数拥有名校学历,且具有全球知名企业工作经历。华人学者欧阳龙参与了与ChatGPT相关的7大技术项目中的4大项目的研发,他是InstructGPT论文的第一作者,是RLHF论文的第二作者,可见他是这两个关键技术项目的核心人员。
02 专利视角下的ChatGPT相关技术创新路径
1)OpenAI专利分析
在世界著名的DWPI摘要数据库中,以申请人(OpenAI)、发明人(InstructGPT、GPT-3等技术对应论文作者)、结合“NLP”、“语言”、“训练”等关键词进行检索,发现OpenAI公司作为权利人的专利数量为零,同时采用多种商业数据库进行搜寻,均未发现OpenAI名下任何专利。
分析其原因,OpenAI在成立之初作为非盈利组织,期望开源所有技术,专利制度作为公开换保护的一种方式,申请专利对于非盈利组织不是必须的,而OpenAI转变为盈利性公司后,考虑到ChatGPT、GPT-3、GPT-4属于黑盒模型,且模型的训练花费庞大,开发和部署都很复杂,对于其他公司或科研院所而言很难复现,不通过专利也能实现技术保护,通过商用API(Application Programming Interface,应用程序编程接口)等方式即可获利,另一方面,对于训练语料获取、模型算法而言,可能会涉及专利不授权客体问题,不能进行专利保护,而即使不涉及客体问题的,由于训练等步骤的不可见性,在专利授权后也很难进行维权,因此OpenAI公司有可能通过商业秘密进行技术保护。
根据OpenAI官网公开的ChatGPT技术原理图分析得知,ChatGPT的训练过程分为以下三个阶段[8]:
图1 ChatGPT技术原理图
第一阶段:训练监督策略模型。首先会在数据集中随机抽取问题,由标注人员给出高质量答案,然后用人工标注好的数据来微调GPT-3.5模型,获得SFT(Supervised Fine-Tuning)模型。
第二阶段:训练奖励模型(Reward Model,RM)。在数据集中随机抽取问题,使用第一阶段生成的模型生成多个不同的回答。标注人员对输出进行打分排序,使用排序结果数据来训练奖励模型。
第三阶段:采用强化学习中的PPO(Proximal Policy Optimization,近端策略优化)[9]来优化策略。首先使用第一阶段中的初始权重构造一个初始的PPO模型。针对在数据集中采样的新的问题,使用PPO模型生成回答,并用第二阶段训练好的RM模型给出回报分数。PPO策略可以会通过回报分数计算出策略梯度,并更新PPO模型参数。
2)国外主要申请人专利分析
随着2017年谷歌Transformer模型的提出,预训练语言模型开始显著发展,因此本文关于预训练语言模型技术的检索主要针对2017年之后申请的专利。在DWPI摘要数据库中,针对关键词“language model”、“train”、“fine-tune”进行简单检索,共有2600多篇专利文献。检索结果仅针对专利摘要进行检索,且为专利同族合并后的结果。
图2 预训练语言模型技术申请人来源国家
在预训练语言模型领域,中国企业发展迅速。百度、阿里、腾讯、华为都是主要申请人,且均在海外展开布局,国外申请人主要集中在微软、谷歌和三星。但是还应注意到,国外一些公司针对神经网络、编解码器结构改进的专利技术方案,在摘要中并没有提到语言模型,但是神经网络等是可以应用到语言模型中的,因此实际上关于预训练语言模型技术的申请量会更多。
为了更全面地了解国外申请人在中国的布局情况,针对全文数据再次检索,并统计合并同族的结果。
图4 谷歌部分专利
基于BERT模型,微软于2020年提出了DeBerta模型,并提交申请相关美国专利“具有解开注意力和多步解码的高效变压器语言模型”(US2021334475A1),利用多步解码来更好地重建掩蔽标记并改善预训练收敛来促进预训练的自然语言模型的自训练。2021年提出的LORA模型主要涉及神经网络模型的低秩自适应,冻结了预训练的模型权重(相关美国专利US2022383126A1)。此外,微软也在下游任务进行专利布局,例如其申请的PCT国际专利申请WO2022221045A1涉及多任务模型,包括例如共享编码器、多个任务特定编码器和用于多个任务的多个任务特定线性层等。
在Patentics的英文全文库中以“DeepMind”(DeepMind为Google旗下前沿人工智能企业)作为申请人,language model作为关键词进行检索,检索结果为27篇。DeepMind侧重于对神经网络的改进。中国专利“针对使用对抗训练的表示学习的推理的大规模生成神经网络模型”(CN113795851A),训练可以是基于损失函数,该损失函数包括基于由鉴别器神经网络处理的输入对的样本部分和潜在部分的联合鉴别器损失项和仅仅基于输入对的样本部分或潜在部分中的一个部分的至少一个单一鉴别器损失项,该专利在中美等国均有布局,根据英文库中检索得到的专利查找其中文同族,可以确定DeepMind在中国申请使用渊慧科技有限公司名称。
图7 人工智能大模型技术中国专利主要申请人[11]
图8 语言大模型技术中国申请人在美国的申请量
1)国内语言模型相关专利
2019年3月,百度提出文心大模型ERNIE,随后百度在知识图谱、语言理解与生成技术、以及机器翻译、对话系统、摘要生成、长文本语义、文本纠错等领域都进行布局。其中知识图谱包括实体知识图谱、行业知识图谱、事件图谱、关注点图谱以及多模态图谱。
华为与清华大学、哈尔滨工业大学、中国人民大学等高校均有合作,语言模型包括自回归模型,并在模型训练方法、量子电路进行模型复数运算、降低训练PLM所需资源、文本向量等方向进行专利布局。
图9给出了国内语言模型相关专利发展情况。其中,中国专利CN110717339A通过构建词语片段、句子以及文章三个不同层级的无监督或弱监督预训练任务,使得语义表示模型可以从海量数据中学习到词语片段、句子以及文章不同层次的知识,增强了通用语义表示的能力,提升NLP任务的处理效果,百度公司的这项专利还获得了第二十三届2022中国专利奖优秀奖。
图9 国内语言模型相关专利发展情况
针对多模态模型,百度的中国专利CN115374798A提出将跨语言预训练目标和跨模态预训练目标无缝地组合在统一的框架中,从可用的英文图像字幕数据、单语语料库和平行语料库在联合嵌入空间中学习图像和文本。华为的中国专利CN115688937A将不同模态的数据的特征表示映射到同一个离散空间中,可以基于该离散空间对多模态的特征表示进行建模,得到兼容多模态输入数据的模型。
2)国内人机交互应用相关专利
而针对类似于ChatGPT的人机交互应用,国内申请人也有相应的专利布局,但未进行海外布局。
表1 国内主要公司的技术布局情况
图10 ChatGPT-3.5聊天截图
鉴于微软将GPT-4整合进NewBing中,笔者通过NewBing的聊天功能搜索美国专利US2021334475A1。虽然它能够完整的给出所有信息,但是除了发明名称是正确的,申请日、公开日、申请人、发明人信息都是错误的(见图11)。就此次结果而言,New Bing更倾向于在搜索的基础上对信息作出完整的补充,并不能保证真实性。
研究所简介
国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。
地址:北京市海淀区小南庄20号楼A座
电话:010-82635522
微信:iite_er
相关文章
猜你喜欢