3 月 9 日,微软德国 CTO Andreas Braun 在一场名为 “AI in Focus - Digital Kickoff” 的活动中表示,GPT-4 将在下周发布,将提供多模态模型。自 3 月初发布 Kosmos-1 以来,微软正在与 OpenAI 微调多模态这一事实应该不再是一个秘密。
Braun 表示,下周将推出 GPT-4,该模型将是多模态的,能够处理视频等不同形式的数据。作为游戏规则的改变者,大型语言模型已经能够通过统计学方式理解以前只能由人类阅读和理解的内容,其技术已经发展到了基本上适用于所有语言的程度。通过多模态技术,微软/OpenAI 将使模型变得更加全面。
OpenAI 之前推出的 DALL-E 2 和 CLIP 是多模态技术的一个很好的尝试。未来,GPT-4 的多模态能力将会带来更具颠覆性的影响。
微软最近也在多模态方向上频繁动作,推出了全能型人工智能模型 Kosmos-1,相较于 ChatGPT 等只能处理文本内容的大型语言模型,Kosmos-1 属于多模态大型语言模型,可以同时理解文字和图像内容,并且未来还会整合更多的输入模式,如音频和视频。
除此之外,微软还在 3 月 8 日提出了 Visual ChatGPT,该模型包含不同的视觉基础模型,用户可以通过发送和接收语言和图像,提供复杂的视觉问题或编辑指令,并提供反馈和要求纠正结果来与 ChatGPT 进行互动,这需要多个人工智能模型的协作和多个步骤。