Sora 与 ChatGPT — 主要区别是什么?

在Sora于X平台上完成其激动人心的初次亮相之后,我们将依据当前信息,对OpenAI两大旗舰项目——Sora与ChatGPT进行一番比较与对照。OpenAI近期才开始涉足视频制作领域,其最新的突破性生成式人工智能项目是一款文本转视频工具,旨在与Google Lumiere及Stable Video Diffusion等业界翘楚展开竞争。2024年2月15日,OpenAI宣布推出Sora,这一基于文本提示生成视频的模型初露锋芒,其成果几乎令人叹为观止。
那么,Sora与OpenAI旗下最具影响力的AI聊天机器人ChatGPT相比,又当如何呢?在剖析Sora与ChatGPT的特性与功能之际,让我们一同探寻这两个OpenAI模型间的主要相似点与差异所在。
Sora与ChatGPT功能概览
简而言之,Sora是文本到视频转换模型的一个典范。用户只需输入文本提示,Sora便能依据描述生成长达一分钟的高保真视频。相较于其他视频生成模型(例如Runway AI),Sora凭借其惊人的超现实主义创作能力脱颖而出。此外,它对语言的深刻理解使其能够创造出情感更为真实的角色。据OpenAI所言,Sora能够“生成包含多个角色、特定类型动作以及主体与背景精细细节的复杂场景”。鉴于Sora尚未正式推出,其可能具备的其他附加功能与细节尚不明朗。
ChatGPT则是更为人熟知的模型,自2022年11月面世以来,便广受欢迎,以至于如今已成为人们提及“人工智能”时的主要联想之一。作为基于强大的GPT-4引擎构建的大型语言模型聊天机器人,ChatGPT的主要功能是依据用户的文本提示实时生成近似人类的回应。它利用自然语言处理进行对话、撰写文章与食谱,以及编写和解读多种编程语言。近期,ChatGPT还内置了由DALL-E 3支持的文本到图像生成器,意味着它现在还能根据文本提示创作图像。若您对此感兴趣,我们已在此深入阐述如何使用ChatGPT。
Sora与ChatGPT的异同
就目前OpenAI所展示的情况来看,Sora与ChatGPT的用途截然不同。前者用于创建视频媒体内容,后者则是一个功能强大的全能聊天机器人,能够撰写论文、编写代码,如今还能生成图像。作为同一家公司的两款对立模型,Sora与ChatGPT并非为竞争而生,而是相辅相成,助力OpenAI在人工智能领域保持领先地位。然而,同样值得注意的是,Sora的诸多功能可能尚未向公众披露,因此大多未经证实。我们目前所拥有的,仅是一个预示该软件风采的精选预览。
功能对比表
特征 | OpenAI Sora | ChatGPT |
---|---|---|
视频中的文字提示 | 是 | 否 |
高分辨率视频 | 是 | 否 |
文本转图像 | 是 | 是 |
为现有图像制作动画 | 是 | 否 |
聊天机器人 | 否 | 是 |
类似人类的对话 | 待定 | 是 |
模型建立于 | Sora专属模型 | GPT-4 |
创建者 | OpenAI | OpenAI |
OpenAI Sora与ChatGPT的工作原理
谈及这些技术的工作原理,Sora AI拥有专属模型,但OpenAI目前仅分享了寥寥数语。在技术报告中,Sora被描述为“视觉数据的通用模型”的扩散变压器,已在可变时长、分辨率与长宽比的图像上进行了广泛训练。Sora未采用大型语言模型(LLM)使用的“文本标记”,而是使用由压缩视频输入创建的视觉“补丁”。与ChatGPT类似,随着Sora的训练与输出的不断创造,它将愈发知识渊博、高效,并在其领域内愈发出色。
另一方面,ChatGPT则基于GPT-4构建;GPT-4是一个大型语言模型,已在海量的互联网文本数据上进行了训练。当接收到文本提示时,ChatGPT会通过分析输入、预测该输入可能产生的文本,并从其语言模型中进行采样来生成回应,从而生成连贯且相关的输出。随着它与更多用户交互并收到对其回应的反馈,系统会持续更新与改进其算法——这种技术称为自监督学习。
Sora是否优于ChatGPT?
我们尚未真正体验过Sora,但依据初步印象,它无疑比ChatGPT更为绚丽夺目。它有望成为生成式人工智能视频行业的又一重要力量,如今OpenAI已对其表现出浓厚兴趣,它很可能会一飞冲天。然而,尽管它初具惊艳之处,但目前尚不清楚它是否能像ChatGPT那样在主流媒体使用中广受欢迎或实用。从本质上讲,这是两款截然不同的模型,拥有截然不同的用例,但我们将满怀期待地静候Sora的公开发布,看看它与ChatGPT相比,具备哪些功能。