Sora 与 ChatGPT — 主要区别是什么？

kaizi 12 月 09, 2024 3K+ 0

在Sora于X平台上完成其激动人心的初次亮相之后，我们将依据当前信息，对OpenAI两大旗舰项目——Sora与ChatGPT进行一番比较与对照。OpenAI近期才开始涉足视频制作领域，其最新的突破性生成式人工智能项目是一款文本转视频工具，旨在与Google Lumiere及Stable Video Diffusion等业界翘楚展开竞争。2024年2月15日，OpenAI宣布推出Sora，这一基于文本提示生成视频的模型初露锋芒，其成果几乎令人叹为观止。

那么，Sora与OpenAI旗下最具影响力的AI聊天机器人ChatGPT相比，又当如何呢？在剖析Sora与ChatGPT的特性与功能之际，让我们一同探寻这两个OpenAI模型间的主要相似点与差异所在。

Sora与ChatGPT功能概览

简而言之，Sora是文本到视频转换模型的一个典范。用户只需输入文本提示，Sora便能依据描述生成长达一分钟的高保真视频。相较于其他视频生成模型（例如Runway AI），Sora凭借其惊人的超现实主义创作能力脱颖而出。此外，它对语言的深刻理解使其能够创造出情感更为真实的角色。据OpenAI所言，Sora能够“生成包含多个角色、特定类型动作以及主体与背景精细细节的复杂场景”。鉴于Sora尚未正式推出，其可能具备的其他附加功能与细节尚不明朗。

ChatGPT则是更为人熟知的模型，自2022年11月面世以来，便广受欢迎，以至于如今已成为人们提及“人工智能”时的主要联想之一。作为基于强大的GPT-4引擎构建的大型语言模型聊天机器人，ChatGPT的主要功能是依据用户的文本提示实时生成近似人类的回应。它利用自然语言处理进行对话、撰写文章与食谱，以及编写和解读多种编程语言。近期，ChatGPT还内置了由DALL-E 3支持的文本到图像生成器，意味着它现在还能根据文本提示创作图像。若您对此感兴趣，我们已在此深入阐述如何使用ChatGPT。

Sora与ChatGPT的异同

就目前OpenAI所展示的情况来看，Sora与ChatGPT的用途截然不同。前者用于创建视频媒体内容，后者则是一个功能强大的全能聊天机器人，能够撰写论文、编写代码，如今还能生成图像。作为同一家公司的两款对立模型，Sora与ChatGPT并非为竞争而生，而是相辅相成，助力OpenAI在人工智能领域保持领先地位。然而，同样值得注意的是，Sora的诸多功能可能尚未向公众披露，因此大多未经证实。我们目前所拥有的，仅是一个预示该软件风采的精选预览。

功能对比表

特征	OpenAI Sora	ChatGPT
视频中的文字提示	是	否
高分辨率视频	是	否
文本转图像	是	是
为现有图像制作动画	是	否
聊天机器人	否	是
类似人类的对话	待定	是
模型建立于	Sora专属模型	GPT-4
创建者	OpenAI	OpenAI

OpenAI Sora与ChatGPT的工作原理

谈及这些技术的工作原理，Sora AI拥有专属模型，但OpenAI目前仅分享了寥寥数语。在技术报告中，Sora被描述为“视觉数据的通用模型”的扩散变压器，已在可变时长、分辨率与长宽比的图像上进行了广泛训练。Sora未采用大型语言模型（LLM）使用的“文本标记”，而是使用由压缩视频输入创建的视觉“补丁”。与ChatGPT类似，随着Sora的训练与输出的不断创造，它将愈发知识渊博、高效，并在其领域内愈发出色。

另一方面，ChatGPT则基于GPT-4构建；GPT-4是一个大型语言模型，已在海量的互联网文本数据上进行了训练。当接收到文本提示时，ChatGPT会通过分析输入、预测该输入可能产生的文本，并从其语言模型中进行采样来生成回应，从而生成连贯且相关的输出。随着它与更多用户交互并收到对其回应的反馈，系统会持续更新与改进其算法——这种技术称为自监督学习。

Sora是否优于ChatGPT？

我们尚未真正体验过Sora，但依据初步印象，它无疑比ChatGPT更为绚丽夺目。它有望成为生成式人工智能视频行业的又一重要力量，如今OpenAI已对其表现出浓厚兴趣，它很可能会一飞冲天。然而，尽管它初具惊艳之处，但目前尚不清楚它是否能像ChatGPT那样在主流媒体使用中广受欢迎或实用。从本质上讲，这是两款截然不同的模型，拥有截然不同的用例，但我们将满怀期待地静候Sora的公开发布，看看它与ChatGPT相比，具备哪些功能。

标签

相关推荐