分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

GPT-4来了，别慌，看懂了再大受震撼

2023-03-17 16:41:54

作者：张晓泉责编：高雅馨

如今的GPT-4已经不再是那个被嘲笑数学不好的AI了，它不仅能解方程，还能以苏格拉底的风格手把手教你解方程。简而言之，就是GPT-4不仅能理解文本，还能理解和处理图像、视频、音频等。不管你有没有用过ChatGPT，AI已经变得无处不在，就像空气一样，你可能感觉不到它的存在，但它无时无刻不在影响着你的生活。

Big news！它来了，上个月全网刷屏的ChatGPT又来了。

这次，它又完成了超强进化，带着一身炫酷的技能点，GPT-4闪亮登场，再次惊艳所有人。

（这里插播一条消息，Google在刚刚过去的π day（3月14日），推出了搭载各种AI服务、几乎覆盖整个办公场景的新版Workspace，也许是想弯道超车，结果又一次毫无波澜……GPT-4让所有人眼前一亮，估计只有Google两眼一黑了。）

那么，OpenAI声称的世界上最新和最强大的模型，GPT-4到底强在哪儿？

硅谷做题家&超级学霸，打败90%人类，轻轻松松上斯坦福？

律师考试（ Uniform Bar Exam ）中，GPT-4排名Top10%，GPT3.5是倒数10% 。

美国高考SAT，GPT-4考了1410分（阅读写作710分、数学700分，满分均为800），GPT3.5 的得分仅为1260 分。

GRE语文测试中，GPT-4超过了99%的考生，GPT3.5只有63%；数学GPT-4考了163分（满分170），超过80%考生，GPT3.5只能超过25%。

可以看到，GPT-4在各项测试中的表现都相当优异。如果是人类学生取得这样的成绩，完全可以考上法学院，或通过美国大部分大学考试。GPT-4几乎全面碾压OpenAI以前的模型，哪怕与普通人类的能力相比，它也毫不逊色。

对此，英伟达的人工智能科学家，同时也是斯坦福博士的Jim Fan的评价是：可以去“申请”斯坦福了，GRE考试中语文部分的成绩甚至比我还高。

在其他技能测试中，GPT-4的表现也明显好于旧版本。

在与同类型机器人的竞争如机器学习的跑分测试中，GPT-4 仍然表现不俗，几乎都以 10% 以上的差距打败了市面上其他所有大型语言模型。

不过，做题和考试都只能说是GPT-4的初级娱乐项目。

更特别的是，相比其他几乎以英语为主的模型，GPT-4的中文更好。

通过 Azure Translate 模组将 MMLU 测试转译成多种语言后，GPT-4 依然保持高水平发挥，中文准确率达到了 80%，甚至比GPT3.5的英语还要好。

这也意味着，作为语言模型，GPT-4的语言水平更高，包含了更多的语言、不同的内容和更好的上下文理解。语言理解的改善也带来了更准确的翻译、总结和上下文分析。

总的来说，GPT-4的学习能力更强了，也变得更聪明了，知识增加了，推理也变强了。

更好的推理能力，使GPT-4能够分析复杂的问题并提供更准确的解决方案。比如你问它“林黛玉为什么可以倒拔垂杨柳”，它终于不是一本正经地胡说八道了。

另外，经过最新信息的训练，GPT-4变得更能说了，也就是说它可以为用户的问题提供更多内容和回答。

GPT-4可以处理超过25,000字的文本，这使得包括生成长内容、长对话以及文件搜索和分析在内的使用案例成为可能。

在学习的道路上，GPT-4可谓是一路狂飙。不仅学得多学得快，还能根据用户的反馈学习并调整其回应。这让该模型更加灵活和动态，使其能够在各种任务中提供更好的帮助和支持。

如今的GPT-4已经不再是那个被嘲笑数学不好的AI了，它不仅能解方程，还能以苏格拉底的风格手把手教你解方程。

这是因为GPT-4允许用户为特定的任务或行业定制和微调该模型，其改进的上下文记忆还使它能更好地了解手头的对话或任务。因此它可以做出更多相关和连贯的反应，其应用也更有针对性，更有效率，更有效地满足各行业的独特需求。

比如，基于法律条文回答税务问题，可以让GPT-4用通俗易懂的语言逐步解释清楚，这对于普通人来说是非常有意义的。因为很多专业性强的说明文档或法规条文为了追求专业和准确，往往艰深晦涩，普通人很难看懂，所以通常会寻求一些中间沟通者比如法律顾问的帮助。

现在GPT-4就可以充当这个桥梁，而且它可以针对不同用户以不同的表达方式不厌其烦地去解释，最终以该用户能够理解的语言为其答疑解惑，这一应用能拓展到生活中的很多方面，也使得AI真正做到了给普通人赋能。

实际上，一些基于GPT-4的新功能应用已经开始实践了。

Stripe（为公司提供网上支付的解决方案的企业）用GPT-4来简化用户体验并打击欺诈；
Duolingo（一款学习工具软件）用它来改进对话；
摩根士丹利（财富管理）用它组织其庞大的知识库；
可汗学院（教育性非营利组织）用它来集成为每个学生定制导师，冰岛政府用它来保护其语言。

当然，众人最期待的，也是这次让人拍手称赞的“多模态”来了。所以，它到底是个啥？

多模态：当AI学会一“心”多用

多模态大型语言模型（MLLMs，Multilingual Language Models ）。

简而言之，就是GPT-4不仅能理解文本，还能理解和处理图像、视频、音频等。换句话说，GPT-4学会了一“心”多用，它可以用不同的方式处理一件以上的事情。

这一点不容低估，因为多模态被称赞为实现AGI（Artificial General Intelligence，即通用人工智能）的下一个必要步骤，这是人类在人工智能方面所寻求的主要目标。

为什么它如此重要？

多模态的含义远比它看起来的要多。

除了广泛的意义上的支持不同输入模式（文本、图像、视频、音频）的能力，某种程度上，它使得人工智能更接近于人类的学习方式。

由于多模态模型是使用结合这些不同输入类型的数据集进行训练的，这些模型不仅可以从这些模态中学习数据的表征，还可以在这些模态中学习更复杂的表征，就像人类一样。

通过一个人类的例子，让这一点变得更加清晰。

一个更接近人类的人工智能

想象“咬苹果”这个动作，你接收的不仅是来自味蕾的输入，因为你的大脑也在处理气味、质地，甚至声音。

某种程度上，你的大脑如何体验这个简单的动作是来自不同感官的组合，创造了一个更复杂的“吃苹果”真正含义的表述。

有了多模态，我们可以教机器，一张苹果的图片，一个人咬苹果时发出的声音，以及关于苹果是什么的一般文字描述，代表了我们都描述为苹果的同一事物概念。

这样一来，盲人也能够「看到」图片了（丹麦一家为盲人或视力低下人群提供帮助的企业Be My Eyes已经开始开发基于GPT-4的虚拟志愿者™（Virtual Volunteer™），该应用拥有与人类志愿者水平相当的上下文和理解能力）。

多模态使得 GPT-4能做的事情更有想象空间了。

看图说话，玩梗解梗，AI讲的冷笑话没那么冷了。

“开局一张图，内容全靠编”这句话现在放到GPT-4上可能要有不同含义了。不过，怎么“编”得看喂给它的是什么，以及用户提什么需求了。

一来，尽管GPT-4的性能有了大幅提升，它胡言乱语的毛病得到了改善，但并未完全根除。所以，满嘴跑火车“瞎编”的情况依然可能存在，它不仅编得快，还能编得像模像样。

人类玩的梗，GPT-4也能整明白了，解梗讲冷笑话也是信手拈来（幽默感略有提升，但不多）。

二来，GPT-4能够处理图像和文本的组合输入，并根据图中的画面或文本完成用户指定的视觉或语言任务，然后输出文本（自然语言、代码等）。

如根据图像做推理、求解物理题、从论文截图生成总结摘要等。这里的“编”可以是“编译”或“编写”，是有逻辑的看图说话。

一个不小心，OCR技术又被GPT-4降维打击了。

想象一下，给GPT-4一张粗略的手绘草图，就能得到一个正常运行的网站。是的，它做到了。

GPT-4化身赛博神笔马良，草图秒变网站，看到这里，前端工程师该慌了吗？

马斯克表示慌了（还不忘顺便给自己的Neuralink打个广告）。

在一些用户的编程实测中，也提到GPT-4的编程水平明显提高了，它一开始就能写出完整的应用页面，还能随时debug，改善代码的可读性和优化代码。

有网友戏称，在用GPT-4做开发的过程中，人类变成了「机」-「机」接口。人需要做的工作就是告诉机器自己需要什么，然后从一台机器复制代码到另一个机器，代码报错也能让AI改，甚至应该直接把这个修复过程自动化。

不管你有没有用过ChatGPT，AI已经变得无处不在，就像空气一样，你可能感觉不到它的存在，但它无时无刻不在影响着你的生活。

（张晓泉为清华大学Irwin and Joan Jacobs讲席教授）

文章作者

张晓泉

AI进化速递丨英国投20亿英镑建设人工智能作战实验室

英国投20亿英镑建设人工智能作战实验室；阶跃星辰即将推出首款AI智能体手机......

7151 07-12 20:58

2026年APEC数字和人工智能部长会议亮点抢先看

携手抢抓数字和人工智能发展机遇，共同开展数字赋能务实合作。

5 7213 07-10 15:37

AI进化速递丨《人工智能智能体互联》系列7项国家标准发布

6996 06-26 20:41

2026世界人工智能大会30天后上海开幕，300款AI产品全球首发

参展企业逾1100家、展出产品3000余项

19737 06-17 18:22

中国加紧筹建世界人工智能合作组织，密集开展政策部署

针对人工智能，探索“沙盒监管”、触发式监管等新型监管方式

9 7430 06-17 12:10

一财最热

分享到：