当前位置:首页 > > 动态报道
[导读]Anthropic刚刚官宣:Claude 3来了!

Anthropic刚刚官宣:Claude 3来了!

作为OpenAI最强竞争选手,此次它发布的新模型家族,以最强版Claude 3 Opus为代表,“已经实现了接近人类的理解能力”——

在推理、数学、编码、多语言理解和视觉方面,全面超越GPT-4在内的所有大模型,直接重新树立行业基准的那种。

浅看一下这份成绩单,就十分扎眼~

GPT-4全面被超越!全球最强大模型一夜易主

几项数学类评测都是用0-shot超越GPT-4的4-8 shot。

除此之外,此前就以长下文窗口见长的Claude,此次全系列大模型可提供 200K 上下文窗口,并且接受超过100万Tokens输入

Gemini 1.5 Pro:嗯?

GPT-4全面被超越!全球最强大模型一夜易主

目前可以免费体验第二强Sonnet,Opus最强版供Claude Pro付费用户使用,但大模型竞技场也可以白嫖。于是乎,网友们已经开始疯玩上了。(Doge)

GPT-4全面被超越!全球最强大模型一夜易主

另外,Opus和Sonnet也开放API访问,开发者可以立即使用。

有人直接艾特奥特曼:好了,你现在可以发布GPT-5了。

GPT-4全面被超越!全球最强大模型一夜易主

不过奥特曼可能还在烦马斯克的诉讼……

GPT-4全面被超越!全球最强大模型一夜易主

最新最强大模型发布

此次Claude 3家族共有三个型号:小杯Haiku、中杯Sonnet以及大杯Opus,成本和性能依次递增。

GPT-4全面被超越!全球最强大模型一夜易主

首先,在性能参数上,Claude 3全系多方面全面提升。其中Opus在MMLU、GPQA、GSM8K等评估基准上领先于其他所有模型:

GPT-4全面被超越!全球最强大模型一夜易主

还有在视觉能力上,它能可以处理各种视觉格式,包括照片、图表、图形和技术图表。

对于这样性能结果,有专业人士表达了自己的看法。

比如爱丁堡大学博士生、 中文大模型知识评估基准C – Eval提出者之一符尧就表示,像MMLU / GSM8K / HumanEval这些基准,已经严重饱和:所有模型的表现都相同。

GPT-4全面被超越!全球最强大模型一夜易主

他认为,真正区分模型性能基准的是MATH and GPQA

GPT-4全面被超越!全球最强大模型一夜易主

另外,在拒绝回答人类问题方面,Claude 3也前进了一大步,拒绝回答的可能性显著降低

GPT-4全面被超越!全球最强大模型一夜易主

在上下文以及记忆能力上,他们用大海捞针(Needle In A Haystack,NIAH)来评估衡量大模型从大量数据中准确召回信息的能力。

结果Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率。而且在某些情况下,它甚至能识别出 “针 “句似乎是人为插入原文的,从而识别出评估本身的局限性。

GPT-4全面被超越!全球最强大模型一夜易主

还在生物知识、网络相关知识等方面取得了进步,但出于负责任的考虑,仍处于AI安全级别2(ASL-2)。

其次,在响应时间上,Claude 3大幅缩短,做到近乎实时。

官方介绍,即将发布的小杯Haiku能够在三秒内阅读并理解带有图表的长度约10k token的arXiv论文。

而中杯Sonnet能够在智能水平更高的基础上,速度比Claude 2和Claude 2.1快2倍,尤其擅长知识检索或自动化销售等需快速响应的任务。

大杯Opus的智能水平最高,但速度不减,与Claude 2和Claude 2.1近似。

官方对三款型号的模型也有清晰的定位。

大杯Opus:比别家模型更智能。适用于复杂的任务自动化、研发和制定策略;

中杯Sonnet:比其他同类模型更实惠。更适合规模化。适用于数据处理、RAG、在中等复杂度工作流程中节省时间;

小杯Haiku:比同类模型更快速、实惠。适用于与用户实时互动,以及在简单工作流程中节省成本;

价格方面,最便宜的小杯定价0.25美元/1M tokens输入,最贵的大杯定价75美元/1M tokens输入

GPT-4全面被超越!全球最强大模型一夜易主

对比GPT-4 Turbo,大杯价格确实高出不少,也能体现AnthropicAI对这款模型非常有信心。

GPT-4全面被超越!全球最强大模型一夜易主

第一手实测反馈

既如此,那就先免费来尝尝鲜~

目前官方页面已经更新,Claude展现了「理解和处理图像」这一功能,包括推荐风格改进、从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。

即使是模糊不清的有年代感的手记文档,也能准确OCR识别:

GPT-4全面被超越!全球最强大模型一夜易主

底下写着:你正在使用他们第二大智能模型Claude 3 Sonnet。

GPT-4全面被超越!全球最强大模型一夜易主

然鹅,可能是人太多的原因,尝试了几次都显示“Failed”

GPT-4全面被超越!全球最强大模型一夜易主

不过,网友们也已经po出了一些测试效果,比如让Sonnet解谜题。

为其提供一些示例,要求它找出数字之间的关系,比如“1 Dimitris 2 Q 3”,意思是3是1和2相加的结果。

结果Sonnet成功解出-1.1加8等于6.9,所以“X”的值应该是6.9:

GPT-4全面被超越!全球最强大模型一夜易主

还有网友发现Sonnet现在也可以读取 ASCII 码了,直呼:这是GPT-4 ++的水平了

GPT-4全面被超越!全球最强大模型一夜易主

在编程任务上,谁写的代码好先不说,Claude 3至少不会像GPT-4一样偷懒。

GPT-4全面被超越!全球最强大模型一夜易主

还有体验到了Opus的玩家,在线给模型挖坑,可opus硬是完美躲避不上当:

GPT-4全面被超越!全球最强大模型一夜易主

初看这效果,感觉还行。这时候应该艾特OpenAI:GPT-5在哪里?

GPT-4全面被超越!全球最强大模型一夜易主

好了,感兴趣的朋友,可以戳下方链接体验啦~

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

中国北京(2025年9月10日)—— 业界领先的半导体器件供应商兆易创新GigaDevice(股票代码 603986)亮相于深圳国际会展中心举办的第26届中国国际光电博览会(展位号:12C12),全面展示GD25 SPI...

关键字: 光通信 MCU Flash

中国北京(2025年9月2日)—— 业界领先的半导体器件供应商兆易创新GigaDevice(股票代码 603986)受邀出席2025智能汽车基础软件生态大会暨第四届中国汽车芯片大会,并与国内领先的AUTOSAR车用操作系...

关键字: 汽车电子 MCU 智能汽车

聚焦工业4.0及能源管理应用对主控MCU的高性能需求,极海正式发布APM32F425/427系列高性能拓展型MCU,集合运算性能、ADC性能、Flash控制器性能与通信接口四大维度革新,进一步增强了EMC性能,重新定义C...

关键字: MCU 工业应用 极海

当前,国内家电行业正处于智能化与能效升级的关键转型期,随着新国标能效标准的深化落地与全屋智能互联需求的爆发,传统家电控制技术正面临从单一功能驱动向全场景智能协同的迭代挑战。在这一技术跃迁进程中,MCU作为变频驱动系统的核...

关键字: MCU 变频驱动系统 油烟机

在近日举办的MemoryS 2025上,得瑞领新展示了其最新一代高性能企业级固态硬盘PCIe 5.0 D8000系列,以创新技术赋能数据中心、人工智能及高性能计算场景,成为峰会现场焦点。

关键字: 得瑞领新 PCIe 5.0企业级SSD CFMS|MemoryS 2025 D8000系列

在本土存储行业,得瑞领新是当中一个不得不提的重要玩家。得益于过去多年在企业级市场的坚持和持之以恒的投入,得瑞领新成功打造覆盖高性能NVMe SSD的全产品线,为数据中心、云计算、人工智能等领域等客户提供高可靠性的存储方案...

关键字: PCIe 5 SSD D8000系列 云计算 人工智能 高性能

近日,“绿色智能计算系列标准启动暨绿色算力工作组成立会议” 成功召开,得瑞领新受邀出席,与产学研50余家单位共同启动绿色智能计算领域标准化建设工作,为算力产业低碳化、智能化转型提供核心支撑。

关键字: 绿色智能计算标准 得瑞领新 存储低碳

近日,得瑞领新参与《智能计算 科学计算平台技术要求》国家标准启动会,携手60余家产学研及产业链单位共探标准制定,以企业级存储技术积累赋能科研智能化生态构建与行业规范化发展。

关键字: 得瑞领新 《智能计算 科学计算平台技术要求》 国家标准 企业级存储

复旦大学与复旦微电子集团正式签署战略合作协议,标志着校企双方在科研协同、技术转化、机制共建等关键领域迈入深层次合作新阶段。

关键字: 集成电路

从AI大模型的快速迭代到存储需求的爆发式增长,得瑞领新正以十年技术积累,通过低延迟、高可靠的SSD产品,为AI应用筑牢数据基石。

关键字: 2025全球闪存峰会 PCIe 5.0 企业级SSD D8000系列
关闭