Claude重磅升级，可以像人一样控制电脑了！

就在刚刚，Claude来了波大的——

发布名叫ComputerUse的新功能，可以让Claude像人一样使用计算机！

话不多说，直接来看例子：

在这个填写表格的例子中，由于涉及到的数据分散在了电脑不同的位置，如果人工挨个寻找，那叫一个费时费力。

现在，你只需要跟Claude说一声即可，然后它就会先“看”屏幕，发现所需要的数据不在这份表格里，马上掉头去CRM搜索所需数据。

找到匹配的信息之后，Claude就会自己滚动网页，最后把对应的数据填写到相应的表格栏中。

而整个演示的过程，无需人类任何的参与！

再如跟Claude说一声想看金门大桥的日出，它就会在网页搜索信息、地图中找最佳位置、规划出行路线，最后把出行的方案塞进你的日历里：

以及，编程也不在话下！

在下面这个例子中，同样只需要跟Claude说一声“做一个90年代风格的个人网站”，它就会先在电脑网页中打开另一个自己——Claude的网站。

然后让网页版Claude就会唰唰唰地生成代码，并在网页上运行效果。

当然我们还可以继续要求Claude把代码下载到本地，通过VSCode来本地运行，期间诸如发现没有安装Python等情况，Claude都会自行找到错误并解决，直至完成任务！

不得不说，Claude这次发布的ComputerUse功能，直接把电脑变成“自动驾驶”模式了。

网友们在惊呼“Amazing”的同时，也表示：

而这个新竞赛，就不再仅限于AI的对话和生成能力，更强调的应当是执行和操作了。

也迎来升级

在发布ComputerUse功能的同时，Anthropic一道还选宣布：

首先，从Anthropic官方亮出的评分中不难看出，升级后的在性能上可以说是有了大幅的提升。

尤其是在编程方面，将SWE-benchVerified的性能从33.4%提高到49.0%。

其得分高于所有公开可用的模型，包括OpenAIo1-preview等推理模型和专为编程设计的专用系统。

新版还将TAU-bench（一种代理工具使用任务）的性能从零售领域的62.6%提高到69.2%，在更具挑战性的航空公司领域从36.0%提高到46.0%。

其次，是这次新推出的，用官方的话来说就是：

在与Claude3Haiku相同的成本和速度下，在每项技能集上都有所提升，在许多智能基准测试中甚至超过了上一代最大的型号Claude3Opus。

同样的，也特别擅长编程，在SWE-benchVerified中的得分为40.6%，优于许多使用公开可用的最先进模型的代理，包括原始的和GPT-4o。

目前来看，已经面向所有用户开放，而且价格和速度没有变化。

至于则将在本月底，通过API、AmazonBedrock和GoogleCloud的VertexAI提供（先开放纯文本模型）。

OneMoreThing

在Anthropic搞了这波大的同时，StabilityAI也有新动作——

发布，迄今最强模型！

据了解，有三个不同大小的版本——Large、LargeTurbo和Medium，可以在消费类硬件上运行。

目前可以从HuggingFace下载和，并在GitHub上下载推理代码。

则将于10月29日发布。

从官方晒出的评分和实际效果来看，也取得了不错的效果。

最后，不得不说，这一晚上，AI真够刺激的。

参考链接：
[1]
[2]
[3]
[4]

—完—

发布于 2024-11-10 10:41

喜欢 538

538