Claude接收人类电脑12小时敲着敲着代码看景色去了学会摸鱼

2024-11-14

新版Claude 3.5可以像人一样经常使用计算机，可把咱人类给兴奋坏了！

毕竟，这象征着新比赛的开局：AI不再只盯着对话和生成才干，更强调口头和操作。

不到12小时，激动的网友们曾经纷繁奉献出自己是怎样看着Claude玩电脑的。

在Anthropic的发布通告中，还有这样一段惹起了大家的兴味：

怎样说，AI会犯错还在预料之中，但犯错后须要换个脑子劳动一下，就不知道是从哪学来的了。

这个案例让网友有了灵感，跑去隔壁OpenAI让o1推理模型“逃课”。

哎巧了，o1也可以做到自己劳动个五分钟左右，再回来生成一两句话的推理tokens。

再说个搞笑的！

Claude的发明者们疯狂加班中，某工程师的第一个测试就是让AI去给整个团队点外卖，未指定详细要吃什么。

大概一分钟后，Claude成功点餐并下单，它选用了让工程师们吃披萨。

Claude点了3个披萨，花掉了95美元，真的很贵了！

围观群众还发现，虽然Claude用了个5美元的活动券，但服务费也好贵啊啊啊啊！

真的应该事前通知它估算是多少的。

还有人让Claude用C言语编译，并运转起了“hello world”。

不过，当让它玩玩数独游戏的时刻，却惨遭失败。

给网友气得呀：

除了以上，人类还用什么奇形怪状的义务来玩坏Claude呢？

Claude它寄几玩电脑

在这里，咱们分享3个比拟无心思的网友试玩，希冀给大家带来一些让Claude玩电脑的启示～

区分是：

定位屏幕坐标

在此之前，Anthropic和OpenAI的模型都不可在屏幕上定位某一个点的坐标。

也就是说，它们没方法精准定位，而后通知你用鼠标单击（xx，yy）处。

如今，Claude 3.5 Sonnet允许屏幕坐标定位了。

你可以丢给它一个屏幕截图，它能通知你图中任何一个点的详细坐标。

“咱们不倡导以高于XGA/WXGA的分辨率发送屏幕截图，以防止与图像大小调整相关的疑问。”

这里的XGA指的是1024x768，WXGA指的是1280x800。

最后附上Anthropic官网的该配置食用方法，包含一个新预约义的computer_20241022工具，该工具作用于以下指令——

列出课程方案

来点更适用的！

宾大沃顿商学院的传授Ethan Mollick，十分务虚地让Claude为高中生预备一份对于《了不起的盖茨比》的课程方案。

要求是课程方案要合成成阅读局部，以及创立课标相关的作业等，最终以电子表格的方式出现。

Claude是怎样口头这个义务的呢？

首先，Claude下载了《了不起的盖茨比》这本书。

接着，它在网上寻觅了高中课程方案，关上了Excel，并在表格里填写了初步的课程方案。

第三步 ，Claude查找了课程的一致外围规范，依据规范对初步方案启动修正。

最终出现的课程方案审核后没有发现显著的破绽或错误，或者须要一些拓展、补充，但总之用传授的话来说“还不错”。

这一切都是传授下义务后就分开电脑旁，Claude齐全自己操作的。

冲去油管看视频

视频中，AI编程独角兽Replit的CEO老A给Claude下达了这样一个命令：

Claude立马吭哧吭哧开干了。

等到Claude关上一个视频页面并回复“enjoy”的时刻，老A又说：

Claude真的这么做了！啊，它真的，我哭死。

还是有无余在啦

虽然能自己用电脑帮咱干很多事，但Claude显然还不是无所不能的。

上方看看一个玩游戏的例子，雷同是宾大沃顿商学院的传授Ethan奉献的。这个例子 既显示了Claude 3.5 Sonnet的凶猛，又展现了它的无余之处。

他是让Claude玩了个游戏，叫《回形针点击》，这个游戏的背景是让AI在繁多指标，即“制造回形针的环节中消灭人类”。

而且望文生义，“点击”类型的游戏不是很难，尤其开局阶段十分便捷；不事先续随同着游戏的深化，新的选项会出现，游戏的规模性和复杂性也会参与。

传授下达的义务很明白：Claude，你要赢！

Claude二话不说，立马识别出了这个游戏，开局不停点击“制造回形针”的按钮来制造回形针。

与此同时，Claude还始终截图界面，来识别游戏能否出现了新的选项。

大概每点击15次，Claude都会总结汇报一下如今启动到哪一步了。

△左侧为Claude操作界面，右侧为它控制的桌面

点击次数多了事先，传授发现一个无心思的现象。

AI会预设在制造了50个回形针后，游戏将跳出新的配置——但理想证实它错了。

没相关，Claude也看法到它自己错了，而后当场提出了一个新的游戏战略，而后开局测试战略能否可行。

但AI显然不是时时辰刻都这么痴呆的。

通常过去说，游戏环节中玩家须要始终调整回形针的多少钱，来到达更好的游戏表现。

Claude也这么做了，它在涨价和提价之间启动了A/B测试，

然而它犯了个错误，那就是谋求回形针数量的最大化，而非支出的最大化。不只如此，它还把利润算错了。

种种错误铺垫，Claude选用了坚持低价，并且疯狂制造回形针。

更搞笑的事件是，传授在Claude笨笨地在错误路途上制造了好几十个回形针后，他委曲求全，打断了Claude，通知它应该低价发售。

Claude很听话，立马就改了。

但过了会遇到了同款数学识题，它又不会了，还不接受传授的倡导（笑死）。

传授耐着性子纠正它好几次，它才彻底矫正了这个错误。

起初，传授稍稍点拨了它一下：

咱就是说，Claude在那一秒顿悟了，它看法到自己可以写个代码，搞个智能化程序替自己玩电脑！

你没有听错，一个AI工具，看法到自己可以构建自己的工具，并且真的这么做了。

代码写得很快，但并不齐全work。

气得Claude只能回到原始方法，用鼠标和键盘来玩游戏。

不过玩到前面它如同提高了，没再出现定价疑问，自己还针对越来越复杂的游戏，揣摩出了一套应答的复杂方案。

更神奇的是，运转环节中传授的桌面数次解体。

最后一次性解体，Claude扛起了修复大旗。

虽然没修好，但他还是自豪地发表它成功了……

传授总结道，这个例子标明Claude能够自己玩理想环球的游戏，还能依据游戏玩法制订常年攻略，而后依样口头。

面对两边遇到的各种困难，Claude会灵敏应答，甚至自己知道启动A/B测试。

特意值得褒扬的是它成功这个义务延续运转了近60分钟没有终止，而且在整个环节中，最长的一次性独立运转Claude成功了超越100次移动操作。

当然了，缺陷也很显著。

环节中不难发现，某些时辰，Claude会暴显露自己的执著，也有或者堕入自我追赶的怪圈。

虽然AI对许多方式的错误都有很强的鲁棒性，但仅仅一个错误（定价错误），就足以让它糜费少量期间，“鉴于智能Agent既不快也不廉价，这令人担忧。”

除此之外，传授还用Claude玩了些别的，他发现有的时刻，Claude口头义务似乎是在搪塞搪塞（虽然不知道是刻意如此还是才干所限），给出的结果不够深化，浅尝则止。

One More Thing

最后，想体验Claude接收电脑目前只能经常使用API，还没有集成到聊天机器人产品中。

除了Anthropic官网API之外，AWS和谷歌云平台也曾经同时上线新版模型。

另外，有眼尖的网友发现：

Anthropic官网文档上轻轻把Claude 3.5 Opus超大杯相关的信息都抹去了。

来自10月11日的网页缓存中， Claude 3.5 Opus上方还写着“往年晚些时刻推出”

目前干流的一种猜想是， Claude 3.5 Opus优化不迭预期，又或是发布进去推理老本太高了，总之最后蒸馏成新版 Claude 3.5 Sonnet发布。

接上去团队将跳过这个版本，间接去开发Claude 4。

让咱们为Claude 3.5 Opus默哀一分钟。

<<无界AI算法总监邹国平下半场还能怎样卷 Midjourney领跑没有规范答案的文生图

生成式AI大模型对人类退化的影响>>

Claude接收人类电脑12小时 敲着敲着代码看景色去了 学会摸鱼