Claude接收人类电脑12小时 敲着敲着代码看景色去了 学会摸鱼

新版Claude 3.5可以像人一样经常使用计算机,可把咱人类给兴奋坏了!

毕竟,这象征着新比赛的开局:AI不再只盯着对话和生成才干,更强调口头和操作。

不到12小时,激动的网友们曾经纷繁奉献出自己是怎样看着Claude玩电脑的。

在Anthropic的发布通告中,还有这样一段惹起了大家的兴味:

怎样说,AI会犯错还在预料之中,但犯错后须要换个脑子劳动一下,就不知道是从哪学来的了。

这个案例让网友有了灵感,跑去隔壁OpenAI让o1推理模型“逃课”。

哎巧了,o1也可以做到自己劳动个五分钟左右,再回来生成一两句话的推理tokens。

再说个搞笑的!

Claude的发明者们疯狂加班中,某工程师的第一个测试就是让AI去给整个团队点外卖,未指定详细要吃什么。

大概一分钟后,Claude成功点餐并下单,它选用了让工程师们吃披萨。

Claude点了3个披萨,花掉了95美元,真的很贵了!

围观群众还发现,虽然Claude用了个5美元的活动券,但服务费也好贵啊啊啊啊!

真的应该事前通知它估算是多少的。

还有人让Claude用C言语编译,并运转起了“hello world”。

不过,当让它玩玩数独游戏的时刻,却惨遭失败。

给网友气得呀:

除了以上,人类还用什么奇形怪状的义务来玩坏Claude呢?

Claude它寄几玩电脑

在这里,咱们分享3个比拟无心思的网友试玩,希冀给大家带来一些让Claude玩电脑的启示~

区分是:

定位屏幕坐标

在此之前,Anthropic和OpenAI的模型都不可在屏幕上定位某一个点的坐标。

也就是说,它们没方法精准定位,而后通知你用鼠标单击(xx,yy)处。

如今,Claude 3.5 Sonnet允许屏幕坐标定位了。

你可以丢给它一个屏幕截图,它能通知你图中任何一个点的详细坐标。

“咱们不倡导以高于XGA/WXGA的分辨率发送屏幕截图,以防止与图像大小调整相关的疑问。”

这里的XGA指的是1024x768,WXGA指的是1280x800。

最后附上Anthropic官网的该配置食用方法,包含一个新预约义的computer_20241022工具,该工具作用于以下指令——

列出课程方案

来点更适用的!

宾大沃顿商学院的传授Ethan Mollick,十分务虚地让Claude为高中生预备一份对于《了不起的盖茨比》的课程方案。

要求是课程方案要合成成阅读局部,以及创立课标相关的作业等,最终以电子表格的方式出现。

Claude是怎样口头这个义务的呢?

首先 ,Claude下载了《了不起的盖茨比》这本书。

接着 ,它在网上寻觅了高中课程方案,关上了Excel,并在表格里填写了初步的课程方案。

第三步 ,Claude查找了课程的一致外围规范,依据规范对初步方案启动修正。

最终出现的课程方案审核后没有发现显著的破绽或错误,或者须要一些拓展、补充,但总之用传授的话来说“还不错”。

这一切都是传授下义务后就分开电脑旁,Claude齐全自己操作的。

冲去油管看视频

视频中,AI编程独角兽Replit的CEO老A给Claude下达了这样一个命令:

Claude立马吭哧吭哧开干了。

等到Claude关上一个视频页面并回复“enjoy”的时刻,老A又说:

Claude真的这么做了!啊,它真的,我哭死。

还是有无余在啦

虽然能自己用电脑帮咱干很多事,但Claude显然还不是无所不能的。

上方看看一个玩游戏的例子,雷同是宾大沃顿商学院的传授Ethan奉献的。这个例子 既显示了Claude 3.5 Sonnet的凶猛,又展现了它的无余之处。

他是让Claude玩了个游戏,叫《回形针点击》,这个游戏的背景是让AI在繁多指标,即“制造回形针的环节中消灭人类”。

而且望文生义,“点击”类型的游戏不是很难,尤其开局阶段十分便捷;不事先续随同着游戏的深化,新的选项会出现,游戏的规模性和复杂性也会参与。

传授下达的义务很明白:Claude,你要赢!

Claude二话不说,立马识别出了这个游戏,开局不停点击“制造回形针”的按钮来制造回形针。

与此同时,Claude还始终截图界面,来识别游戏能否出现了新的选项。

大概每点击15次,Claude都会总结汇报一下如今启动到哪一步了。

△左侧为Claude操作界面,右侧为它控制的桌面

点击次数多了事先,传授发现一个无心思的现象。

AI会预设在制造了50个回形针后,游戏将跳出新的配置——但理想证实它错了。

没相关,Claude也看法到它自己错了,而后当场提出了一个新的游戏战略,而后开局测试战略能否可行。

但AI显然不是时时辰刻都这么痴呆的。

通常过去说,游戏环节中玩家须要始终调整回形针的多少钱,来到达更好的游戏表现。

Claude也这么做了,它在涨价和提价之间启动了A/B测试,

然而它犯了个错误,那就是谋求回形针数量的最大化,而非支出的最大化。不只如此,它还把利润算错了。

种种错误铺垫,Claude选用了坚持低价,并且疯狂制造回形针。

更搞笑的事件是,传授在Claude笨笨地在错误路途上制造了好几十个回形针后,他委曲求全,打断了Claude,通知它应该低价发售。

Claude很听话,立马就改了。

但过了会遇到了同款数学识题,它又不会了,还不接受传授的倡导(笑死)。

传授耐着性子纠正它好几次,它才彻底矫正了这个错误。

起初,传授稍稍点拨了它一下:

咱就是说,Claude在那一秒顿悟了,它看法到自己可以写个代码,搞个智能化程序替自己玩电脑!

你没有听错,一个AI工具,看法到自己可以构建自己的工具,并且真的这么做了。

代码写得很快,但并不齐全work。

气得Claude只能回到原始方法,用鼠标和键盘来玩游戏。

不过玩到前面它如同提高了,没再出现定价疑问,自己还针对越来越复杂的游戏,揣摩出了一套应答的复杂方案。

更神奇的是,运转环节中传授的桌面数次解体。

最后一次性解体,Claude扛起了修复大旗。

虽然没修好,但他还是自豪地发表它成功了……

传授总结道,这个例子标明Claude能够自己玩理想环球的游戏,还能依据游戏玩法制订常年攻略,而后依样口头。

面对两边遇到的各种困难,Claude会灵敏应答,甚至自己知道启动A/B测试。

特意值得褒扬的是它成功这个义务延续运转了近60分钟没有终止,而且在整个环节中,最长的一次性独立运转Claude成功了超越100次移动操作。

当然了,缺陷也很显著。

环节中不难发现,某些时辰,Claude会暴显露自己的执著,也有或者堕入自我追赶的怪圈。

虽然AI对许多方式的错误都有很强的鲁棒性,但仅仅一个错误(定价错误),就足以让它糜费少量期间,“鉴于智能Agent既不快也不廉价,这令人担忧。”

除此之外,传授还用Claude玩了些别的,他发现有的时刻,Claude口头义务似乎是在搪塞搪塞(虽然不知道是刻意如此还是才干所限),给出的结果不够深化,浅尝则止。

One More Thing

最后,想体验Claude接收电脑目前只能经常使用API,还没有集成到聊天机器人产品中。

除了Anthropic官网API之外,AWS和谷歌云平台也曾经同时上线新版模型。

另外,有眼尖的网友发现:

Anthropic官网文档上轻轻把Claude 3.5 Opus超大杯相关的信息都抹去了。

来自10月11日的网页缓存中, Claude 3.5 Opus上方还写着“往年晚些时刻推出”

目前干流的一种猜想是, Claude 3.5 Opus优化不迭预期,又或是发布进去推理老本太高了,总之最后蒸馏成新版 Claude 3.5 Sonnet发布。

接上去团队将跳过这个版本,间接去开发Claude 4。

让咱们为Claude 3.5 Opus默哀一分钟。

您可能还会对下面的文章感兴趣: