Claude接收人类电脑12小时 敲着敲着代码看景色去了 学会摸鱼
新版Claude 3.5可以像人一样经常使用计算机,可把咱人类给兴奋坏了!
毕竟,这象征着新比赛的开局:AI不再只盯着对话和生成才干,更强调口头和操作。
不到12小时,激动的网友们曾经纷繁奉献出自己是怎样看着Claude玩电脑的。
在Anthropic的发布通告中,还有这样一段惹起了大家的兴味:
怎样说,AI会犯错还在预料之中,但犯错后须要换个脑子劳动一下,就不知道是从哪学来的了。
这个案例让网友有了灵感,跑去隔壁OpenAI让o1推理模型“逃课”。
哎巧了,o1也可以做到自己劳动个五分钟左右,再回来生成一两句话的推理tokens。
再说个搞笑的!
Claude的发明者们疯狂加班中,某工程师的第一个测试就是让AI去给整个团队点外卖,未指定详细要吃什么。
大概一分钟后,Claude成功点餐并下单,它选用了让工程师们吃披萨。
Claude点了3个披萨,花掉了95美元,真的很贵了!
围观群众还发现,虽然Claude用了个5美元的活动券,但服务费也好贵啊啊啊啊!
真的应该事前通知它估算是多少的。
还有人让Claude用C言语编译,并运转起了“hello world”。
不过,当让它玩玩数独游戏的时刻,却惨遭失败。
给网友气得呀:
除了以上,人类还用什么奇形怪状的义务来玩坏Claude呢?
Claude它寄几玩电脑
在这里,咱们分享3个比拟无心思的网友试玩,希冀给大家带来一些让Claude玩电脑的启示~
区分是:
定位屏幕坐标
在此之前,Anthropic和OpenAI的模型都不可在屏幕上定位某一个点的坐标。
也就是说,它们没方法精准定位,而后通知你用鼠标单击(xx,yy)处。
如今,Claude 3.5 Sonnet允许屏幕坐标定位了。
你可以丢给它一个屏幕截图,它能通知你图中任何一个点的详细坐标。
“咱们不倡导以高于XGA/WXGA的分辨率发送屏幕截图,以防止与图像大小调整相关的疑问。”
这里的XGA指的是1024x768,WXGA指的是1280x800。
最后附上Anthropic官网的该配置食用方法,包含一个新预约义的computer_20241022工具,该工具作用于以下指令——
列出课程方案
来点更适用的!
宾大沃顿商学院的传授Ethan Mollick,十分务虚地让Claude为高中生预备一份对于《了不起的盖茨比》的课程方案。
要求是课程方案要合成成阅读局部,以及创立课标相关的作业等,最终以电子表格的方式出现。
Claude是怎样口头这个义务的呢?
首先 ,Claude下载了《了不起的盖茨比》这本书。
接着 ,它在网上寻觅了高中课程方案,关上了Excel,并在表格里填写了初步的课程方案。
第三步 ,Claude查找了课程的一致外围规范,依据规范对初步方案启动修正。
最终出现的课程方案审核后没有发现显著的破绽或错误,或者须要一些拓展、补充,但总之用传授的话来说“还不错”。
这一切都是传授下义务后就分开电脑旁,Claude齐全自己操作的。
冲去油管看视频
视频中,AI编程独角兽Replit的CEO老A给Claude下达了这样一个命令:
Claude立马吭哧吭哧开干了。
等到Claude关上一个视频页面并回复“enjoy”的时刻,老A又说:
Claude真的这么做了!啊,它真的,我哭死。
还是有无余在啦
虽然能自己用电脑帮咱干很多事,但Claude显然还不是无所不能的。
上方看看一个玩游戏的例子,雷同是宾大沃顿商学院的传授Ethan奉献的。这个例子 既显示了Claude 3.5 Sonnet的凶猛,又展现了它的无余之处。
他是让Claude玩了个游戏,叫《回形针点击》,这个游戏的背景是让AI在繁多指标,即“制造回形针的环节中消灭人类”。
而且望文生义,“点击”类型的游戏不是很难,尤其开局阶段十分便捷;不事先续随同着游戏的深化,新的选项会出现,游戏的规模性和复杂性也会参与。
传授下达的义务很明白:Claude,你要赢!
Claude二话不说,立马识别出了这个游戏,开局不停点击“制造回形针”的按钮来制造回形针。
与此同时,Claude还始终截图界面,来识别游戏能否出现了新的选项。
大概每点击15次,Claude都会总结汇报一下如今启动到哪一步了。
△左侧为Claude操作界面,右侧为它控制的桌面
点击次数多了事先,传授发现一个无心思的现象。
AI会预设在制造了50个回形针后,游戏将跳出新的配置——但理想证实它错了。
没相关,Claude也看法到它自己错了,而后当场提出了一个新的游戏战略,而后开局测试战略能否可行。
但AI显然不是时时辰刻都这么痴呆的。
通常过去说,游戏环节中玩家须要始终调整回形针的多少钱,来到达更好的游戏表现。
Claude也这么做了,它在涨价和提价之间启动了A/B测试,
然而它犯了个错误,那就是谋求回形针数量的最大化,而非支出的最大化。不只如此,它还把利润算错了。
种种错误铺垫,Claude选用了坚持低价,并且疯狂制造回形针。
更搞笑的事件是,传授在Claude笨笨地在错误路途上制造了好几十个回形针后,他委曲求全,打断了Claude,通知它应该低价发售。
Claude很听话,立马就改了。
但过了会遇到了同款数学识题,它又不会了,还不接受传授的倡导(笑死)。
传授耐着性子纠正它好几次,它才彻底矫正了这个错误。
起初,传授稍稍点拨了它一下:
咱就是说,Claude在那一秒顿悟了,它看法到自己可以写个代码,搞个智能化程序替自己玩电脑!
你没有听错,一个AI工具,看法到自己可以构建自己的工具,并且真的这么做了。
代码写得很快,但并不齐全work。
气得Claude只能回到原始方法,用鼠标和键盘来玩游戏。
不过玩到前面它如同提高了,没再出现定价疑问,自己还针对越来越复杂的游戏,揣摩出了一套应答的复杂方案。
更神奇的是,运转环节中传授的桌面数次解体。
最后一次性解体,Claude扛起了修复大旗。
虽然没修好,但他还是自豪地发表它成功了……
传授总结道,这个例子标明Claude能够自己玩理想环球的游戏,还能依据游戏玩法制订常年攻略,而后依样口头。
面对两边遇到的各种困难,Claude会灵敏应答,甚至自己知道启动A/B测试。
特意值得褒扬的是它成功这个义务延续运转了近60分钟没有终止,而且在整个环节中,最长的一次性独立运转Claude成功了超越100次移动操作。
当然了,缺陷也很显著。
环节中不难发现,某些时辰,Claude会暴显露自己的执著,也有或者堕入自我追赶的怪圈。
虽然AI对许多方式的错误都有很强的鲁棒性,但仅仅一个错误(定价错误),就足以让它糜费少量期间,“鉴于智能Agent既不快也不廉价,这令人担忧。”
除此之外,传授还用Claude玩了些别的,他发现有的时刻,Claude口头义务似乎是在搪塞搪塞(虽然不知道是刻意如此还是才干所限),给出的结果不够深化,浅尝则止。
One More Thing
最后,想体验Claude接收电脑目前只能经常使用API,还没有集成到聊天机器人产品中。
除了Anthropic官网API之外,AWS和谷歌云平台也曾经同时上线新版模型。
另外,有眼尖的网友发现:
Anthropic官网文档上轻轻把Claude 3.5 Opus超大杯相关的信息都抹去了。
来自10月11日的网页缓存中, Claude 3.5 Opus上方还写着“往年晚些时刻推出”
目前干流的一种猜想是, Claude 3.5 Opus优化不迭预期,又或是发布进去推理老本太高了,总之最后蒸馏成新版 Claude 3.5 Sonnet发布。
接上去团队将跳过这个版本,间接去开发Claude 4。
让咱们为Claude 3.5 Opus默哀一分钟。