OpenAI直播大秀语音指挥AI主动编程，也就比老罗TNT强亿点点

巫溪小哥 · 发表于 2024-9-6 17:51:15

马上注册，结交更多淘宝商家，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有帐号？立即注册

x

金磊梦晨明敏发自凹非寺
量子位报道 | 公众号 QbitAI

刚刚，OpenAI又玩出了一个新高度。

只输入天然语句，AI就主动做了个小游戏！

划重点：不！用！你！编！程！
来，感受一下这个feel。
第一步，“小人儿”搞里头，输入一句话就能让它按照方向键左右移动：

Now make it controllable with the left and right arrow keys.

AI在明确了需求之后，主动编程，然后小人儿就真的可以左右移动了。
第二步，“石头”搞里头，同样输入一句话，让它“从天而降”：

Now have it fall from the sky, and wrap around.

第三步，用天然语言简朴再订定些规则，若小人儿被石头砸中则制止游戏。

Constantly check if the person and the boulder overlap at all, and if so, you lose.

末了还让AI天生竣事提示，此中要包罗一句鼓励人的话。
AI挑中的是“Try Again！”
固然，另有规则更复杂的小游戏（比方增长计分等功能），也可以用同样的方式，分分钟天生：

这是邪术吧！如今开辟小游戏都靠“打字”了？！
围观直播的观众们，也是发出了同样的感慨，瞧瞧这满屏止不住的弹幕：

有网友以致直呼道：

编程，已经变成AI本身的游戏了。

这就是OpenAI重磅发布的新品——Codex，一个能本身编程的AI。
AI编程这事并不奇怪了，像GitHub前不久闹得风风火火的Copilot，就是此中一个。
但它背后的技能，实在还是来自于OpenAI。
然而这一次，OpenAI给本身的本领升了个级，来了个新版本。
不光云云，搞一个小游戏，仅仅是Codex本领的冰山一角罢了。
一起感受一下它更多惊艳的表现吧。
不消打字，直接语音下令它！

给AI打字“提需求”，还是略显贫苦了一些。
能不能直接语言下达下令呢？
这个还真可以有！
OpenAI这次与微软相助出了一个Word插件，便带了这种语音控制的功能。
直接对着AI下下令“把每行开头的空格去掉”，AI通过微软给的接口一顿利用，乐成实验：

啪的一下，全文就左对齐了有木有。
而且AI还精准地明确了下令的寄义，那些段与段之间的空行并没有改动。
来再复杂一点的。
给AI下达“每数到五行就加粗”下令，也是能轻松hold得住：

这种把任务吩咐下去，就有“人”给你完成的感觉，是不是很像老员工指挥练习生？
总之呢，是比罗永浩前几年发布的TNT体系语音办公要强上那么“亿”点点了。
除了官方的演示，这次内测用户aniakubow，还让AI演出了通过152字形貌天生一个网页。

可以看出这里Codex是用Javascript利用Document对象来天生网页，大概是练习集里没有直接的HTML代码的缘故吧。
末了，除了现场演示外，OpenAI还在Arxiv上发布了Codex的论文预印版。
论文中，Codex要面临的寻衅以致有刷IOI和ACM难度的比赛题！
Codex用对每道题天生1000种答案这种暴力方法，能做出600多道比赛题测试会集的3.23%，而且通过全部的测试用例。
这个编程标题测试集是UC伯克利研究职员在5月份刚刚做好的。
其时测试的GPT-2、GPT-3和开源的GPT-Neo但是在比赛难度上三军尽没，一道都没做出来。
没想到短短两个多月，专为代码而生的Codex就为先辈们洗刷了羞辱。
Codex的“邪术”，是怎样实现的？

这么炫酷的本领，难道还是像GPT-3一样堆数据，鼎力放肆出古迹吗？
不满是，这次Codex最大的一个版本是120亿参数，比起GPT-3的1750亿还是小了很多。
要相识具体环境，还要从它的开辟进程提及。
最早，OpenAI研究职员拿GPT-3做各种试验，发现GPT-3能从Python表明中天生一些简朴的代码。
这可把他们高兴坏了，由于GPT-3根本没特意拿代码练习过，只是看过一些博客和帖子中零星的代码片断。
想想GPT-3在天然语言上的出色表现，要是专门练习一个代码版的GPT-3，那肯定也能再次震惊业界。
于是，他们找到了GitHub，这个拥有最多开源代码的“小同伴”来相助。
一开始是拿到了179G的Python代码，但此中不乏存在一些篇幅太长的，以及显着是主动天生的那种。
在剔撤消这些“不达标”的代码后，末了留下的代码巨细为159G。
接下来固然是做预练习，把这些代码都喂给AI （Codex）。
不外这里有一个题目：
GitHub上的开源代码不免会有Bug，AI学了一堆有题目标代码可咋办？
实在这倒也好说，预练习之后不是还要微调嘛。
微调的时间，全用编程比赛里的准确答案，以及PyPI里的靠谱开源代码就可以了。
末了，120亿参数版的Codex，能对28.81%的题目给出准确答案。
这个正确率凌驾之前的开源代码预练习模子GPT-Neo和GPT-J，另有基于GPT-2的代码补全工具TabNine。

这个结果固然不错，不外离能实际应用还是有点远了。
不外，这也难不住OpenAI的研究团队。
他们很快便想到了“突破口”：

人类编程的时间，不也经常先出一个版本，然后反复修改bug嘛~

那就让AI像人一样反复修改，改出100个版原来，从中总能挑出几个准确的来。
用上这种拿“量”堆出来的方法，Codex的终极结果是：

77.5%！

强，但不完全强

Codex令人惊艳的表现，一度让网友们大呼：
要赋闲了要赋闲了！
有人直接在公屏上打出：再见了，盘算机专业的学子们。
不外各人也不必云云担心，由于在演示过程中，实在就出现了翻车的环境。
在输入“Say Hello World with empathy”后，Codex给出的效果居然还是“Hello World with empathy”。
这也侧面分析确Codex如今还不是完善的。
OpenAI就表现：

即便是参数到达120亿的Codex 12B，它的本领大概也还不如一位编程刚刚入门的弟子。

固然Codex学习上亿行代码，但它更洪流平是“记取了”这些代码，并不是真正意义上的懂编程语言。
而且Codex对长字符串的明确也比力困难。
而且随着字符数目标增长，Codex的性能表现降落得非常显着。
要不是相助方微软Azure云买了富足多的碳排放限度，Codex大概还不能和我们晤面呢（手动狗头）。
别的，在明确变量和运算较多的表明时，Codex也会犯错：
在这个例子中，120亿参数版的Codex，忘记了对变量w做减法，也没有返回全部数字的乘积。
这些对于还在学习编程的新手步调员而言，非常不友爱。
而且由于天生的代码正确性和准确性都还不能包管，因此在安全题目上也存在肯定风险。
不光云云，OpenAI还表现，Codex会天生带有种族藐视的内容。
在社会层面上，OpenAI还提出Codex的出现大概会打击步调员的就业；如果被滥用，另有网络犯罪方面的隐患。
末了另有一点，就是环境方面的题目。
究竟它作为大模子，参数目标规模不容小觑。
要不是相助方微软Azure云买了富足多的碳排放限度，Codex大概还不能和我们晤面呢（手动狗头）。
如果想要试玩的话，OpenAI还预备了一个Python编程大赛，在这场角逐中Codex会作为你的搭档和你一同解题。
角逐将于北京时间8月13日破晓一点开始，就是这时间对国内不太友爱。

大赛报名地点：
https://openai.com/blog/openai-codex/
参考链接：
[1]https://www.twitch.tv/openai
[2]https://www.youtube.com/watch?v=hP5nOFi5HOw
[3]https://twitter.com/OpenAI/status/1422967522890973185
[4]https://arxiv.org/pdf/2107.03374.pdf

— 完 —
量子位 QbitAI · 头条号签约
关注我们，第一时间获知前沿科技动态

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

OpenAI直播大秀语音指挥AI主动编程，也就比老罗TNT强亿点点

马上注册，结交更多淘宝商家，享用更多功能，让你轻松玩转社区。

让创业更简单

关于我们

云服务支持

精彩文章，快速检索

关注我们