大家好,我是 Axton。最近的 AI 领域可谓是风起云涌,各种震撼性的进展层出不穷,甚至又有数百名专家联署签名,警示 AI 可能带来的风险——没错,这已经不是第一次了。今天,我想和大家一起回顾近期 AI 领域的九大焦点突破。与以往不同,这次我们不妨先从游戏聊起,看看 AI 如何让虚拟世界的角色真正”活”了过来。
游戏角色拥有”灵魂”:英伟达 ACE 引擎的革命
英伟达 (NVIDIA) 推出的 ACE 游戏系统,正让游戏中的 NPC (非玩家角色) 拥有前所未有的智能与个性,预示着游戏交互方式的颠覆性变革。 这个名为”阿凡达云引擎 (Avatar Cloud Engine, ACE)”的系统,允许玩家与游戏角色进行实时、自然的对话,而这些角色本身就是生成式 AI。想象一下,你不再是面对预设脚本的木偶,而是与能够理解你、回应你、甚至个性随时间发展的”活生生”的角色互动。
英伟达的演示视频展示了这种可能性:这些 AI 角色不仅能用你的母语流畅交流,还会根据对话内容展现不同的面部动画和表情。这与我们过去体验的游戏相比,无疑是一次巨大的飞跃。我曾在之前的影片中提到,元宇宙最可能首先在游戏中初现雏形,现在看来,这一天似乎并不遥远了。对于热爱游戏的玩家而言,这种沉浸式的、充满未知与惊喜的互动体验,无疑比传统游戏要刺激得多。
超级算力竞赛:英伟达 GH200 与特斯拉 Dojo 的角逐
英伟达 (NVIDIA) 最新发布的 GH200 人工智能超级计算机,再次凸显了算力在 AI 时代的核心战略地位。 这台巨兽将 256 个超级芯片连接起来,拥有高达 1 Exaflop 的计算能力和 144TB 的 GPU 内存,专为支持生成式 AI、推荐系统和数据处理的巨型模型而设计。
这个 1 Exaflop 的参数听起来是不是有些耳熟?大约一年前,我在介绍特斯拉 (Tesla) 机器人的视频中就提到过,特斯拉正在研发名为”道场 (DOJO)”的超级计算机。他们通过组合 D1 芯片的训练模块,也实现了 1 Exaflop 的计算能力,这在当时相当于 2020 年世界排名第一的计算机”富岳 (Fugaku)”算力的两倍。如今,英伟达也达到了同样的算力水平,这无疑是一件相当令人瞩目的事情。这再次印证了我的观点:未来,电力和算力将成为比石油更为宝贵的战略资源。
现实世界的数字孪生:Neuralangelo 的三维重建魔法
英伟达 (NVIDIA) 在 AI 领域的创新并未止步,其推出的 Neuralangelo 技术,能够利用神经网络将二维视频片段转化为精细的三维场景。 这项技术首先会分析从不同角度拍摄的物体或场景的二维视频,并从中选取能够捕捉不同视角的关键帧,就像艺术家从多个侧面审视创作对象以感知其深度、大小和形状。
一旦确定了每一帧的相机位置,名为 Neuralangelo 的 AI 模型便会着手创建一个初步的、略显粗糙的三维场景,这好比雕塑家先勾勒出作品的大致轮廓。随后,模型会不断优化渲染图,使细节逐渐清晰,如同雕塑家精心打磨作品的每一个细节。最终,一个精细的三维物体或大规模场景便得以生成,这些成果可以广泛应用于虚拟现实 (VR)、数字孪生以及机器人开发等领域。英伟达近期可谓是频放大招,不断刷新我们对 AI 能力的认知。
AI 玩转《我的世界》:Voyager 的自主学习与探索
一个名为 Voyager 的 AI 代理,在 GPT-4 的驱动下,展现了在《我的世界 (Minecraft)》中进行自主学习和探索的惊人能力。 这个 AI 代理与我们之前讨论过的 AutoGPT 有些相似,它能够自主创建并完成各种任务。Voyager 的独特之处在于,它是一个专为《我的世界》设计的”终身学习代理”,能够不断探索游戏世界,获取不同技能,并在无人干预的情况下做出新的发现。
《我的世界》本身就是一个开放式的沙盒游戏,没有预设的最终目标或固定情节,这为 AI 代理提供了广阔的探索空间。Voyager 的工作原理可以概括为三个主要部分:首先,它会根据总体目标,让 GPT-4 将其分解为具体的子任务;其次,它会自己编写代码来执行这些任务;最后,它拥有一个反馈机制,能够修正错误的代码。例如,GPT-4 知道在制作木棒之前需要两块木板,这是一个正确的反馈。而当 GPT-4 意识到应该制作一把木斧而不是游戏中并不存在的”杨槐斧”时,这就是一个执行错误的反馈,Voyager 会据此修正代码。这些成功执行的代码,也就是它获得的技能,会被存储在技能库中,以便在未来需要时重新调用,甚至可以将简单的技能组合成更复杂的技能。
这种 AI 代理在游戏中自主学习和互动的模式,让我想起了之前提到过的”斯坦福小镇 (Stanford Smallville)”实验。在那个模拟村庄里,25 个由 AI 生成的不同角色被赋予了各自的身份,并开始在小镇中自主生活和互动。令人惊讶的是,这些 AI 角色逐渐学会了彼此交流,例如父子角色在同一房间相遇时会聊天,他们还会购物、散步、上班,甚至能自发组织一场生日聚会。看到 AI 的模拟越来越接近人类行为,不禁让人思考:我们自己是否也可能生活在一个被模拟的世界中呢?
完整视频请点击观看:
https://youtu.be/9hAl0-Hzut8
从脑电波到影像:思维可视化技术的新突破
一项令人瞩目的技术突破,使得从大脑活动中重建高质量视频成为可能,这意味着我们脑海中的所思所想,或许很快就能直接投射成影像。 研究人员展示了多个实例,左边是真实的视频片段,右边则是通过分析大脑活动重建出来的视频。例如,真实的视频中出现一只海龟,重建的视频也清晰地呈现了海龟的形态;老人与狗的场景、男女对话的场景、水母(重建为鱼类,但类别接近)、街道景象、乡间小路、飞鸟以及奔马等,都得到了相当逼真的还原。
这种还原效果已经非常接近真实图像,着实令人惊讶。我记得大约两年前,在我讨论伊隆·马斯克 (Elon Musk) 的脑机接口的视频中,也曾提到过重建大脑图像的技术。当时的技术同样是通过电极获取脑信号来重建人眼所见的图像,虽然画面较为模糊,但大体轮廓和类别已经能够对应。仅仅两年时间,这项技术就取得了如此翻天覆地的进步,实在令人感慨。当然,那个两年前的视频现在看来可能有些”青涩”,但也证明了关注前沿科技资讯的重要性。
AI 面试助手:求职者的”秘密武器”?
对于求职者而言,一个名为 “ecoute” 的开源系统或许会成为远程面试的”福音”。 这个系统能够在面试官提问时,实时将其语音转换为文字,然后利用 GPT 模型根据问题生成得体且专业的回答建议。面试者只需参考这些建议进行回答,就能在面试中表现得更加从容和专业。
这个系统目前已在 Github 上开源,有兴趣的朋友可以下载体验。可以预见的是,一旦这类技术成熟并普及,传统的在线面试形式可能会面临巨大的挑战,甚至可能催生出全新的面试评估方式。
OpenAI 路线图:GPT-4 的未来与百万级 Token 的展望
OpenAI 的 CEO 山姆·奥特曼 (Sam Altman) 在一次访谈中,透露了公司在 2023 年的发展计划,为我们描绘了大型语言模型未来的演进方向。 首要任务是让 GPT-4 变得更便宜、更快速,这无疑是广大用户的共同期盼,毕竟目前 GPT-4 的使用成本仍然较高。其次是实现更长的上下文窗口,目标是在不久的将来达到惊人的 100 万个 token。
更长的上下文窗口意味着模型能够处理和记忆更多的信息,这对于理解复杂任务和进行长对话至关重要。此外,OpenAI 还计划推出微调 API 和有状态的 API。有状态的 API 尤其值得期待,因为当前的 GPT 模型由于 token 上下文长度的限制,在过长的对话中容易”忘记”前面的内容。如果未来的 API 能够记住完整的对话历史,那么我们或许就不再需要依赖向量数据库或 LangChain 这类工具进行外部记忆管理了。
我对百万级 token 的上下文窗口抱有极大的期待。此前,我就体验过 Claude 推出的拥有 10 万 token 上下文窗口的版本。当时,我将一段长达 2 小时 50 分钟的奥特曼听证会对话文本完整输入,Claude 成功地进行了总结。在此之前,我尝试过各种插件或 PDF 总结工具,效果都不理想。那一刻我深刻体会到,在超长上下文窗口面前,许多复杂的处理技巧都显得多余。如今 OpenAI 计划将上下文窗口扩展到百万级别,是 Claude 的十倍,这无疑将带来更强大的能力。如果这些计划都能在今年实现,真不敢想象明年 AI 会发展到何种程度。或许到那时,我们就不再需要为了节省 token 而字斟句酌了。
AI 发展的现阶段:硬件瓶颈与未来机遇
从当前 AI 发展的阶段来看,我们仍处于一个激动人心的起步期,硬件算力是当前面临的主要瓶颈之一。 正如一张广为流传的图表所示,2023 年的 AI 发展在硬件、软件和服务层面都尚在初期。OpenAI 的 CEO 山姆·奥特曼 (Sam Altman) 也曾提及,他们的许多发展计划都受限于 GPU 的算力及其数量。
一旦硬件技术取得突破,发展速度加快,那么构建于其上的软件和服务便能迎来飞速的增长。因此,现在正是一个投身 AI 领域的绝佳时机。不要错过这个 AI 刚刚起步的时代,及早学习和掌握 AI技能,才能在未来的变革中占据先机。
最后,我还非常期待即将在 6 月 5 日举行的苹果 WWDC 大会。今年以来,微软 (Microsoft)、谷歌 (Google) 等科技巨头在 AI 领域动作频频,英伟达 (NVIDIA) 也比以往更加活跃,唯独苹果 (Apple) 显得有些”默默无闻”。我非常好奇苹果是否在”憋大招”,期待他们在这次大会上能给我们带来关于 AI 的惊喜。
全局性核心要点总结
回顾这些令人振奋的 AI 进展,我们可以清晰地看到几个核心趋势:首先,AI 的能力正在以惊人的速度跨越多个领域,从提升虚拟世界的真实感到赋予机器自主学习的能力,其边界不断被拓展。其次,算力作为 AI 发展的基石,其重要性日益凸显,各大科技巨头在此领域的竞争也日趋激烈。再者,AI 正在从实验室走向更广泛的应用场景,无论是提升工作效率的面试助手,还是重塑娱乐体验的游戏引擎,都在预示着 AI 将深刻改变我们的生活和工作方式。同时,随着 AI 能力的增强,关于其伦理、安全以及对人类社会影响的讨论也变得更加迫切和重要。
独特深度洞见
这些 AI 技术的飞速发展,尤其是像思维读取、高度智能化的 NPC 这样的突破,不仅仅是技术层面的革新,更深层次地,它们正在挑战我们对”智能”、”意识”乃至”现实”本身的定义。当 AI 能够模拟甚至在某些方面超越人类的特定认知能力时,我们被迫重新审视人类的独特性。这或许是一个契机,促使我们更深入地探索人类心智的奥秘,并思考在与日益强大的 AI 共存的未来,人类的核心价值与角色将是什么。