大家好,我是 Axton。上周,我刚刚拿到了 OpenAI GPT-4 API 的邀请,心情非常激动。回望过去这一周,AI 领域可谓是经历了一场前所未有的”核爆级”更新。如果你平时不太关注 AI 新闻,可能感触不深,但我坚信,一年之后再回首,你会发现这短短几天,正是新时代开启的序章。今天,我就带大家一起回顾这场 AI 的”权力游戏”,梳理一下那些足以载入史册的重磅事件。
谷歌 AI 的雄心与”生不逢时”的发布
谷歌在 AI 办公领域的宏大布局,虽令人惊艳,却意外地被 GPT-4 的光芒所掩盖。
上周,科技巨头谷歌率先发力,宣布在其 Workspace 办公全家桶中全面集成强大的 AI 功能。我看了他们的宣传短片,确实让人眼前一亮。想象一下,AI 能帮你迅速梳理冗长的邮件往来,并像你全程参与讨论一样,草拟出得体的回复。不仅如此,它还能根据邮件内容自动生成一份简报文档,你只需轻松校对,调整风格即可。
更进一步,这份文档可以无缝转换为 PPT 幻灯片,AI 甚至能自动生成配套的图像、音频和视频素材。开团队会议时,它能实时总结笔记和发言要点。会议结束后,回到电子表格,AI 又能为不同客户生成个性化的营销邮件。一天工作结束,AI 还能为你起草一封感谢团队的邮件。我甚至在想,这样一天下来,唯一能记住的,可能就是和 AI 聊了一整天吧。
然而,谷歌今年的运气似乎总差那么一点。上个月,他们宣传聊天机器人 Bard 时出现的事实性错误,直接导致市值蒸发千亿美元。按理说,这类错误在其他 AI 聊天机器人身上也屡见不鲜。这次,如此惊艳的 Workspace AI 发布会,偏偏又和 OpenAI GPT-4 的发布撞在了同一天。结果可想而知,GPT-4 火爆全网,迅速淹没了谷歌的声量。真是让人不禁要为谷歌心疼一秒钟。
OpenAI GPT-4 登场:重新定义 AI 的可能性
GPT-4 的发布,如同一只”房间里 800 磅重的大猩猩”,其展现的强大能力让整个科技界为之震撼。
紧随其后,便是大家期待已久的 OpenAI GPT-4 发布。这场发布会非常”极客”,没有华丽的舞台和 PPT,但其中的一个演示却足以载入史册。OpenAI 的总裁 Greg Brockman 拿出一张在笔记本上手绘的网页界面草图,用手机拍照后上传给 GPT-4。令人难以置信的是,GPT-4 迅速根据这张潦草的草图,生成了完整且可以运行的 HTML 和 JavaScript 页面代码。这一幕,无疑宣告了 AI 在理解和创造能力上的又一次飞跃。
发布当天,我就制作了视频详细解读了 GPT-4 的技术报告,并分享了如何加入 API 等待列表。幸运的是,我很快就收到了 GPT-4 API 的邀请。虽然还没来得及测试其高达 32K 的上下文处理能力,但我先用它的 8K 版本小试牛刀。
GPT-4 8K 上下文能力初体验
我找来一篇大约 3000 多词的英文长文,想对比一下 ChatGPT (基于 GPT-3.5) 和 GPT-4 API 的表现。首先,我尝试将长文直接粘贴给 ChatGPT,并要求它用中文给出摘要。果不其然,由于文本过长,ChatGPT 报错了。
于是,我转向 OpenAI 的 Playground,在模型中选择了 GPT-4。我设定了指令:”对文章进行总结,用中文回复”,并将最大输出 token 长度设为 2048。3000 多个英文单词,估算下来大约是 4000 个 token,加上我要求的 2048 个 token 输出,总共约 6000 个 token,完全在 GPT-4 8K 模型的处理范围之内。我将文章粘贴进去,GPT-4 顺利地完成了任务,给出了精准的中文摘要。这让我对它处理大部头 PDF 文档的 32K 版本充满了期待。
不过,GPT-4 API 最大的问题就是”贵”。在其价格页面上可以看到,8K 上下文版本的 GPT-4,每 1000 个 token 的价格是 0.06 美元,而 GPT-3.5 Turbo 仅为 0.002 美元,足足贵了 30 倍。如果是 32K 上下文版本,更是贵了 60 倍。这价格差距,确实不容小觑。
微软 Copilot 亮相:为 Office 注入 AI 灵魂
微软携手 OpenAI,为其经典的 Office 套件注入了名为 Copilot 的 AI 能力,旨在从根本上改变我们的工作方式。
GPT-4 发布后的周四,微软也高调登场。雅虎新闻幽默地称其为”为无聊的旧 Microsoft Office 注入了闪亮的新的 AI 功能”。微软的宣传片同样展示了 Copilot (副驾驶) 的强大。它能帮助你为会议准备议题,根据产品文档、会议纪要和演示 PPT 撰写产品公告,并自动生成 PPT。
在 Excel 中,Copilot 可以分析市场数据;在 Outlook 中,它能参考相关文档自动撰写回复邮件。如果你开会迟到了,它会迅速为你提供一份会议总结,让你无缝衔接。此外,记录财报分析、创作预算提议、创建产品发布时间线等任务,Copilot 都能得心应手。看来,微软和谷歌都将迅速把 AI 功能深度集成到各自的办公套件中。
完整视频请点击观看:
AI 绘画新纪元:Midjourney V5 的惊人进化
Midjourney V5 版本的发布,不仅提升了图像的细节和真实感,更让 AI 绘画对摄影行业构成了潜在的挑战。
除了大型语言模型,AI 图像生成领域也迎来了突破。知名的 AI 绘画工具 Midjourney 发布了其 V5 版本。为了直观展示 V4 和 V5 的差别,我用同一个 prompt 进行了测试。要使用 V5 版本,只需在你的 prompt 后面加上参数 --v 5
即可。我选择的 prompt 是描绘一位”坐在酒吧的美女”。
V4 版本生成的图像,最明显的问题依然是手部细节处理不佳,这是以往 AI 绘画的通病。尽管其中一张略好,但整体仍有瑕疵。而 V5 版本生成的结果则令人惊叹。无论是图片的整体感觉、分辨率还是细节表现,都远超 V4。更重要的是,四张图片中的手型都基本没有问题。我将其中一张放大后,其细腻程度堪比高分辨率照片。如果说之前的 Midjourney V4 对插画师等职业造成了威胁,那么 V5 版本的发布,其逼真的效果,我认为对摄影师的职业也可能构成了不小的冲击。
AI 民主化浪潮:斯坦福羊驼 Alpaca 的启示
斯坦福大学发布的 Alpaca 模型,以其小巧、高效和低成本的特性,预示着 AI 将更快地融入我们的日常生活。
在这场 AI 盛宴中,还有一个不容忽视的亮点:斯坦福大学基于 Meta (Facebook 母公司) 的 LLaMA 技术,发布了自己的 AI 模型——Alpaca (羊驼)。这个名字非常亲切。它的重要性在于其”小而美”。Alpaca 模型的参数量从 70 亿到 300 亿不等,而 300 亿参数的模型已经可以在普通的笔记本电脑上运行。一位推特用户甚至在他的 M1 芯片、16GB 内存的 MacBook Pro 上成功运行了它。
更令人惊喜的是,70 亿参数的 Alpaca 模型甚至可以在树莓派 (Raspberry Pi) 这样小巧的设备上运行。这意味着,未来 AI 在手机、平板甚至家用电器上运行,都指日可待。斯坦福大学训练这个模型的成本不到 600 美金,其表现却基本达到了 OpenAI Davinci-003 (GPT-3 的一个版本) 的水准。这无疑为 AI 技术的普及和应用打开了新的大门。
全局性核心要点总结
回顾这风起云涌的一周,我深感 AI 发展的浪潮正以前所未有的速度席卷而来。首先,AI 技术的迭代速度远超想象,从 GPT-4 的惊艳到 Midjourney V5 的细腻,每一次更新都带来了质的飞跃。其次,AI 正在以前所未有的方式赋能传统工具,无论是谷歌的 Workspace 还是微软的 Office Copilot,都预示着我们工作方式的根本性变革。再者,AI 技术的门槛正在逐渐降低,斯坦福 Alpaca 模型的出现,让我们看到了 AI 在各种智能设备上普及的曙光。最后,这场”AI 军备竞赛”也提醒我们,在拥抱技术进步的同时,必须警惕其潜在的风险与挑战,确保 AI 的发展始终以人为本。
独特深度洞见
在我看来,这一系列发布中最具启发性的一点,并非单纯的技术参数提升,而是微软为其 AI 助手命名的”Copilot”(副驾驶)这一理念。它精准地概括了未来人与 AI 的理想关系:AI 不是要取代我们,而是作为我们的得力助手,与我们并肩协作,共同应对日益复杂的工作与挑战。正如微软在其发布会后文章中所言:”Copilot 将从根本上改变人们跟 AI 合作的方式,以及 AI 跟人合作的方式。” 任何新的工作模式都有学习曲线,但那些积极拥抱并适应这种新方式的人,无疑将在这场变革中占得先机。我们能做的,就是尽快学习和接受这些新的工作方式,与 AI 一同成长。