谷歌 Gemini 2.0 的突破性记忆功能
Gemini 2.0 的最大亮点是其强大的跨设备、跨场景记忆功能,这让它在现有 AI 模型中脱颖而出。 谷歌最新发布的 Gemini 2.0 凭借实力碾压了 OpenAI 的圣诞季连续 12 天发布会。这种”实力碾压”体现在多个方面:首先是跨对话记忆功能,Gemini 能记住用户家在纽约的信息,并在后续对话中应用这一信息;其次是单次记忆能力,可以记住用户朋友的书单并给出相应建议;更厉害的是跨设备记忆,用户先用手机让 Gemini 记住门禁密码 1170,之后通过眼镜设备询问时,Gemini 仍能准确回答。这种记忆功能目前可达 10 分钟的会话记忆,远超其他 AI 模型。
多模态实时交互能力
Gemini 2.0 的原生多模态能力使其能同时处理视觉、听觉和语言输入,实现真正的实时交互。 在 AI Studio 中,我测试了 Gemini 2.0 Flash 版本的多模态能力。通过开启麦克风和摄像头,Gemini 能够看到我的工作间背景,并准确描述出海报、YouTube 奖牌、圣诞树装饰等物品。它不仅能看到这些物品,还能记住我的名字”Axton”,并在后续对话中正确称呼我。更重要的是,它能结合谷歌搜索工具,根据我的请求查找关于”机器人三定律”的信息。这种多模态能力与工具使用能力的结合,展示了 Gemini 强大的实用性和交互体验。
英语口语练习与实时反馈
Gemini 2.0 的语音识别和分析能力使其成为语言学习的理想助手,能提供专业级的发音纠正和实时反馈。 我测试了 Gemini 2.0 作为英语口语练习助手的功能。在系统提示中,我设置了帮助练习英语口语发音的要求。Gemini 给出了示范句子”The quick brown fox jumps over the lazy dog”,当我跟读后,它能精确分析我发音中的问题,特别指出了”th”音和”j”音的发音不准确,并给出了具体的改进建议。与 ChatGPT 的类似功能相比,Gemini 的反馈更加专业和细致,能够捕捉到更微妙的发音问题,这对语言学习者来说极具价值。
空间理解与视频分析能力
Gemini 2.0 展示了卓越的视觉理解能力,能够精确识别图片中的物体并分析视频中的关键时刻。 在 AI Studio 的 Starter Apps 中,我测试了 Gemini 的空间理解功能。上传一张小猫图片后,Gemini 能够使用二维框、点和三维框三种方式准确标识出图中的猫和植物。在视频分析方面,我上传了一段测试 SORA 的视频,Gemini 能够分析出视频中的关键时刻,如”鱼从水中跳出”、”女孩掀起裙边”等细节,分析非常准确。这种视觉理解能力结合 Gemini 的其他功能,使其在实际应用中具有巨大潜力。
谷歌的 AI 战略与未来展望
谷歌 Gemini 展现的不仅是技术实力,更是谷歌”组织世界信息”使命的延伸,通过理解多模态信息实现其愿景。 谷歌 CEO 桑达尔·皮查伊(Sundar Pichai)表示,谷歌的使命是”组织世界的信息,使其可访问和有用”。这可能解释了为什么谷歌一直专注于原生多模态能力的开发——理解所有载体上的信息是实现这一使命的必经之路。目前推出的 Gemini 2.0 Flash 版本虽然是轻量级版本,但已在多项指标上超越了 Gemini 1.5 Pro 版本,仅在长上下文和音频处理方面略有不足。谷歌还推出了三个重要项目,包括 Project Astra,展示了 Gemini 2.0 的大部分功能,特别是其令人印象深刻的记忆功能。
核心观点
- Gemini 2.0 的核心竞争力在于记忆能力与多模态融合,能在多设备间保持上下文连贯性
- 谷歌的 AI 战略紧密围绕”组织世界信息”的使命,Gemini 是这一战略的关键执行工具
- 与 ChatGPT 和 Claude 相比,Gemini 展现出更强的独立见解和判断能力
- AI 模型正在从单一功能工具转变为具有持续性记忆和跨场景理解能力的助手
- 谷歌在 AI 领域的技术积累和生态系统构成了其长期竞争优势,不容小觑
关键洞见
AI 模型的个性化特征正成为用户选择的关键因素,而不仅仅是技术指标。Gemini 作为”最有自己见解的 AI 模型”,代表了 AI 发展的新阶段——从单纯的信息处理工具向具有独立思考能力的助手转变。这种转变暗示着未来 AI 竞争将从纯技术能力转向”AI 个性”的差异化竞争,用户会基于自己的需求和偏好在不同”个性”的 AI 之间切换使用。
请点击观看原始视频:
我对谷歌 Gemini 2.0 的深度体验与展望
Gemini 是在這三大模型當中最有 XXXXX 的 AI 模型。
誒你好,歡迎回到 AXTON。
話說谷歌的老大不是白當的,最新的 Gemini 2.0,它的風頭直接碾壓了 OpenAI 的聖誕季連續 12 天發布會。什麼叫做實力碾壓呢?就比如這個。
Gemini 2.0 的惊艳亮相:碾压级的实力展示
首先,跨對話的記憶功能。請注意看這一段,跨對話的記憶功能。Gemini 會記得男主的家在紐約,所以當他問這個花可不可以種到自己家的時候,Gemini 就會回答說,你的紐約的花園很適合種這些花。
接下來是單次記憶。首先男主把他的朋友的書單,看過的書單讓 Gemini 看了一下,然後男主去挑了一些書之後,再一次去問 Gemini,這些書合不合適他朋友看。那這個給大家展示的就是單次的記憶,一次繪畫當中的記憶功能。
接下來還有更厲害的。首先男主收到了一封電子郵件,郵件當中包含著進門的密碼。他讓 Gemini 閱讀這封郵件,並且記住了這個密碼。Can you tell me the door code and remember it? I’ll remember the door code for you. It is 1170 to unlock it. 好,接著就來到了另外一個場景,注意這時候男主戴的是眼鏡。What was the door code again? The door code you saved previously is 1170. 男主戴的是眼鏡,同樣 Gemini 告訴了他的門禁密碼,這就是跨設備的記憶。之前的設備是手機,現在的設備是眼鏡。
還有根據屏幕上顯示的公司的列表,到每一家公司的網站上去查找這家公司的聯繫郵箱,完成任務之後,把所有的這些公司的聯繫郵箱全部給列舉出來。還有遊戲培練,Gemini 可以根據屏幕上的動作來進行推理,然後在實時的對話當中,指導你下一步該做什麼樣的操作。
今天我們就來好好聊一聊這個讓谷歌揚眉吐氣的 Gemini 2.0。我們就先從現在我們可以免費用上的這些功能開始,順便跟 ChatGPT 來進行一下正面 PK。然後我們再來去看看,谷歌這次發揮當中,還有哪些逆天的黑科技值得我們期待。話不多說,咱們直接開始。OK。
Gemini 2.0 Flash 版免费实测:AI Studio 初体验
我們直接進入谷歌的 AI Studio,就可以免費的使用 Gemini 2.0 Flash 版本了。AI Studio 的網址,我會放在描述欄當中。關於 AI Studio 一些詳細的操作,大家可以回看我的這一期視頻。
好,首先我們要在模型當中,記得要選擇 Gemini 2.0 Flash 版本的 Experimental,就是它的測試版,試驗版。那在這邊我們可以看到它的免費的限制,一分鐘十次請求,一天可以發送 1500 次請求。這是谷歌的一個原生的多模態,而且具備使用原生工具功能的一個完整的,完善的一個模型,很大方的在 AI Studio 裡面,可以讓大家免費的使用。
多模态实时交互与工具使用
首先我們就來試驗一下它的實時的音視頻。我們只需要用一個測試,就能同時的展現出 Gemini 2.0 的幾大功能了。我們點擊這個話筒的圖標,這裡就三個亮點功能:首先直接跟它進行實時對話,然後還可以讓谷歌看到我們的攝像頭,同時也能 Share,也能給谷歌共享我們的屏幕,讓它看到我們屏幕上顯示的東西。
首先由於 Gemini 它現在不支持中文回答,當我用中文跟它對話的時候,它會用一些我聽不懂的語言,所以我們就在它的 System Instruction,系統提示裡面告訴它,請使用英文回復我。然後注意這邊的模型是 Gemini 2.0,只有這一個可選。在它的工具裡面,我們可以選一些我們需要它使用的工具,比如這邊我們需要它 Grounding 上網搜索。
好,現在我們就同時打開它的話筒和攝像頭。
嘿 Gemini,請你記住我的名字叫 Axton。
OK,我會記得你的名字是 Axton。今天我能幫你做什麼嗎?
你現在看到的是我的工作間,在我的背景上,有哪幾個物品最吸引你的注意呢?
背後有幾個物品吸引我的注意。你背後有一個封面的海報,有三個机器人的規則,一張桌子,一本書,一棵植物,一个银色 YouTube 奖牌,右邊還有一盞燈,一个小的圣诞树装饰。你想让我更详细地描述什么商品吗?
請上網搜索一下關於三原则的有趣的故事。
当然,我可以查一些关于机器人三定律的有趣故事,你想让我在这里分享吗?或者你在寻找任何特定的东西吗?
好的,我找到了一些关于机器人三定律的有趣信息,机器人三定律是由艾萨克·阿西莫夫创造的,首次出现在他 1942 年的短篇小说中。
不,我的名字是什么?还记得吗?
是的,我确实记得你的名字,你叫 Axton。
我們在這裡暫停一下。這個演示就展示了 Gemini 2.0 的三大重要功能:第一,多模態實時的音頻和視頻;第二,原生的使用工具的能力,比如使用谷歌搜索,就是它的一個工具。
英语口语练习实战
好,那正是因為 Gemini 它具有多模態的能力,能聽能看能說,那麼這就讓它有一個非常實用的用途了,就是來幫我們練習英文的口語,英文發音。比如我們來測試一下。因為模型是支持提示嘛,System 提示,我們就可以直接在提示詞裡面,把它要做的事情告訴它,省了每次都跟它說來說去。
我是一個英語初學者,請你幫我練習口語發音。首先請你說一句話,我會進行跟讀,請你聽到以後,分析我讀音中的問題,並進行糾正。然後讓我重複跟讀一遍,一直到你認為我的發音達到 80 分以上的水平,就可以開始下一句了。請開始幫我練習英語口語。
好的,讓我們開始你的英文發音練習。請跟著我說:The quick brown fox jumps over the lazy dog.
The quick brown fox jumps over the lazy dog.
好的,那是一個很好的第一次。我注意到你的發音有幾點。首先,The TH 聲音,可以有點困難,它應該是一個柔軟的聲音,你的舌頭稍微在你的牙齒之間。第二,The J 聲音的跳動,也有一點柔軟,它應該聲音比較像一 Jew。你可以重新試試這句話,專注於那些聲音嗎?
The quick brown fox jumps over the lazy dog.
好的,那是更好的。The TH 聲音還是有一點柔軟,但它肯定比之前更好發音。The J 聲音的跳動也有進步。我會說你的發音現在大概是 70% 正確。我們再試一次,專注於最後一次 The TH 聲音和 J 聲音。
好。
与 ChatGPT 的正面 PK:实时视频与语音练习对比
我們現在來到我的手機上,我們在手機上用 ChatGPT 的應用程式,測試一下它的實時語音功能。同樣我們測試兩個方面:第一個就是實時視頻,來看一下我的背景;第二個就是英語的語音發音練習。
实时视频背景识别对比
我們點擊它的右下角,這個圖標,波浪圖標,然後我們再點擊這個攝像頭的圖標,打開它的實時視頻。
你現在看到的是我的牆面,我的工作室的牆的背景。請你描述一下,有哪些東西讓你覺得非常感興趣呢?
你工作室牆面上有個黑色的海報,似乎有一些文字或規則。另外你的書架上有一塊帶有 Axton Academy 字樣的燈牌,非常吸引眼球。
你能看清海報上的文字內容嗎?
看得更清楚了。海報上似乎寫的是一些規則,比如保護人類,服從命令等等。這個裝飾很有科幻感。
好,那你告訴我,我的書架上從上到下都是些什麼東西?
你的書架上有幾層。頂層放著一個銀色的獎牌,中間層有一個帶燈光的 Axton Academy 標牌,下層擺放了一些書和一個裝飾品。這些裝飾看起來非常專業和有趣。
OK。ChatGPT 的實時視頻效果也不錯,但是它看不清我的海報上的文字,那很有可能就是因為我的手機的攝像頭質量,比不上我現在用的照相機的質量。
英语口语发音练习对比
那我們接下來就試一下英語的讀音練習。
我是一個英語初學者,請你幫我來練習口语發音。首先請你說一句話,我會進行跟讀,當你聽到我的跟讀之後,分析我讀音中的問題並且進行糾正。然後讓我重複地進行跟讀,一直到你認為我的發音能達到 80 分以上的時候,就可以開始練習下一句了。好,我們開始吧。
当然,让我们从一个简单的句子开始,今天天气不错。请跟我重复一遍。
今天天气不错。
很努力,你的发音很清楚。但是让我们调整一下声音,试着把舌头放在牙齿之间,轻轻地吹空气再重复一遍句子:今天天气不错。
今天天气不错,好多了。th 音更清晰了这次。你的发音在进步。让我们继续一个新句子。很好。
很好。
不管是 ChatGPT 也好,還是 AI Studio 也好,都可以來幫助我們練習英語口語了。那視頻最後我會給大家總結一下,我在高屏使用三大 AI 模型,ChatGPT,Claude 和 Gemini 之後,對它們三個 AI 的個性的看法。好,我們現在就回到 Gemini 2.0,回到 AI Studio。好。
Gemini 2.0 进阶功能探索:从屏幕共享到 Starter Apps
屏幕共享功能测试
接下來我們就測試一下屏幕共享。首先我們就在這邊,攝像機圖標這邊選擇 Screen。然後我這邊可以選擇一個瀏覽器的標籤,也可以選擇我的其他的窗口,或者整個的屏幕。我這邊就選擇我的 AI 精英學院的首頁。
所以您要选择 AI 精英学院的主页。Is that correct?
是的。這上面有我的三個在售的課程,如果你想學習 AI 的話,你最想買哪一套課程呢?
如果我是一名学生,我会选择「听不懂啦」课程作为我的起点。然后我可能会继续到「还是听不懂」,最后购买组合。
好,這就是屏幕共享,它可以很清楚地看到你屏幕上的所有的內容。當然屏幕共享也可以讓它去指導你進行操作。
确实,屏幕共享还可以帮助您指导操作。
好。
AI Studio Starter Apps 示例解析
接下來我們就看一下,在它的 AI Studio 裏面,Starter Apps 裏面的三個例子。這是三個跟 Gemini 2.0 進行交互的一個範例,在 GitHub 上也有它的原代碼。如果你想開發基於 Gemini 2.0 的應用的話,那麼這三個是可以很好的參考的一個案例。
好,我們先來看一下第一個空間理解。我們上傳一張圖片,或者用它現有的一些圖片,就可以對這些圖片當中的物體進行識別。比如我們這邊就選這個小貓的圖片。首先我們就使用二維框來進行識別,那這時候它就會檢測到圖片當中的物體,並且用二維框標示出來,比如 Cat 還有植物 Plant。好,那接下來還可以選擇 Point,點和三維。我們先看一下點。OK,點和三維會不如二維那麼準確,這是點的識別效果。然後我們再看三維。好,使用三維框進行了物體的標註。OK,這是空間理解。
我們再來看第二個,第二個視頻分析。上傳一段視頻可以對視頻進行分析,總結和描述它的場景。好,點擊加號可以上傳視頻。這邊我就用前兩天測試 SORA 的時候做的一個視頻,來看一下效果。這是一個驚悚版的 SORA 視頻。對視頻有各種各樣的分析,我們就選擇一個關鍵的時刻來進行分析。這邊就分析出了幾個關鍵的時間點:一個魚從水中跳了出來,這個女孩掀起了她的裙邊,水中出現了漣漪,這個女孩打開她的裙子,然後顯示出黃色的襯衣。分析的還是相當準確的。
好,我們再來看第三個,地圖結合 Gemini 和 Google Map,谷歌地圖的 API。比如我們就問他,北京最好吃的涮肉館在哪裡?
尼日利亞。北京的涮肉很出名,但是我想推薦一個在世界其他地方也很受歡迎的肉湯。
他好有主見。好吧,那我們就換一個紐約最好吃的中餐館在哪裡?
這是為什麼呢?紐約市的中國菜種類繁多,但是我想向您推薦一個更遙遠的地方:秘魯利馬。
好,他這個推薦地方很有意思,他始终推薦一個別的地方。這就是 AI Studio 裡面的一些主要的功能,現在都可以免費使用,大家感興趣可以去玩一玩。
Gemini 2.0 官方揭秘与黑科技展望
那接下來呢,我們就去看一下在 Gemini 2.0 的官方文檔當中,還有哪些值得我們期待的黑科技。
這就是 Gemini 的官方文檔,我們可以快速的過一遍重點。首先,CEO 劈柴哥就表示呢,谷歌的使命就是組織世界的信息,使其可訪問和有用。那這可能就是谷歌一直在專注於原生多模態的原因。如果說組織信息是使命的話,那麼理解所有載體上的信息就是必經之路。
Gemini 2.0 Flash 版的定位与性能
目前推出的是 Gemini 2.0 的 Flash 版本,這是 Gemini 的一個輕量級的版本,它的 Pro 模型還沒有出來。但是從它的測試來看,Gemini 2.0 的這個 Flash 版本呢,已經超過了 Gemini 1.5 的 Pro 版本,在很多指標上都超越了 Gemini 1.5 Pro 的版本。那麼只是在長上下文這一項參數,還有音頻這項參數略輸於 Gemini Pro 1.5。那現在在免費版的 Gemini 當中,就已經可以直接使用 2.0 Flash 的實驗版本了。比如我這就是免費的版本 Gemini,就可以選擇 2.0 Flash 的版本了,免費版本我並沒有升級到 Advanced。
Project Astra 与未来记忆功能
其實這個官方文檔當中,最值得大家去看一下的是它的三個項目。我們在片頭演示的一些重點內容,就是這三個項目。最值得大家去看一下的呢,就是 Project Astra 這個項目。在它的演示視頻當中呢,展示了 Gemini 2.0 的大部分的功能。這裡面就有讓我印象深刻的記憶功能,目前它擁有最長 10 分鐘的会话記憶。在今年 5 月份,OpenAI 剛剛發布 GPT-4O 的實時視頻的時候,我當時就對它的記憶功能很感興趣,我很好奇它能記住多長時間的事。目前我們可以得到明確的消息,谷歌可以有最長 10 分鐘的会话記憶。但是 ChatGPT 剛剛發布的實時視頻,它有多長的記憶呢?好像目前沒有參數出來。OK。
接下來就是可以幫助你來完成複雜任務的項目,以及幫你完成一個完整的開發任務的項目,可以分解任務,計劃任務,並且執行任務。
总结:谷歌的 AI 实力与我对三大模型的个性化解读
總之我在很早之前就說過,這一年多來,谷歌看起來好像是被 OpenAI 按在地上摩擦,被各種搶風頭,但是谷歌它的實力是不容小覷的。谷歌在 AI 領域的積累以及它的生態環境,這都不是一朝一夕所能建立起來的壁壘。
自從 Gemini 1.5 Pro 發布之後,我基本上就在 ChatGPT,Claude 和 Gemini 之間來回的橫跳。那這三個 AI 的個性,我之前就發過一個推特:Claude 3.5 Sonnet 是一個文藝青年,Claude 3.5 Sonnet 的新版本,是一個話比較少的文藝青年;而 GPT-4O 是一個本科理工男,GPT-O1 就是一個碩士理工男。那 Gemini 是一個什麼樣的感覺呢?Gemini 是在這三大模型當中,最有自己見解的 AI 模型。
如果你希望系統的學習 AI,而不是被各種碎片信息淹沒,請輸入 axtonliu.ai 進入 AI 精英學院。這裡有兩門 AI 核心能力的課程,以及媲美收費內容的免費課程。立即加入,這將是你最值得的一次投資。