首頁 > 云計算頻道 > 大模型

一手體驗Kimi版“o1”模型，這就是最通人性的數(shù)學(xué)AI

2024年11月26日 09:13:17 來源：數(shù)字生命卡茲克公眾號

　　“數(shù)學(xué)，是人類知識活動留下來最具威力的知識工具，是一些現(xiàn)象的根源。”

　　——愛因斯坦

　　上上周末是kimi上線一周年，于是月之暗面開了個線下媒體會。在現(xiàn)場，kimi發(fā)布了他們?nèi)鎸?biāo)o1的數(shù)學(xué)推理模型，k0-math。

　　從kimi官方的測試結(jié)果來看，除了高難競賽題，k0-math在數(shù)學(xué)的表現(xiàn)上，超過了o1-mini和o1-preview。

　　我那天其實也想寫來著，但是沒寫的原因是，咱們還是個體驗派，如果不是那種非常炸裂的東西，所有的東西還是盡量自己深度體驗完，再做成內(nèi)容分享給大家。

　　當(dāng)天我就問Kimi的人，啥時候能用，他們說，再等兩天，快了，上線了一定第一個先給我內(nèi)測。

　　我就等啊等。

　　終于，在上個周末的早上收到他們的消息。

　　打開Kimi，發(fā)現(xiàn)左邊的側(cè)邊欄上，出現(xiàn)了個戴眼鏡的小登西，直接開沖!

　　這就是，K0-math了。

　　迫不及開始測試，和kimi數(shù)學(xué)版聊了兩天。

　　我看到了，kimi想繼續(xù)領(lǐng)先的野心。

　　先說結(jié)論:k0-math在數(shù)學(xué)能力直接拉滿，在推理、邏輯能力上非常強。不過因為極度強化數(shù)學(xué)能力，所以導(dǎo)致有種偏科的好玩，用上去就感覺像是一個刻板印象上的“直男理科大拿”在用數(shù)學(xué)給你解決生活中一切問題。

　　另一個最難能可貴的是，Kimi把完整思維鏈全部放了出來，思考邏輯和那個自言自語上非常的像人，甚至?xí)行?ldquo;通人性”的感覺。

　　目前的測試?yán)铮琸imi數(shù)學(xué)版在每輪對話中只能在第一次發(fā)起對話時被調(diào)取，也就是說目前還不能追問kimi數(shù)學(xué)版，這個還是非常期待后面更新的。

　　先上來，隨手用兩道普通的高數(shù)題測測，比如2024年的考研數(shù)學(xué)題。

　　回答起來沒啥難度，這個層次的題目應(yīng)該是kimi的舒適區(qū)，我試了幾次正確率挺高。

　　再然后，o1剛出來時在群里看到的群友測試的這道題。

　　答案18，也是對的。

　　但是后面我跟@涂津豪測更高難度的競賽題，也就是AIME的時候，發(fā)現(xiàn)離o1的正確率還是差了一點。

　　正確率大概也就50%。

　　涂津豪也測試了一些o1的其他考題，kimi的正確率也會差一點。

　　在超高難度的競賽題上，相對的能力不足是客觀事實，畢竟Kimi官方自己測的AIME的評分上，也確實比o1低個幾分。

　　不過Kimi已經(jīng)是在我們測過的AI大模型里，數(shù)學(xué)題答得僅次于o1的了。

　　但這回的kimi數(shù)學(xué)版，最讓我覺得有趣的，不是本身“做數(shù)學(xué)題的能力”，而是kimi強大的數(shù)學(xué)邏輯和思維，以及那很“通人性”的感覺。

　　畢竟，把答案背下來誰都能回答數(shù)學(xué)題，但比起對錯，“思考”的能力才是能夠讓AI突破訓(xùn)練數(shù)據(jù)不足的桎梏，也只有能思考的AI才稱得上真的擁有“智能”。

　　我在測試過程中，用一個最簡單的問題，獲得了最抽象的一個結(jié)果。答案正確，但過程完全超出我的預(yù)料。

　　不是互聯(lián)網(wǎng)搞抽象的那個抽象，是真的思維層面，kimi好像有一點“抽象”思維的能力了。

　　我問了它一句:1+1=?

　　它一上來，居然懷疑這個問題是不是一個陷阱。這個真的笑死，我感覺一個問題給kimi整PTSD了。

　　不過它也很快給了回答:1加1無疑是2。

　　但它緊接著來了個“且慢”，事情也變得有趣了起來。

　　kimi打出這兩句話的時候，我完全沒預(yù)料到，知識會莫名其妙入侵我的大腦。

　　如它自己所說，kimi從“多”個角度，思考了這個問題。

　　它先是思考了各種進(jìn)制。

　　我以為二進(jìn)制都被考慮到了，夠嚴(yán)謹(jǐn)了。沒想到kimi只是剛開始。

　　它從維度入手，思考用空間向量計算1+1。

　　接著它又思考到了哲學(xué)、形式數(shù)學(xué)和集合論。

　　它一邊思考一邊驗證。先是排除了哲學(xué)的可能性，然后又用皮亞諾公理和集合驗證之前得到的“1+1=2”是否正確。

　　當(dāng)它說“一個懷疑的念頭閃過我的腦海”，我唰地一下有點恍惚。kimi在我心里突然有了特別具體的形象。

　　它好像不是在電腦的另一端，而是站在我面前，戴著眼鏡拿著粉筆和草稿紙，在巨大的黑板上不斷進(jìn)行數(shù)字的推演和驗算。一邊想一邊喃喃自語:

　　“等等，讓我們從皮亞諾公理重新推導(dǎo)一遍...”

　　“且慢!在不同維度下，1+1的結(jié)果會不會有變化?”

　　每次得出一些進(jìn)展，就又因為嚴(yán)謹(jǐn)，迅速開啟反思。

　　像是，一個執(zhí)拗嚴(yán)謹(jǐn)?shù)模瑹嶂耘泻头此嫉模谔剿鲓W秘的，狂熱數(shù)學(xué)家。

　　在當(dāng)時，腦子里，莫名浮現(xiàn)出了，韋神的形象。

　　再接著，數(shù)學(xué)家kimi似乎被自己的推演和驗證說服了。

　　它又用了數(shù)軸可視化、乘法、遞歸加法、減法等等方式驗證1+1=2。甚至回憶起了過往的研究，想尋找是否有證偽的案例。

　　對于我這個數(shù)學(xué)不咋地的人來說，kimi能從這么多維度思考，已經(jīng)夠驚訝了。很多方法我甚至都沒聽過。更難得的是它會在計算是思考和自我懷疑，每一輪kimi想到新方式，驗證，階段性確認(rèn)答案，都讓我莫名起雞皮疙瘩。

　　自己懷疑自己，自己反思自己，自己再驅(qū)動自己。

　　數(shù)學(xué)界的條條定理，不就是在無數(shù)位數(shù)學(xué)家們這樣不斷的思考—反思—再思考的循環(huán)中，一點一點接近的嗎。

　　kimi經(jīng)過數(shù)次驗證后給出結(jié)果時，我甚至真的透過文字感受到了它的開心。

　　“詳盡的探索”、“成就感”、“我自信地得出結(jié)論”。。。

　　莫名被這種勁兒戳到了，又燃又可愛。

　　腦子里浮現(xiàn)過好多好多電影的畫面，那些孤獨的數(shù)學(xué)家們，最終推理出來的那些公式，然后，在那些偉大的定理前，振臂高呼。

　　kimi真的，很通人性。

　　圍觀kimi自己思考，自己博弈，自己判斷，最后獲得結(jié)果。一整套下來，我感覺自己在看三體人做數(shù)學(xué)題。

　　繞是繞了點，但kimi邊思考邊回答的過程，真的讓我感覺最后這個“1+1=2”的結(jié)果，不是從過往的數(shù)據(jù)庫里直接抓到答案丟出來。

　　是它自己，經(jīng)過一步步推理和驗證，計算解答出來的。

　　就像人答對數(shù)學(xué)題的能力可以通過訓(xùn)練獲得，但這種“訓(xùn)練”的前提，是人本身有足夠的“思考”能力。

　　“數(shù)學(xué)是人類知識活動留下來最具威力的知識工具，是一些現(xiàn)象的根源。”

　　這種思考，是人類能研究自然科學(xué)的基礎(chǔ)。

　　高數(shù)、競賽、數(shù)學(xué)定理之類的話題說多了容易頭暈，我們來點接地氣的。你大概就更能get到我說的這種有趣的“數(shù)學(xué)思維”，是什么感覺了。

　　k0-math的回答，真的很獨特，很有趣。

　　甚至有種“萬物皆能數(shù)學(xué)”的感覺。

　　比如，如何科學(xué)地計算“拼夕夕砍一刀成功率?”。它哐哐給我用公式算了一大串。

　　kimi在第一次運算發(fā)現(xiàn)“無法通過有限次的砍刀達(dá)到目標(biāo)”后，又“自我懷疑”了。于是它重新?lián)Q了個方案和思路，又算了一次。

　　“這在現(xiàn)實中是不可能的”。笑死，kimi你也感受到我砍一刀的無助了吧。

　　試了三四個方案后，kimi應(yīng)該也是服了，所以最后結(jié)論。。。

　　理論上無限多。所以就算全球的人都來砍一刀，也拿不到這一百是吧。

　　果然，砍一刀，成功是不可能成功的。。。

　　更好玩的是，除了帶數(shù)字的運算，k0-math甚至連幫我判斷明天要不要出門玩，都是用數(shù)學(xué)公式算出的答案。

　　真的，數(shù)學(xué)公式一出來我有點被說服了。有理有據(jù)，比我用微信扔骰子看點數(shù)靠譜。

　　又比如，最近全平臺網(wǎng)友關(guān)注的《再見愛人4》。

　　我給k0-math喂了麥琳和李行亮在綜藝?yán)锏膸状螤幾h事件，讓它當(dāng)回“清湯大老爺”，推算這倆人的離婚概率。

　　一頓操作猛如虎，給麥琳的過錯比例是60%，就讓我說我覺得Kimi還是輕了，但是整個數(shù)學(xué)思維和方程計算，真的賊有意思。

　　再比如，讓kimi用二元二次方程表達(dá)古詩的意境。

　　以及道家“道生一，一生二，二生三，三生萬物”的數(shù)學(xué)表達(dá)。

　　突然就理解以前中學(xué)老師說，數(shù)學(xué)蘊含美學(xué)和哲學(xué)，是什么感覺了。

　　用一個不太恰當(dāng)?shù)切蜗蟮谋扔?現(xiàn)在的k0-math，像一個充滿探索欲的數(shù)學(xué)家。

　　在整個思維鏈的絮絮叨叨里，也能明顯感覺到Kimi的個性，而這種個性，我只在Claude身上，看到過。

　　不斷的獨白，不斷的思考，不斷的反思。

　　很多年前，我們剛開始牙牙學(xué)語的時候，我們學(xué)會了1+1=2，但，我們可能就是單純地記住答案。

　　但隨著學(xué)習(xí)深入，在理解知識后，某天我們就能自己思考:為什么?在什么條件下成立?還有沒有其他可能?還有沒有類似的情況?

　　在不斷的追問下，人類才發(fā)現(xiàn)了科學(xué)的奧秘，并不斷探索著真理的邊界。

　　過去的大模型更像是一個答案庫，你問什么它搜什么。但現(xiàn)在，無論是GPT還是Kimi，都在嘗試讓AI學(xué)會真正的思考。

　　數(shù)學(xué)對宇宙的解釋，在于它“能表達(dá)已知，更能推理未知”。

　　而數(shù)學(xué)，也正恰恰就是，這把打開思維之門的鑰匙。

　　愛因斯坦如是說:

　　純數(shù)學(xué)在某種意義上，是邏輯思想的詩篇。

　　我期待著，看到AI大模型。

　　與我們?nèi)祟悾黄饡鴮戇@首詩的一天。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

海報生成中...

即時

全球頂級AI創(chuàng)作社區(qū)回歸！海藝AI國內(nèi)首發(fā)“全民娛樂化創(chuàng)作

海藝AI的模型系統(tǒng)在國際市場上廣受好評，目前站內(nèi)累計模型數(shù)超過80萬個，涵蓋寫實、二次元、插畫、設(shè)計、攝影、風(fēng)格化圖像等多類型應(yīng)用場景，基本覆蓋所有主流創(chuàng)作風(fēng)格。

一加Ace 6T官宣：全球首發(fā)驍龍8 Gen5

真我GT8 Pro阿斯頓馬丁F1限量版開售，16GB+1TB售價5499元

新聞

市場占比高達(dá)35.8%，阿里云引領(lǐng)中國AI云增長

9月9日，國際權(quán)威市場調(diào)研機構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場，1H25》報告。中國AI云市場阿里云占比8%位列第一。

企業(yè)IT

華為坤靈發(fā)布IdeaHub千行百業(yè)體驗官計劃，助力中小企

9月24日，華為坤靈召開“智能體驗，一屏到位”華為IdeaHub千行百業(yè)體驗官計劃發(fā)布會。

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機，分別是平板振膜的YH-4000和動圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

IDC今日發(fā)布的《全球智能家居清潔機器人設(shè)備市場季度跟蹤報告，2025年第二季度》顯示，上半年全球智能家居清潔機器人市場出貨1,2萬臺，同比增長33%，顯示出品類強勁的市場需求。

專題

禮儀主持_商業(yè)活動模特演藝服務(wù)公司
九章智算云Alaya NeW Cloud 2.0發(fā)布
中文科技資訊旗下IB科技資訊上線專
中文科技資訊關(guān)于我單位網(wǎng)站被仿冒一

返回主頁 ┊ 關(guān)于我們 ┊ 內(nèi)容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責(zé)聲明 ┊ 原創(chuàng)新聞 ┊ 門戶版

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

一手體驗Kimi版“o1”模型，這就是最通人性的數(shù)學(xué)AI

最新新聞

熱門新聞

即時

全球頂級AI創(chuàng)作社區(qū)回歸！海藝AI國內(nèi)首發(fā)“全民娛樂化創(chuàng)作

新聞

市場占比高達(dá)35.8%，阿里云引領(lǐng)中國AI云增長

企業(yè)IT

華為坤靈發(fā)布IdeaHub千行百業(yè)體驗官計劃，助力中小企

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

專題

一手體驗Kimi版“o1”模型，這就是最通人性的數(shù)學(xué)AI

擴展閱讀

最新新聞

熱門新聞