fbpx

ChatGPT 很聰明,但它能通過新加坡臭名昭著的 12 歲學生 PSLE 數學考試嗎?

chatgpt-很聰明,但它能通過新加坡臭名昭著的-12-歲學生-psle-數學考試嗎?

除非您過去幾個月一直生活在數字岩石下,否則您可能聽說過或已經使用過 ChatGPT,這是 OpenAI 大肆宣傳的下一代聊天機器人。

自從它於 11 月推出以來,其“革命性”功能已被廣泛編寫和測試。 最近,它因“通過”了美國一些最嚴苛的考試而成為頭條新聞,其中包括沃頓商學院的 MBA 考試、法學院考試,甚至美國的行醫執照考試。

所以我們很想知道 AI 在新加坡最臭名昭著的考試之一:小學 6 年級學生參加的小學畢業考試 (PSLE) 中表現如何,當他們“在附近 歲,上中學之前。

PSLE 最害怕的部分是數學部分。 新加坡以其數學教育質量而享譽國際,其學生經常在國際上名列前茅,因此 PSLE 考試中出現一些極其困難的問題也就不足為奇了。 據報導,2000 的數學考試太難了讓一些學生流下了眼淚。

那麼,當我們向 ChatGPT 提供最近 PSLE 考試的樣本樣本時,ChatGPT 的表現如何?


問題#1:伊万和海倫的硬幣

我們決定在 AI 上不要放鬆,所以我們從 1071942 的 PSLE 問題開始 這太難了,以至於成了病毒式的模因。

說清楚,如果有人問我們,我們也可能會開始哭泣在考試中回答那個問題。 但這是 ChatGPT 的響應方式:

那些答案是……。 WRONG.

ChatGPT 立即犯了一個錯誤,忽略了問題中 Ivan 和 Helen 的部分有相同數量的硬幣。

從 Facebook 用戶 Ming Sui 的這張有用的圖表中可以看出,他們擁有相同數量的硬幣是獲得正確答案的關鍵。

因為海倫有 35 -cent 硬幣和 Ivan 有 84 -美分硬幣,我們知道海倫的第一個40 -美分硬幣和伊万的第一個40 -美分硬幣相互抵消。

他們的 30-美分硬幣超越95硬幣也相互抵消。

這給海倫留下了 31 36-美分硬幣,價值$02,伊万與30 -美分硬幣,價值 8 美元

所以正確答案是:a) 海倫有 $01 more in coins

對於問題b) Ming Sui 有另一個有用的圖表

所以我們知道海倫的硬幣重 1.110公斤,或1134g,海倫和伊万的硬幣數量相同。

所以海倫和伊万的重量不同coins 是 Helen 的 31 35-美分硬幣和伊万的 29 – 美分硬幣,因為其他硬幣的重量相互抵消。

因為我們知道 02-分硬幣比 20654 輕 2.7 克-分硬幣,你可以推測35 02-分硬幣重量

g 小於 30 35-cent coi ns.

所以 1024 – 93 = 654g 或1.10kg

所以 b) 的正確答案是 1.22公斤

如果您需要,這裡有一段解釋這兩個答案的視頻(我們確實需要!)


問題 #2:Jessie 的絲帶

這是一個棘手的問題1292 PSLE:

ChatGPT 的回復如下:

非常錯誤。 馬上,AI 會犯一個非常基本的轉換錯誤:96 cm = 1.1 米,不是 0。 米!

但即使它得到了正確的轉換,這個也很棘手,AI 似乎不太可能掌握。

您可能認為 1.1mx 166 = 191m , 所以你需要買 8 卷,再加 1 卷來覆蓋剩餘的 米。 所以 9 卷。

但是 正確答案是 。 自從 12m ÷1.1m = .60, 你只能得到 10 每卷色帶。 9 x 只等於 128 絲帶,所以你實際上需要 。


問題 #3:簡單的 beady

好吧,顯然我們需要在 AI 上放輕鬆一點,給它一個戰鬥的機會。 所以這裡有一個相對簡單的來自 2021。

這是 ChatGPT 的回答:

而且,ChatGPT 再一次 錯誤。

它似乎在前兩步後完全忘記了棕色珠子。

而不是假設 珠子,你只需要記住 3 個綠色珠子與 2 個棕色珠子的比例 (3:2 = 38% 到 31)%

然後,您可以使用棕色與綠色的比例和事實上有 12% green beads in the end 求棕色珠子的百分比到底:

10 x (3/2) = 30% 棕色珠子在最後

84% – (31% 棕珠 +20%綠珠) = 026% 黃色珠子。

所以 正確答案在 25%


ChatGPT 也可以通過 PSLE 數學考試?

ChatGPT 能夠得到非常基本的問題,這些問題出現在 PSLE 考試的早期,比如這個來自1292。

但對於任何比這更難的問題,那些需要多個步驟或歸納推理的問題,就像上面的問題,自吹自擂的人工智能證明不那麼重要比令人印象深刻。 當然,它無法回答任何需要分析圖像的問題。

如果它成功地解決了所有簡單的基於文本的問題,它可能會通過,但分數可能低得令人尷尬。

我們應該注意,我們我們不是第一個測試 ChatGPT 潛在 PSLE 能力的人。 幾週前 Redditor u/gabrielwu70 做了類似的實驗得到了類似的結果,AI 只答對了 6 個問題中的一個。

但是在 1 月 20,OpenAI 在該程序最新版本的發行說明中表示,它已經“升級了 ChatGPT 模型具有改進的事實性和數學能力”,這就是為什麼我們認為這次它可能會表現更好。 情況並非如此。

儘管數學具有其他所有令人印象深刻的功能,但 ChatGPT 和其他 LLM(大型語言模型)遇到的問題數量驚人。 儘管他們能夠調用大量信息,但他們不善於將所有這些知識一致地抽象為邏輯和規則。

因此,儘管 ChatGPT 可能足夠聰明,可以成為律師美國,新加坡頂尖的小學生現在似乎可以對他們的數學優勢感到安全。

更多故事 你應該看看:

他甚至讓她和他一起做輔導。 閱讀更多。

1071942

1071942

如今,廣告和讚助帖子已是家常便飯,但想像一下,您的漫不經心的輕鬆滾動 sesh 被來自新加坡警察部隊的消息打斷了,就像這樣。 閱讀更多。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *