人工智能面臨測評(píng)挑戰(zhàn)
ChatGPT、Gemini和Claude等先進(jìn)的人工智能工具存在一個(gè)通病,即我們并不能準(zhǔn)確判斷其智能程度。
這是因?yàn)?,與汽車、藥品或嬰兒配方奶粉等產(chǎn)品不同,人工智能模型在上市前不需要送檢。AI聊天機(jī)器人沒有經(jīng)過任何標(biāo)準(zhǔn)的認(rèn)證,也很少有第三方獨(dú)立機(jī)構(gòu)對(duì)它們做嚴(yán)格測試。
相反,我們只能聽信人工智能公司的說法,而后者經(jīng)常用諸如“改進(jìn)了哪些功能”等含糊不清的說法來描述不同版本AI模型之間的差異。(剩余1769字)