【資料圖】
編程客棧() 7月11日 消息:根據《Patterns》雜志周一發表的一項研究,超過一半的時間里,AI檢測器錯誤地將非英語母語者的寫作判斷為機器生成。這種錯誤分類可能對求職者、學生和其他經常根據寫作能力評估的人造成困擾,也可能使教師、教授和招聘經理難以判斷作品的真實性。
多家公司已開始開發AI檢測軟件,旨在區分人類寫作和機器生成的內容,但大多數工具的效果不佳,而且使用場景有限。
研究人員使用七個廣泛使用的GPT檢測器對91篇非英語母語者的TOEFL(外語口語能力測試)文章進行評編程估。雖然這些檢測器能夠正確將超過90%的八年級學生的文章判斷為人類寫作,但在對非英語母語者的TOEFLbmNbL文章進行分類時,檢測器的表現就不盡如人意了。
在所有七個GPT檢測器中,非英語母語者的TOEFL文章的平均誤檢率為61.3%。其中一款檢測器將近98%的jsTOEFL文章錯誤地判斷為機器生成。所有檢測器一致地將約20%的TOEFL文章判斷為機器生成,盡管它們實際上是人類寫編程的。
大多數AI檢測器通過衡量文本的“困惑度”來運作。困惑度是文本中一個詞在給定上下文中的預測難度的度量。由于非英語母語者在某種語言中的寫作通常具有相對有限的詞匯和可預測的語法范圍,這可能導致更容易預測的句子和段落。研究人員發現,通過減少TOEFL樣本文章中的詞重復,可以顯著減少AI檢測軟件中的誤判。相反,簡化八年級學生文章中的語言會導致更多文章被錯誤地判斷為機器生成。
這項研究指出,AI檢測工具經常將非英語母語者的寫作錯誤地判斷為機器生成,可能對他們在求職市場、學術環境和互聯網上的存在產生重大影響。當前的AI檢測工具還需要顯著改進,因此在評估或教育環境中不建議使用,特別是在評估非英語母語者的作品時。然而,由于AI檢測通常依賴于相似的AI模型,很難想象它們如何真正學會超越自己。這個問題的解決需要更進一步的研究和技術創新。