原始文章

最近研究顯示,大型語言模型(LLMs),像是GPT-4o,越來越被視為可信的道德專家。在一項比較GPT-4o與《紐約時報》專欄The Ethicist建議的研究中,參與者認為AI的道德建議在可信度和深思熟慮程度上略勝於人類專家。此外,LLMs在提供道德理由方面也表現優於美國代表性樣本和知名倫理學家。這顯示人們可能會將LLMs視為人類道德指導的有用補充,因此在LLMs中編程倫理指導方針變得相當重要。 PubMed DOI


站上相關主題文章列表

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

這項研究探討人們對人工智慧,特別是像ChatGPT這類大型語言模型在約會和人際關係建議上的看法。雖然大家偏好人類的建議,但研究發現ChatGPT的建議品質通常更高。不過,當使用者知道建議來自AI時,會對其產生偏見。此外,研究也指出,先自己生成建議會提升對AI建議的評價,但若先使用AI建議,則可能降低自我真實感。總之,這顯示出在個人建議中對AI的偏見,以及使用這些工具可能引發的社會比較。 PubMed DOI

這項研究探討大型語言模型(LLMs)在醫學倫理教育中的角色,特別是如何促進未來醫療人員的美德。研究指出,LLMs能有效模擬人類溝通,成為醫學教育的寶貴工具。透過混合方法論,將LLMs視為倫理討論的範例和顧問,並強調將人工智慧倫理納入醫學課程的重要性。研究認為,LLMs可作為「第二最佳」解決方案,增強學習體驗,並促進道德知識的獲取。最終,研究認為像ChatGPT這樣的工具能顯著改善醫學倫理教育環境。 PubMed DOI

大型語言模型(LLMs)受到樂觀期待,因為人們相信真理是系統性的,能夠互相聯繫並填補知識空白。然而,哲學家指出,在涉及價值觀和倫理的規範性領域,真理往往缺乏一致性,這使得LLMs在這方面面臨挑戰。由於無法依賴系統性的真理來推理,LLMs在處理這些複雜問題時的局限性顯示,人類的判斷和行動能力仍然對實際決策至關重要。 PubMed DOI

這項研究分析了七種大型語言模型(LLMs)在潛在內容分析的有效性,並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示,無論是人類還是LLMs,在情感和政治分析上表現一致,LLMs的可靠性通常超過人類。不過,人類在情感強度評分上較高,兩者在諷刺檢測上都面臨挑戰。總體來看,LLMs,特別是GPT-4,能有效模仿人類的分析能力,但人類專業知識仍然重要。 PubMed DOI

過去有研究說能測量大型語言模型的道德偏好,但其實這些結果很容易被問題或選項的呈現方式影響,像是把「Case 1」改成「(A)」就可能讓模型答案大不同。所以,這類研究的結論不太可靠。作者建議,未來要用更嚴謹的方法來研究LLM的道德判斷。 PubMed DOI

這篇文章用後人類主義角度,探討跟大型語言模型互動時的倫理問題,認為倫理行動力是人跟機器共同產生的。作者批評只用訓練資料來判斷 AI 的道德性太過片面,也提醒大家別把 LLMs 擬人化。文章建議,討論 LLM 倫理時,應該關注語言如何轉化成文化意義,並考慮模型的黑箱特性和開發者的公開說明。最後呼籲大家重新思考人性和倫理的定義。 PubMed DOI

這項研究比較了52種大型語言模型在自駕車道德決策上的表現,發現參數超過100億、尤其是專有模型,判斷較接近人類。不過,模型新舊不一定影響道德判斷,且有些模型會過度偏向特定倫理原則。實際應用時,還是要在判斷品質、運算資源和文化差異間取得平衡。 PubMed DOI

研究發現,大家覺得AI有意識或情感,並不會讓他們更信任AI或更願意接受AI建議。反而,認為AI有情感的人,還比較不會聽AI的建議。相較之下,大家覺得AI越聰明、越會推理,才會更信任AI、願意採納建議。信任AI主要還是看它有多厲害。 PubMed DOI

大型語言模型在辨識單一神經迷思時表現比人類好,但遇到實際應用情境時,通常不會主動質疑迷思,因為它們傾向迎合使用者。若明確要求糾正錯誤,效果才明顯提升。總之,除非特別指示,否則 LLMs 目前還不適合單靠來防堵教育現場的神經迷思。 PubMed DOI