原始文章

最近研究顯示,大型語言模型(LLMs),像是GPT-4o,越來越被視為可信的道德專家。在一項比較GPT-4o與《紐約時報》專欄The Ethicist建議的研究中,參與者認為AI的道德建議在可信度和深思熟慮程度上略勝於人類專家。此外,LLMs在提供道德理由方面也表現優於美國代表性樣本和知名倫理學家。這顯示人們可能會將LLMs視為人類道德指導的有用補充,因此在LLMs中編程倫理指導方針變得相當重要。 PubMed DOI


站上相關主題文章列表

研究評估了GPT-4在處理複雜醫學倫理情境時的表現。倫理學家發現模型在技術清晰度方面表現不錯,但在深度和可接受性方面有待提升。模型在微妙的倫理困境和道德原則應用上遇到困難。研究強調了在臨床使用GPT-4前需要持續評估和改進。 PubMed DOI

研究發現GPT-4在回答醫學倫理問題上有潛力,但在處理實際倫理困境上仍有改進空間。整合大型語言模型到醫學倫理決策有潛力,但需謹慎。建議運用模型挖掘健康記錄,或作為倫理教育工具,但需注意其限制。 PubMed DOI

了解大型語言模型(LLMs)如GPT-3.5、GPT-4、PaLM 2和Llama 2如何做出道德判斷是相當重要的,特別是在自動駕駛領域。一項使用道德機器框架的研究發現,LLMs和人類通常在考慮人類而非寵物以及拯救更多生命方面保持一致,但PaLM 2和Llama 2的偏好存在明顯差異。這些發現揭示了LLMs的道德框架及對自動駕駛的影響。 PubMed DOI

研究發現人們認為GPT-4的道德評估比人類更好,但也能分辨兩者。結果顯示人們可能會接受人工智慧的道德指導,強調在道德問題上保障人工智慧語言模型的重要性。 PubMed DOI

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

這篇文章探討大型語言模型(如Claude、Bard、GPT-3.5和GPT-4)中嵌入的價值觀如何影響初級醫療的倫理決策。研究使用Schwartz的價值觀理論,評估這些模型的價值觀輪廓,並與超過53,000名受訪者的數據進行比較。結果顯示,每個模型的價值觀獨特,偏向普遍主義和自我導向,可能反映西方中心的偏見。這些模型的建議顯示出其內在價值觀對決策的影響,因此在臨床應用前需謹慎考量,並調整以符合多元文化觀點。 PubMed DOI

最近大型語言模型(如ChatGPT和Bard)在教育領域的應用引發了對學術論文寫作潛在濫用的擔憂。本研究探討這些模型是否能生成關於醫學生個人經歷和倫理困境的非結構性論文,並檢視其是否能與人類作品區分。 研究團隊收集了47篇學生的原創論文,並利用這些內容生成相同數量的AI論文。分析結果顯示,AI生成的論文在情感和分析思維的語言使用上較學生作品更為頻繁。儘管存在語言特徵的差異,兩個LLMs在反映學生對倫理困境的經歷方面均表現出高度有效性。 PubMed DOI

大型語言模型(LLMs)因在知識性任務上表現優於人類而受到關注,但在社會情境的準確評估和建議適當行為方面仍有不確定性。一項研究中,五個聊天機器人與276名人類參與者進行比較,結果顯示Claude、Copilot和you.com的智能助手在社交情境建議上超越人類,且其行為評價接近專家意見。這顯示LLMs在社會判斷上具潛力,但其廣泛應用仍面臨挑戰與風險。 PubMed DOI

這項研究探討了三個大型語言模型(LLMs)——GPT-4、Gemini-pro-1.5和Llama-3-70b,以及執業醫師在面對倫理模糊的醫療問題時的回答一致性。共生成1,248個問題,醫師的同意率僅55.9%,而LLMs之間的同意率高達76.8%。這顯示LLMs在倫理複雜情境中可能成為有價值的顧問,且其一致性優於醫師。研究強調了進一步探討LLMs在現實世界倫理困境中的表現的重要性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在醫學倫理教育中的角色,特別是如何促進未來醫療人員的美德。研究指出,LLMs能有效模擬人類溝通,成為醫學教育的寶貴工具。透過混合方法論,將LLMs視為倫理討論的範例和顧問,並強調將人工智慧倫理納入醫學課程的重要性。研究認為,LLMs可作為「第二最佳」解決方案,增強學習體驗,並促進道德知識的獲取。最終,研究認為像ChatGPT這樣的工具能顯著改善醫學倫理教育環境。 PubMed DOI