原始文章

這項研究探討了GPT-4在評估藥物對肝臟、心臟和腎臟健康的毒性時的可靠性,並將其結果與FDA藥物標籤的專家評估進行比較。研究使用了兩種提示方式:一般提示和專家提示。結果顯示,專家提示的準確率(64-75%)高於一般提示(48-72%),但兩者的表現都只是中等。這提醒我們在公共健康應用中使用GPT-4時需謹慎,並建議採用檢索增強生成(RAG)等先進框架來提升其可靠性。 PubMed DOI


站上相關主題文章列表

研究比較了AI語言模型(ChatGPT 3.5和GPT-4)與臨床化學培訓生和教職員對實驗室問題的回答表現。結果顯示,資深教職員的準確率最高達100%,初級教職員、研究員和住院醫師次之。兩個AI模型得分較低,ChatGPT 3.5為60%,GPT-4為71.4%。研究建議,AI無法取代臨床化學專業人員,使用聊天機器人解讀檢驗結果時應謹慎。 PubMed DOI

研究比較了ChatGPT-3.5、ChatGPT-4和Micromedex在評估腎臟疾病患者使用非處方藥物和補充劑的安全性。結果顯示ChatGPT-4與Micromedex的一致性較高,但ChatGPT模型仍需提升準確性和可靠性,才能在醫學領域中被視為可靠的藥物資訊來源。 PubMed DOI

研究發現ChatGPT在心臟衰竭問答方面表現優異,GPT-4回答準確全面,GPT-3.5表現也不錯。這些模型展現高度可信度,可能成為心臟衰竭患者重要資源,但仍需進一步驗證確保安全公平。 PubMed DOI

研究比較了OpenAI的GPT-4與人類專家在心臟病學建議的醫學準確性。結果發現,GPT-4和人類專家在醫學準確性上差不多,人類專家在高準確性回答上表現較好,但也有更多低準確性回答。GPT-4回答較長,用詞較少多樣,可能有助於一般人理解。然而,人類專家在藥物資訊和初步診斷等特定問題上表現更好,顯示GPT-4在臨床判斷上有限。雖然GPT-4在自動醫學諮詢有潛力,但需改進整合臨床推理,確保安全使用。進一步研究探索大型語言模型在醫學領域的潛力是必要的。 PubMed DOI

這篇論文探討了ChatGPT和自然語言處理(NLP)在醫療領域的應用,特別是針對肝臟疾病數據的管理與解釋。文中強調準確且最新的數據對有效實施的重要性,並指出處理敏感醫療資訊時需解決隱私與安全問題。論文概述了ChatGPT的工作流程及其專為醫療設計的功能,強調其在協助研究人員和臨床醫生分析肝臟相關數據的角色。最後,建議ChatGPT有潛力提升肝臟疾病的診斷、預後及病患照護。 PubMed DOI

這項研究評估了生成式人工智慧模型ChatGPT在預測住院病人藥物間相互作用(DDIs)的有效性。研究人員將病人的資料輸入ChatGPT,並用三種不同的提示進行比較。結果顯示,當提示明確提到「藥物相互作用」時,ChatGPT的敏感度較高,但整體準確性仍然偏低,假陰性比例高,且與藥劑師的協議程度極低。Cohen's kappa值顯示評估者之間的可靠性不佳,強調在臨床使用前,ChatGPT仍需進一步改進。 PubMed DOI

這項研究評估了ChatGPT 3.5和4.0在藥物諮詢服務中的表現。結果顯示,ChatGPT 3.5在80%的案例中提供了不錯的答案,而ChatGPT 4.0的表現更佳,98%的回應與醫生的回答相似或更好。不過,兩者的回應都缺乏參考文獻,有時也未能充分解決臨床相關問題。雖然ChatGPT 4.0的答案品質相當高,但在提供參考和臨床解釋方面的不足,顯示它不太適合成為臨床環境中的主要資訊來源。 PubMed DOI

這項研究強調藥物毒性評估對確保藥物安全性和有效性的重要性。研究比較了GPT-4和GPT-4o在預測分子毒性方面的表現,與傳統的深度學習和機器學習模型,如WeaveGNN等,特別針對骨骼、神經和生殖毒性。結果顯示,GPT-4在某些方面表現不相上下。 此外,研究還利用GPT-4結合分子對接技術,探討中藥材對心臟毒性的影響,發現黑芝麻、生薑和薑黃等成分對心臟靶點Cav1.2有顯著結合親和力,可能具心臟毒性。 總體而言,這項研究展示了ChatGPT在藥物化學中的潛力,並使開發高準確度模型變得更容易。 PubMed DOI

這項研究評估了ChatGPT-3.5在小兒腎臟移植教育上的潛力。研究人員向模型提出37個病患相關問題,模型的回答與健康專業人員相似。五位小兒腎臟科醫生根據準確性、相關性等指標評估這些回答,結果顯示準確性(4.51)、相關性(4.56)和全面性(4.55)都很高。雖然大部分回答評價良好,但有些被標示為潛在風險,顯示需要人類監督以確保安全與準確。 PubMed DOI

這項研究評估了OpenAI的ChatGPT-4在提供心房顫動相關資訊的準確性。研究使用108個結構化問題,涵蓋治療選擇和生活方式調整,由三位心臟科醫師根據準確性、清晰度和臨床相關性評估其回答。結果顯示,ChatGPT-4在「生活方式調整」和「日常生活與管理」表現良好,但在較複雜的問題上則表現不佳。整體而言,雖然它在簡單主題上有潛力,但對於需要深入臨床見解的複雜問題仍有局限。 PubMed DOI