LLM 相關三個月內文章 / 第 61 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

近年來,大型語言模型(LLMs)已被應用於醫療領域,特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果,包括ChatGPT(3.5)、Gemini(Pro)和Co-Pilot(免費版),並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測,八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示,LLM,尤其是ChatGPT,通常提供比指南更準確且友好的資訊,顯示出其在改善醫療溝通上的潛力。不過,不同模型的表現差異也顯示出需要量身定制的實施策略。 相關文章 PubMed DOI

這項調查評估了六個人工智慧模型在針對有瘢痕疙瘩及不同程度近視的病人進行屈光手術建議的能力。結果顯示,這些模型一致推薦光學屈光角膜切削術(PRK),而六位經驗豐富的眼科醫生則一致推薦激光原位角膜磨鑿術(LASIK)。值得注意的是,模型提供的42個參考文獻中有55%是虛構的,只有45%是真實的。只有一個模型在近視加重時改變建議,顯示目前人工智慧在臨床決策中的批判性思考能力仍有待加強。 相關文章 PubMed DOI

這項研究評估了ChatGPT對於哮喘常見問題的回答能力,重點在於其可靠性、可接受性和可讀性。研究人員從全球哮喘倡議組織收集了30個問題,並詢問ChatGPT兩次以檢查一致性。五位內科醫師評估了這些回答,結果顯示93.33%的回答被認為可靠,平均評分為3.65分(滿分4分)。不過,78.3%的回答對患者可接受,但可讀性較差,顯示仍需改進,以便更適合患者使用。 相關文章 PubMed DOI

人工智慧技術在病患照護上有很大潛力,尤其在診斷、精神疾病治療和認知測試解讀等方面。雖然進展顯著,但仍需進一步研究其在醫療中的優缺點。一項研究比較了人工智慧(Chat-GPT 3.5)和臨床醫師對癡呆症相關問題的回答,結果顯示人工智慧在易懂性和深度上表現更佳,平均評分為4.6/5,而臨床醫師則為4.3、4.2和3.9。儘管人工智慧的回答質量高,但仍需注意錯誤資訊和數據安全等問題。總之,人工智慧在醫療溝通上有潛力,但需謹慎對待其限制。 相關文章 PubMed DOI

最近,人工智慧和自動化的進展正在徹底改變催化劑的發現與設計,從傳統的試錯方法轉向更高效的高通量數位方法。這一變化主要受到高通量信息提取、自動化實驗、實時反饋和可解釋機器學習的驅動,促成了自駕實驗室的誕生,加速了材料研究的進程。近兩年,大型語言模型的興起也為這個領域帶來了更大的靈活性,改變了催化劑設計的方式,標誌著學科的革命性轉變。 相關文章 PubMed DOI

這項研究評估了ChatGPT 3.5在評分一年級醫學生撰寫的臨床筆記的效果,並與標準化病人進行比較。研究涵蓋168名學生,結果顯示ChatGPT的錯誤評分率僅1.0%,而標準化病人則為7.2%。平均錯誤數方面,ChatGPT為12,標準化病人則高達85,且差異顯著(P=.002)。這項研究顯示,GPT模型在評分臨床筆記上具有潛力,未來可能在醫療教育中提供即時反饋,標誌著醫學教育的一大進步。 相關文章 PubMed DOI

主要組織相容性複合體(MHC)在將表位呈現給T細胞受體中扮演關鍵角色,啟動免疫反應。傳統疫苗設計通常需透過昂貴的高通量篩選來找出高MHC結合親和力的表位。近期,人工智慧(AI)在蛋白質結構預測等領域展現潛力。我們提出了一種基於深度強化學習的生成算法RLpMIEC,能有效設計出結合MHC-I系統的肽,並具備高可解釋性,對加速肽基疫苗開發具有重要意義。 相關文章 PubMed DOI

本研究比較了兩個版本的ChatGPT(3.5和4.0)在生成重症醫療建議的能力。結果顯示,ChatGPT 4.0在適當性上得分顯著高於3.5,但在一致性和可讀性方面差異不大。兩個版本都會產生錯誤資訊,顯示在缺乏專業知識的情況下使用這些工具的風險。這強調了臨床醫師需了解LLM的優缺點,以確保在重症醫療中安全有效地使用這些工具。研究已註冊於 https://osf.io/8chj7/。 相關文章 PubMed DOI

這項研究評估了AI模型在回應英語和阿拉伯語的傳染病問題上的表現,強調多語言環境中獲得準確資訊的公平性。研究比較了ChatGPT-3.5、ChatGPT-4、Bing和Bard在15個與HIV/AIDS、結核病等疾病相關問題上的表現。結果顯示,AI在英語的表現明顯優於阿拉伯語,Bard得分最高。雖然阿拉伯語表現較低,但未達統計顯著性。研究指出,AI在英語的完整性和準確性優於阿拉伯語,建議開發者應改善阿拉伯語使用者的健康資訊獲取。 相關文章 PubMed DOI

這項研究比較了Google和兩個版本的ChatGPT(3.5和4.0)在拇外翻手術問題上的回答準確性和可讀性。研究人員分析了Google「人們還會問」中關於「bunionectomy」的前十個問題,發現ChatGPT的回答明顯較長,3.5版平均315字,4.0版294字,均超過Google的回答。此外,根據Flesch-Kincaid可讀性測試,ChatGPT的回答更複雜,整體來看,兩個版本的內容都比Google長且可讀性較差,超出一般美國人口的閱讀水平。 相關文章 PubMed DOI