LLM 相關三個月內文章 / 第 1 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究比較 ChatGPT-4o 和四款開源大型語言模型在診斷罕見疾病時的表現,發現 ChatGPT-4o 準確率最高(90.1%),而語言會影響模型表現,有些模型英文明顯較好。加入 RAG 技術後,表現較差的模型準確率明顯提升。研究建議醫院和政策制定者導入 LLMs 時,要考慮語言相容性及是否整合 RAG,尤其對較小型模型要特別謹慎。 相關文章 PubMed DOI 推理

這篇評論指出,把非線性控制理論和生成式AI結合,有助於提升癌症治療的個人化和適應性,能更精準預測治療反應並推薦方案。不過,實際應用還面臨數據取得、AI透明度和臨床驗證等挑戰,這些都需要進一步克服。 相關文章 PubMed DOI 推理

美國調查發現,病患普遍比較信任沒用AI的醫師,越多用AI,信任感和就醫意願就越低。這種排斥AI的情況,不分年齡、性別、教育或政治立場都差不多。平常常用AI的人比較不排斥,但自認懂AI的人反而更抗拒。顯示大家對醫療AI還是有疑慮,未來要想辦法提升信任感。 相關文章 PubMed DOI 推理

這項研究比較ChatGPT、Perplexity和Gemini三款AI聊天機器人,針對僵直性脊椎炎的回答。結果發現,三者的答案都超過國中六年級的閱讀難度,一般人較難看懂。Perplexity的資訊最可靠、品質也最好。不過,整體來說,這些AI在可讀性、正確性和品質上還有進步空間,未來仍需加強與監督。 相關文章 PubMed DOI 推理

Shannon 認為印刷英文每個字元約有 1 bit 的熵,但實際溝通是用子句來傳達意義,重點在於意義而非字詞。這項研究用大型語言模型,量化敘事中每個有意義子句所傳遞的資訊量(以 bit 計),專注於「被溝通的意義」而非單純文字。 相關文章 PubMed DOI 推理

這項研究用GPT-4篩選投資人留言,解決留言品質差和重複問題,並結合股價和技術指標,建立多模態模型,大幅提升中國銀行股買賣時機預測準確度。這方法也適用其他市場,證明大型語言模型能強化金融預測,幫助投資人更精準決策。 相關文章 PubMed DOI 推理

大型語言模型雖然在複雜NLP任務表現很好,但在基本的字元和單字編輯上卻很弱。作者提出CWUM基準來測試這些能力,結果發現九個主流LLM在這些簡單任務上表現都很差,但人類卻能輕鬆做到。研究也發現,用監督式微調能大幅改善這些問題,且不會影響模型的泛化能力。 相關文章 PubMed DOI 推理

這項研究用Brief DISCERN工具評估ChatGPT對10個常見泌尿婦科問題的回答品質,結果有九成屬高品質,平均分數18.9分。骨盆器官脫垂的回答分數最低,間質性膀胱炎最高。雖然內容大多正確且符合臨床指引,但ChatGPT沒附參考文獻,還需要進一步評估才能當作完全可靠的資訊來源。 相關文章 PubMed DOI 推理

這項研究發現,把像 Radiopaedia 這類專業放射科資料即時整合進大型語言模型(LLMs),能有效提升它們回答放射科問題的準確度,特別是 GPT-3.5-turbo 和 Mixtral-8 × 7B,甚至有時比人類專家還厲害,也能減少錯誤資訊。不過,這樣會讓回應速度變慢,大約多四倍。整體來說,結合專業資料能讓 LLMs 在醫療領域更可靠。 相關文章 PubMed DOI 推理

10月7日事件和「鐵劍行動」戰爭造成許多人創傷,讓PTSD早期偵測變得更困難。最新文獻回顧探討語言模型能否協助篩檢高風險族群,以及有哪些工具可評估這類研究品質,也討論大型語言模型擔任同儕審查者的可行性。 相關文章 PubMed 推理