LLM 相關三個月內文章 / 第 151 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究比較ChatGPT、Perplexity和Gemini三款AI聊天機器人,針對僵直性脊椎炎的回答。結果發現,三者的答案都超過國中六年級的閱讀難度,一般人較難看懂。Perplexity的資訊最可靠、品質也最好。不過,整體來說,這些AI在可讀性、正確性和品質上還有進步空間,未來仍需加強與監督。 相關文章 PubMed DOI 推理

Shannon 認為印刷英文每個字元約有 1 bit 的熵,但實際溝通是用子句來傳達意義,重點在於意義而非字詞。這項研究用大型語言模型,量化敘事中每個有意義子句所傳遞的資訊量(以 bit 計),專注於「被溝通的意義」而非單純文字。 相關文章 PubMed DOI 推理

這項研究用GPT-4篩選投資人留言,解決留言品質差和重複問題,並結合股價和技術指標,建立多模態模型,大幅提升中國銀行股買賣時機預測準確度。這方法也適用其他市場,證明大型語言模型能強化金融預測,幫助投資人更精準決策。 相關文章 PubMed DOI 推理

大型語言模型雖然在複雜NLP任務表現很好,但在基本的字元和單字編輯上卻很弱。作者提出CWUM基準來測試這些能力,結果發現九個主流LLM在這些簡單任務上表現都很差,但人類卻能輕鬆做到。研究也發現,用監督式微調能大幅改善這些問題,且不會影響模型的泛化能力。 相關文章 PubMed DOI 推理

這項研究用Brief DISCERN工具評估ChatGPT對10個常見泌尿婦科問題的回答品質,結果有九成屬高品質,平均分數18.9分。骨盆器官脫垂的回答分數最低,間質性膀胱炎最高。雖然內容大多正確且符合臨床指引,但ChatGPT沒附參考文獻,還需要進一步評估才能當作完全可靠的資訊來源。 相關文章 PubMed DOI 推理

這項研究發現,把像 Radiopaedia 這類專業放射科資料即時整合進大型語言模型(LLMs),能有效提升它們回答放射科問題的準確度,特別是 GPT-3.5-turbo 和 Mixtral-8 × 7B,甚至有時比人類專家還厲害,也能減少錯誤資訊。不過,這樣會讓回應速度變慢,大約多四倍。整體來說,結合專業資料能讓 LLMs 在醫療領域更可靠。 相關文章 PubMed DOI 推理

10月7日事件和「鐵劍行動」戰爭造成許多人創傷,讓PTSD早期偵測變得更困難。最新文獻回顧探討語言模型能否協助篩檢高風險族群,以及有哪些工具可評估這類研究品質,也討論大型語言模型擔任同儕審查者的可行性。 相關文章 PubMed 推理

這項研究發現,大學生和由開源大型語言模型驅動的社交機器人互動四週後,對機器人的社交性和互動投入度都很穩定且高。學生覺得機器人越來越像真人,但不適感沒減少。技術穩定、個人化對話和管理期待,是未來教育應用的重點。 相關文章 PubMed DOI 推理

這篇文章整理了基礎模型在植物分子生物學的應用現況,介紹多種針對植物的AI模型,像GPN、AgroNT等,能解決植物基因組的特殊問題。文中也點出資料多樣性、模型設計和運算資源等挑戰,建議未來要提升模型泛用性、整合多元資料並加強運算效率,才能讓基礎模型在植物科學發揮更大效益。 相關文章 PubMed DOI 推理

這項研究發現,ChatGPT 提供的先天性白內障資訊,正確性和完整性跟醫師差不多,易讀性甚至更好,特別是內容簡化後。Google 搜尋結果則最不可靠、最難懂。總結來說,ChatGPT 是取得清楚、正確健康資訊的好工具,尤其適合健康素養較低的人,但還是建議多方查證。 相關文章 PubMed DOI 推理