ChartGPT: Leveraging LLMs to Generate Charts from Abstract Natural Language.
ChartGPT：利用LLM生成來自摘要自然語言的圖表。 IEEE Trans Vis Comput Graph 2024-02-22

NLI製圖越來越受歡迎，但準確轉換使用者需求成圖表是挑戰。提出ChartGPT系統，利用LLMs從語言生成圖表。採用逐步推理管道方法增強處理複雜邏輯問題的效能。建立包含語句和圖表的數據集，微調模型減少偏見。設計互動界面，讓用戶查看並修改輸出。透過評估和用戶研究評估系統效能。 PubMed DOI

Unveiling the clinical incapabilities: a benchmarking study of GPT-4V(ision) for ophthalmic multimodal image analysis.
揭示臨床無法力：GPT-4V(ision)用於眼科多模態影像分析的基準研究。 Br J Ophthalmol 2024-05-24

研究評估了基於GPT-4V的聊天機器人在解釋眼科條件的眼部多模態影像表現。測試結果顯示在準確性、可用性和安全性方面表現不盡相同。雖然在燈裂影像表現不錯，但眼底攝影表現較差。總體而言，聊天機器人能正確識別影像模式，但在病變檢測、診斷和決策支持方面有待提升。研究結論指出，GPT-4V尚不適用於眼科臨床決策，並提出改進多模態模型的建議。 PubMed DOI

Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine.
多模態 GPT-4 視覺在醫學中專家級準確性背後的隱藏缺陷。 NPJ Digit Med 2024-07-23

最近研究顯示，具視覺功能的GPT-4V在某些醫療挑戰中超越人類醫師，特別是在多選題準確性上。透過《新英格蘭醫學雜誌》的影像挑戰，我們分析了GPT-4V在影像理解、醫學知識回憶和多模態推理的表現。結果顯示，GPT-4V的多選題準確率為81.6%，人類醫師則為77.8%。不過，GPT-4V在影像理解方面的推理常有缺陷，出現率高達35.5%。儘管準確率高，研究強調在GPT-4V能有效應用於臨床前，需更深入評估其推理能力。 PubMed DOI

Putting ChatGPT vision (GPT-4V) to the test: risk perception in traffic images.
將 ChatGPT 視覺 (GPT-4V) 付諸實驗：交通影像中的風險感知。 R Soc Open Sci 2024-07-30

這項研究探討了視覺語言模型GPT-4V在評估交通影像風險的能力，並與人類評估進行比較。研究使用了210張影像，這些影像由約650位個體評分。結果顯示，重複提示、變更提示文本及結合物件偵測特徵能提升模型的有效性。AI預測與人類評分的相關係數達0.83，顯示其預測能力強大。研究建議，對GPT-4V的提示應模仿人類對多項目問卷的反應，以提高準確性。 PubMed DOI

Assessing GPT-4 multimodal performance in radiological image analysis.
評估 GPT-4 多模態在放射影像分析中的表現。 Eur Radiol 2024-08-30

這項研究評估了多模態人工智慧模型 GPT-4V 在解讀放射影像的表現，包括超音波、電腦斷層掃描和 X 光。分析230張急診影像後，模型在影像識別上達到100%準確率，但在解剖和病理識別上表現不佳，尤其是病理識別僅35.2%。儘管有潛力，GPT-4V 的診斷錯誤率超過40%，引發臨床使用的可靠性擔憂。研究強調需進一步開發以提升準確性，確保病人安全，並指出目前不宜作為獨立診斷工具。 PubMed DOI

Promises and Pitfalls: Using Large Language Models to Generate Visualization Items.
承諾與陷阱：使用大型語言模型生成視覺化項目。 IEEE Trans Vis Comput Graph 2024-09-10

這篇論文探討了VILA管道的開發，該管道能自動生成多選視覺化項目，以評估視覺化素養。作者創建了1,404個候選項目，涵蓋12種圖表類型和13種視覺化任務，並與專家合作制定評估規則，最終形成約1,100個高品質的VILA資料庫。研究指出VILA管道的局限性，強調人類監督的重要性。此外，作者還開發了VILA-VLAT測試，顯示出良好的效度。最後，論文提供了對VILA的應用建議及實用指導，相關材料可在線獲取。 PubMed DOI

VisEval: A Benchmark for Data Visualization in the Era of Large Language Models.
VisEval：大型語言模型時代的數據視覺化基準。 IEEE Trans Vis Comput Graph 2024-09-10

這篇論文探討了自然語言轉視覺化（NL2VIS）的挑戰，並指出大型語言模型（LLMs）在此領域的潛力。作者提到，缺乏全面的基準測試使得評估LLMs的視覺化能力變得困難。為了解決這個問題，他們提出了名為VisEval的新基準測試，包含來自146個資料庫的2,524個查詢，並附有準確的標籤。此外，還引入了一種自動評估方法，評估有效性、合法性和可讀性。透過VisEval的應用，作者揭示了共同挑戰，並為未來的NL2VIS研究提供了重要見解。 PubMed DOI

How Good (Or Bad) Are LLMs at Detecting Misleading Visualizations?
大型語言模型在檢測誤導性視覺化方面的表現如何（好或壞）？ IEEE Trans Vis Comput Graph 2024-09-12

這項研究探討誤導性圖表的問題，這些圖表可能會扭曲數據解讀，影響決策。研究強調需要有效的自動檢測方法，特別是在多模態大型語言模型（LLMs）技術進步的情況下。研究分析了一個包含誤導性圖表的數據集，並測試四種不同的LLMs，使用九種提示來識別超過21種圖表相關問題。結果顯示，這些LLMs能理解圖表並批判性解釋數據，顯示它們在對抗誤導性資訊和提升視覺素養方面的潛力。整體而言，研究強調了LLMs在解決誤導性圖表問題上的重要性。 PubMed DOI

Large language models predict human sensory judgments across six modalities.
大型語言模型預測人類在六種感官模式下的判斷。 Sci Rep 2024-09-13

這項研究探討大型語言模型，特別是GPT-4，如何從語言中恢復感知資訊，這在哲學和認知科學中非常重要。研究分析了六個心理物理數據集，發現GPT-4的判斷與人類數據相符，能捕捉到感知表徵，如色輪和音高螺旋。值得注意的是，GPT-4在視覺任務上的表現並未顯著提升，因為它同時接受視覺和語言訓練。此外，研究還檢視了多語言的顏色命名任務，顯示GPT-4能反映英語和俄語之間的變異，突顯語言與感知的複雜關係。 PubMed DOI

How Aligned are Human Chart Takeaways and LLM Predictions? A Case Study on Bar Charts with Varying Layouts.
人類圖表摘要與大型語言模型預測的對齊程度如何？以不同佈局的條形圖為案例研究。 IEEE Trans Vis Comput Graph 2024-09-16

這項研究探討大型語言模型（LLMs）從條形圖生成類似人類的重點摘要能力，重點在於視覺化設計的影響。研究包含三個實驗，使用四種條形圖佈局：垂直並排、水平並排、重疊和堆疊。第一個實驗測試四個LLM在不同配置下的表現，結果顯示即使是先進的LLM也難以產生多樣且準確的解讀。第二個實驗發現LLM的重點摘要常與人類的比較類型不一致。第三個實驗則顯示圖表的上下文和數據影響LLM的表現，顯示出不一致性。總體而言，研究強調了LLM在模仿人類數據解讀方面的限制，並指出未來改進的方向。 PubMed DOI

原始文章

站上相關主題文章列表