Blog

比较遥感编程的 LLM

执行摘要 为了评估不同的大型语言模型(LLM)在编码任务上的表现,我分配了一个相同的挑战给它们:利用Python来读取并展示Sentinel-1 SLC图像。此任务的难点在于要让LLM理解Sentinel-1 SAR图像的SLC格式是复杂的,并需要适当的处理才能正确显示。 结果显示,Claude-3 Opus在处理过程中未遇到任何问题或错误,表现优秀。而其他大多数的LLM在初次尝试时遇到错误,但在接收错误信息后,能够生成修正后的代码并得出正确结果。 值得一提的是,各个LLM都提供了不同的附加说明和代码实例,这些内容为完成任务提供了极大的帮助。 本次表现优秀的LLM包括: 但需要强调的是,每次的测试结果都可能有所变化。例如,在之前的评估中,ChatGPT 4.0在首次尝试时就给出了正确的代码,而在此次测试中则经历了三次尝试才获得成功。因此,此次排名只是一个参考,展示了各种LLM在面对此类任务时的潜力。 对各LLM的简要评价: 完整实验 ChatGPT 4.0 Turbo Claude-3 Opus Google Gemini Pro Kimi AI 百度文心 (4.0) Deepseek

ChatGPT作为你的研究小助手

在讨论ChatGPT等LLM(大型语言模型)时,人们往往持两种极端观点:一是认为LLM毫无用处,二是担忧超级智能会毁灭人类或至少抢走我们的饭碗。然而,这些极端观点都未触及核心。确实,LLM可能会淘汰某些工作,但更常见的情况是,它们会改变我们完成大多数工作的方式。这种改变究竟是好是坏?会以何种方式呈现?这些问题迄今为止仍无定论。 在某种程度上,认为LLM无用的观点是围绕ChatGPT的过度炒作所带来的误解。人们逐渐认识到,它既不是魔术,也并非超级智能。最近,我读到一篇帖子,抱怨ChatGPT就像一个蹩脚的秘书。尽管我不太喜欢这个比喻,因为即便是蹩脚的秘书也能完成某些工作,而LLM目前还无法做到这一点。但让我困惑的是那篇文章流露出的优越感。仿佛拥有一个糟糕的秘书是件多么可怕的事情。事实上,大多数人根本没有秘书,而一个不怎么样的秘书也总比没有强。 然而,我发现将LLM视为秘书在很大程度上具有误导性。相比之下,将LLM视为研究助手或实习生的想法则更为贴切。例如,秘书可以在现实世界中为您预订旅行等,而LLM目前还无法完成这类任务——至少现在还不行。 另一方面,研究助手或实习生通常用于执行那些清晰、预定义的任务,这些任务既耗时又枯燥,您可能不愿意亲自去做。而LLM在研究支持、文章总结以及明确定义的编码任务等方面表现出众。 因此,我建议大家将LLM视为研究助手或实习生。他们缺乏经验,如同刚走出校园的大学毕业生。他们拥有良好的教育背景,但缺乏实际工作背景。他们不了解您的工作内容、公司结构、公司政治,也不知道如何应对难缠的老板和烦人的客户。他们就像一张白纸,只有书本知识,缺乏实践经验和常识,就像一个新的实习生一样。 请记住,他并非一个糟糕的实习生,只是一个新手。您需要为他设定背景、解释任务,并且只有您才能全面了解这一切是如何相互关联的。您的实习生或LLM并不具备这种全局视野。考虑到这一点,哪些该做、哪些不该做就变得更加清晰了。 您不会直接使用一个实习生,尤其是新手写的文本而不加检查。实习生也不会被允许在无监督的情况下在公司的社交媒体频道上发帖。他的代码在没有经过审核的情况下也不会被投入生产环境,对吧? 如果您曾经带过实习生或研究助手,您就会知道他们确实可以节省时间,但也需要您投入一定的时间进行监督。毕竟,节省的时间可能并没有想象中那么多。实习生会承担一些编码工作,从而让您得以解脱。但是,您现在需要花费时间来检查他们的工作成果。有时,这甚至可能比您亲自完成还要耗费更多时间。 与LLM相似,例如在写作方面它们确实可以节省时间。然而,节省的部分时间必须用于仔细检查LLM的输出结果。虽然写作量减少了,但对文本的批判性阅读和判断能力却变得更加重要。 把LLM想象成一个实习生并非我的创意,但我觉得这个比喻非常有助于理解。新来的实习生将不断学习、快速成长。随着你们之间的相互了解和实习生的进步,所需的监督会逐渐减少。但最终的责任仍然落在您的肩上,而不是实习生或LLM。在使用LLM时,您就相当于扮演了一个经理的角色。