比较遥感编程的 LLM
执行摘要 为了评估不同的大型语言模型(LLM)在编码任务上的表现,我分配了一个相同的挑战给它们:利用Python来读取并展示Sentinel-1 SLC图像。此任务的难点在于要让LLM理解Sentinel-1 SAR图像的SLC格式是复杂的,并需要适当的处理才能正确显示。 结果显示,Claude-3 Opus在处理过程中未遇到任何问题或错误,表现优秀。而其他大多数的LLM在初次尝试时遇到错误,但在接收错误信息后,能够生成修正后的代码并得出正确结果。 值得一提的是,各个LLM都提供了不同的附加说明和代码实例,这些内容为完成任务提供了极大的帮助。 本次表现优秀的LLM包括: 但需要强调的是,每次的测试结果都可能有所变化。例如,在之前的评估中,ChatGPT 4.0在首次尝试时就给出了正确的代码,而在此次测试中则经历了三次尝试才获得成功。因此,此次排名只是一个参考,展示了各种LLM在面对此类任务时的潜力。 对各LLM的简要评价: 完整实验 ChatGPT 4.0 Turbo Claude-3 Opus Google Gemini Pro Kimi AI 百度文心 (4.0) Deepseek