当前位置:首页 > 培训职业 > 正文

遥感论文 | Arxiv | RemoteCLIP:针对遥感的视觉-语言大模型来了!代码已开源!

本文的创新在于提出了RemoteCLIP,一个专为遥感设计的视觉-语言基础模型,旨在通过学习丰富的语义特征,提升其在各类下游任务中的表现,如零样本图像分类、对象计数等。为解决数据稀缺问题,研究者通过数据扩展,将异构注释转换成统一格式,结合无人机图像,构建了大规模预训练数据集,是现有数据集的12倍。

RemoteCLIP在16个数据集,包括新引入的RemoteCount对象计数基准上的表现超越了基础模型,特别是在对象识别和检索任务中。其零样本和少样本分类能力也得到了验证,比如在PatternNet、EuroSAT等12个数据集上的测试。

该模型通过Box-to-Caption生成和Mask-to-Box转换技术,将多源数据整合,同时通过样本去重确保数据集的纯净性。实验结果展示了RemoteCLIP在遥感领域的强大适应性和性能优势,证实了数据扩展方法对于基础模型性能提升的重要性。

尽管RemoteCLIP在多个基准上取得了SOTA(State-of-the-Art)成果,但仍存在改进空间。这再次强调了在特定领域开发基础模型时,数据是关键因素,这与医学领域的BioMedCLIP等研究相呼应。未来的工作将致力于解决模型的局限性,以实现更广泛的应用和性能提升。

多重随机标签

猜你喜欢文章