火狐体育网址

报名 开源Talk: 层次化结构视觉编码器的多模态大语言模型


文章出处:电缆盘    发表时间:2024-10-24 12:03:37

  始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》。wisemodel社区上升级了,两步完成模型部署和,并。

  主题简介: 传统视觉的编码器层次化结构的(例如,Swin Transformer等)和原始结构(ViT)两种,我们得知原始结构的Vision Transformer在处理高分辨率图像理解问题时,会遇到二次空间复杂度和冗余视觉token的问题。而层次化结构的视觉编码器一般具有线性空间复杂度,并且具有信息压缩的结构,更加适应当前的高分辨率图像理解场景。为了证明我们的想法,个人会使用层次化结构的ConvNeXt,并训练了一个额外的阶段来压缩视觉token,使得模型显著地更加高效。

  报告人: 葛春江,清华大学自动化系博士在读,主要研究方向为多模态大语言模型,Embodied AI。在CVPR,AAAI,IEEE TNNLS,SCIS等高水平期刊和会议上发表高水平论文5篇,获得谷歌学术引用500多次。受邀为CVPR,ICCV,ECCV,NIPS等高水平会议审稿。

  开源社区建设需要长时间坚持和投入,更需要广大新老用户的热情参加、贡献和维护,欢迎各位加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

  始智AI wisemodel社区自2023年9月上线以来,慢慢的变成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,能够最终靠添加wisemodel微信,或者将简历投递到邮箱:

  欢迎投稿分享AI领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优秀品质的内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到,也可以扫码添加wisemodel微信。

  始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型网络公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。