English
全部
搜索
图片
视频
短视频
地图
资讯
更多
购物
航班
旅游
笔记本
报告不当内容
请选择下列任一选项。
无关
低俗内容
成人
儿童性侵犯
时长
全部
短(小于 5 分钟)
中(5-20 分钟)
长(大于 20 分钟)
日期
全部
过去 24 小时
过去一周
过去一个月
去年
清晰度
全部
低于 360p
360p 或更高
480p 或更高
720p 或更高
1080p 或更高
源
全部
Dailymotion
Vimeo
Metacafe
Hulu
VEVO
Myspace
MTV
CBS
Fox
CNN
MSN
价格
全部
免费
付费
清除筛选条件
安全搜索:
中等
严格
中等(默认)
关闭
筛选器
theaisummer.com
Vision Language models: towards multi-modal deep learning | AI Summer
A review of state of the art vision-language models such as CLIP, DALLE, ALIGN and SimVL
2022年3月3日
VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks VisionLLM Demo
Tackling multiple tasks with a single visual language model
deepmind.google
2022年4月28日
1:43:50
SITS-DECO: A GENERATIVE DECODER IS ALL YOU NEED FOR MULTITASK SATELLITE IMAGE TIME SERIES MODELLING
YouTube
Galsen AI
已浏览 12 次
2 个月之前
7:15
CodeOCR: Vision Language Models for Efficient Visual Code Understanding with Multimodal LLMs
YouTube
CosmoX
已浏览 5 次
2 周前
热门视频
Keynote: Phi-3-Vision: A highly capable and "small" language vision model - Microsoft Research
Microsoft
9 个月之前
How do LLMs work with Vision AI? | OCR, Image & Video Analysis
Microsoft Blogs
Zachary-Cavanell
2023年6月2日
5:00
Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing
Microsoft
Presented by the Microsoft
2022年7月4日
VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks VisionLLM Applications
13:02
Latent Implicit Visual Reasoning (Dec 2025)
YouTube
AI Papers Slop
已浏览 38 次
2 个月之前
10:14
V-Thinker: Interactive Thinking with Images
YouTube
Keyur
2 个月之前
What’s AI by Louis-François Bouchard on Instagram: "Meet DeepSeek-OCR, the new kid rewriting how we handle long-context vision. Instead of forcing LLMs to digest endless text, it compresses text into vision tokens—turning documents into a compact optical language. The result? 97% accuracy at a 10× compression ratio and 60% even at 20×. That’s wild. This model runs a Mixture-of-Experts decoder that beats 7B+ vision models with just 570M active params, thanks to smart token efficiency—not brute fo
Instagram
whats_ai
已浏览 1496 次
4 个月之前
Keynote: Phi-3-Vision: A highly capable and "small" language visi
…
9 个月之前
Microsoft
How do LLMs work with Vision AI? | OCR, Image & Video Analysis
2023年6月2日
Microsoft Blogs
Zachary-Cavanell
5:00
Making the Most of Text Semantics to Improve Biomedical Vision-Lan
…
2022年7月4日
Microsoft
Presented by the Microsoft Health Futures tea…
9:17
PaliGemma Vision Language Model for Form and Table Understanding
已浏览 859 次
2024年5月18日
YouTube
Biz AI
27:22
Vision Language Models: Leaderboards, Evaluation Benchm
…
已浏览 3833 次
2024年4月13日
YouTube
AI Anytime
6:03
Molmo: Open-Source Vision Language Models are a GAME CH
…
已浏览 6387 次
2024年10月3日
YouTube
Mervin Praison
2:04:34
CogVLM: The best open source Vision Language Model
已浏览 9248 次
2023年11月25日
YouTube
Aladdin Persson
PeVL: Pose-Enhanced Vision-Language Model for Fine-Grained
…
2024年6月22日
ieee.org
6:35
Vision Language Models | Multi Modality, Image Captioning, Text-t
…
已浏览 1.6万 次
2024年10月9日
YouTube
Ultralytics
3:26
MiniGPT-4: Enhancing Vision-language Understanding with Adv
…
已浏览 793 次
2023年4月17日
YouTube
Deep Learning Explainer
1:00
Vision Language Models | Advantages of VLM's 🎉
已浏览 5401 次
2024年10月21日
YouTube
Ultralytics
5:46:04
Coding a Multimodal (Vision) Language Model from scratch in P
…
已浏览 12.4万 次
2024年8月7日
YouTube
Umar Jamil
2:47:41
Large Vision Language Models Tutorial for BRAILS ++
已浏览 1011 次
2024年9月12日
YouTube
NHERI DesignSafe
20:15
How to Fine-Tune LLama-3.2 Vision language Model on Custom Dataset.
已浏览 4764 次
2024年10月20日
YouTube
NextGen AI Guy
3:54
BenchSci Unveils Multimodal Large Language Models' Power to Revol
…
已浏览 3.3万 次
2024年9月10日
YouTube
Edge AI and Vision Alliance
A Beginner's Guide to Language Models | Built In
11 个月之前
builtin.com
0:48
What are vision language models (#vlm)? A cutting-edge researche
…
已浏览 1754 次
2024年6月12日
YouTube
Snorkel AI
15:29
Florence-2: Foundation Model for Vision and Vision-Language Tasks
已浏览 1367 次
2023年11月21日
YouTube
Data Science Gems
8:28
OpenVLA - An Open-Source Vision-Language-Action Model for Robots
已浏览 5917 次
2024年6月14日
YouTube
Fahd Mirza
12:27
Run Vision Models Locally in LM Studio: Image-to-Text with Multim
…
已浏览 1.1万 次
2024年8月28日
YouTube
The Local Lab
Visual Language Intelligence and Edge AI 2.0 with NVIDIA Cosmos
…
2024年5月3日
nvidia.com
What Is a Large Language Model (LLM)? | Built In
2024年7月16日
builtin.com
1:52
simpleshow explains: Generative AI, Large Language Models and Chat
…
已浏览 1.2万 次
2023年6月8日
YouTube
simpleshow
1:17:04
Self-Hosting your own Vision-Language Models with PaliGemm
…
已浏览 314 次
2024年6月9日
YouTube
المطورون في العالم العربي - DevMENA
7:24
LLaVA: A large multi-modal language model
已浏览 9432 次
2023年12月10日
YouTube
Learn Data with Mark
19:15
Vision language action models for autonomous driving at Wayve
已浏览 1.2万 次
2024年7月3日
YouTube
Weights & Biases
9:00
Demystifying Language Models: A Beginner's Guide
已浏览 1968 次
2023年9月12日
YouTube
H2O.ai
15:05
100% Local Tiny AI Vision Language Model (1.6B) - Very Impressive!!
已浏览 7.3万 次
2024年1月28日
YouTube
All About AI
30:06
10 minutes paper (episode 26):Multi-Grained Vision Language Pre-Trai
…
已浏览 694 次
2023年7月6日
YouTube
CanConTech
观看更多视频
更多类似内容
反馈