Encoder Decoder - 搜索 News

DeepSeek-OCR 2：让模型“先学会怎么看”，再学会读

有点感觉像是为了V4版本的预热了。毕竟不到三个月的时间，突然就更新了OCR-2版本，这速度也太快了把。不由得让我想起了OpenAI的翁家翌对DeepSeek这个公司的评价：面对中国公司DeepSeek的竞争，OpenAI内部真正感到压力的不是对方的算 ...

GitHub

深入理解 LLM 核心原理，动手实现你的第一个大模型

很多小伙伴在看完 Datawhale开源项目： self-llm 开源大模型食用指南后，感觉意犹未尽，想要深入了解大语言模型的原理和训练过程。于是我们（Datawhale）决定推出《Happy-LLM》项目，旨在帮助大家深入理解大语言模型的原理和训练过程。本项目是一个系统 ...

搜狐

告别CLIP，DeepSeek-OCR-2开源：用视觉因果流重构文档解析

在当今多模态大模型的竞争中，文档解析一直是一个难以逾越的瓶颈。尽管早期的CNN+RNN架构已经取得了一定的进展，但在面对复杂的排版、表格以及非线性文本时，依然面临语义与序列错配的问题。当前主流的ViT-based Encoder在字符识别上虽有优势，但在阅读顺序 ...

腾讯网

DeepSeek开源OCR-2模型，教AI像人类一样看世界

过去，主流的视觉模型（VLM）其实有点死板：它们通常按照从左到右、从上到下的光栅扫描顺序，把图像切成一个个小方块喂给大模型。但这显然不符合我们人类的阅读习惯。当人类看一张复杂的表格或一幅画时，我们会根据内容的逻辑结构（也就是语义）来灵活调整视线。

3 天

百万量产之后，轻舟智航又盯上了L4无人车 | 对话于骞

截至目前，轻舟累计辅助驾驶搭载量突破100万台，行业首个单地平线征程6M芯片实现的城市NOA功能正式上车，当前已经确定拿下数十款车型量产。同时，轻舟发布了VLA与世界模型统一架构，并宣布正式进军L4无人物流领域。从本次公布的多项进展看到，轻舟正在从过去的“蛰伏”变得不“低调”。

2 天

刚刚，DeepSeek又探索新架构了，开源OCR 2

在维持极高数据压缩效率的同时，DeepSeek-OCR 2 在多项基准测试和生产指标上均取得了显著突破。模型仅需 256 到 1120 个视觉 Token 即可覆盖复杂的文档页面，这在同类模型中处于极低水平，显著降低了下游 LLM 的计算开销。

天天基金网

腾讯混元3年变形始末

姚顺雨加入腾讯两个月后，2025年12月初，腾讯发布混元2.0模型，总参数为4060亿。其英文名更新为HY2.0，被视为重视全球市场的举措。有人猜测该模型就是姚顺雨入职后的成果。但按照业内训练一代模型的周期来看，混元2.0不太会是姚顺雨从零开始训练的模型。

10 天

效果、性能双突破，快手OneSug端到端生成式框架入选AAAI 2026

基于上述问题，快手在业界首次提出端到端的生成式统一查询推荐框架 ——OneSug，成功将召回、粗排、精排等多个阶段统一在一个生成模型中，显著提升了推荐效果与系统效率，在快手电商场景中实现了业务指标与用户体验的双重提升。

Microsoft

Uniﬁed Vision-Language Pre-Training for Image Captioning and VQA

This paper presents a uniﬁed Vision-Language Pre-training (VLP) model. The model is uniﬁed in that (1) it can be ﬁnetuned for either vision-language generation (e.g., image captioning) or ...

Microsoft

Minimum latency training strategies for streaming sequence-to-sequence ASR

some analysis to understand the behaviors of streaming S2S models.

知乎专栏 on MSN

成为大模型算法工程师最少应该掌握哪些知识? 来自一线算法工程师 ...

先说下我的经历，有6年大厂算法工程师的经验，2022年前主要做CV和NLP，2023年全面转向大模型方向。平均每年负责三个大模型相关项目，也参与组内其他项目。无论是作为面试官还是候选人，这前前后后的经历我都积累了不少。今天纯粹是个人经验分享，没有任何广告，可能带有我的个人视角，大家批判参考就好。

9 天

HOLO 微云全息基于 Masked 预训练 Transformer 的红外光谱反卷积算法

在 Transformer 架构的基础上，微云全息基于“Masked 预训练”策略。这种策略最初源于 BERT 模型在语言理解任务中的成功经验，被证明能够有效捕捉序列中元素间的深层次关系。微云全息研究团队将其迁移到红外光谱数据建模中，提出了一种自监督学习框架，用于从大规模无标签的红外光谱数据中自动学习鲁棒特征。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果