有点感觉像是为了V4版本的预热了。毕竟不到三个月的时间,突然就更新了OCR-2版本,这速度也太快了把。不由得让我想起了OpenAI的翁家翌对DeepSeek这个公司的评价:面对中国公司DeepSeek的竞争,OpenAI内部真正感到压力的不是对方的算法创新,而是其惊人的内部迭代速率。当你的对手能够以十倍于你的速度完成训练、验证、调整 ...
在当今多模态大模型的竞争中,文档解析一直是一个难以逾越的瓶颈。尽管早期的CNN+RNN架构已经取得了一定的进展,但在面对复杂的排版、表格以及非线性文本时,依然面临语义与序列错配的问题。当前主流的ViT-based Encoder在字符识别上虽有优势,但在阅读顺序 ...
过去,主流的视觉模型(VLM)其实有点死板:它们通常按照从左到右、从上到下的光栅扫描顺序,把图像切成一个个小方块喂给大模型。但这显然不符合我们人类的阅读习惯。当人类看一张复杂的表格或一幅画时,我们会根据内容的逻辑结构(也就是语义)来灵活调整视线。
近日,上海交通大学集成电路学院(信息与电子工程学院)图像通信与网络工程研究所陈一彤课题组在新一代算力芯片领域取得重大突破,首次实现了支持大规模语义媒体生成模型的全光计算芯片,相关研究以“All-optical synthesis chip for large-scale intelligent semantic ...
在维持极高数据压缩效率的同时,DeepSeek-OCR 2 在多项基准测试和生产指标上均取得了显著突破。模型仅需 256 到 1120 个视觉 Token 即可覆盖复杂的文档页面,这在同类模型中处于极低水平,显著降低了下游 LLM 的计算开销。