文本领域信息情报检索---XiaoMi-AI

2026年7月16日 00:00

使用混合文本和 ID 嵌入个性化增量视频搜索

Personalizing Incremental Video Search with Hybrid Text and ID Embeddings

增量视频搜索需要在每次击键后进行高质量排名，而意图通常不明确（例如，1-3 个字符前缀）。我们提出了一个 Apple TV 搜索的个性化系统，该系统在排名时结合了互补的语义和协作信号。我们的方法学习两个项目嵌入空间：(i) 基于文本的多语言编码器 (TextEmb)，通过对比学习对共同参与三元组进行微调；(ii) 基于 ID 的协作嵌入模型 (IdEmb)，根据交互衍生的积极因素进行训练。在服务时，我们从…构建用户表示

《航空与航天杂志》

2026年7月16日 15:18

一名男子因使用化名、假身份证和假手稿窃取价值超过 20 万美元的“稀有且独特”的中文文本而被判刑

Man Sentenced for Stealing 'Rare and Unique' Chinese Texts, Valued at More Than $200,000, by Using Aliases, Fake IDs and Dummy Manuscripts

这些作品在数年的时间里从加州大学洛杉矶分校被盗

The Hindu Business Line _经济

2026年7月14日 09:06

印度和欧盟很快完成贸易协定文本的法律清理：Goyal

India, EU to soon finish legal scrubbing of trade pact text: Goyal

“戈亚尔在印度-西班牙商业论坛上发表讲话时表示，印度与欧盟自由贸易协定的法律审查应该会在一周或两周内结束

日本NLI研究所信息

2026年7月10日 09:48

人工智能时代的网络风险披露——从证券报告文本分析中我们可以学到什么

AI時代のサイバーリスク開示－有価証券報告書をテキスト分析して分かること

■概要通过对证券报告中“经营风险”的文字分析，确认2026年提及“网络攻击”的公司比例将达到47.2%，接近一半，且在各规模、各行业均呈上升趋势。可以说，网络风险已成为各行业共同的管理问题[图1]。提及“人工智能”的企业比例从2021年的3.6%大幅上升至2026年的19.4%。企业对人工智能的描述围绕着一种危机感，即延迟应对人工智能将导致竞争力下降，而将人工智能与网络攻击等风险联系起来的描述仍然很少。然而，随着Mythos丑闻之后，全球范围内对AI对AI构成的威胁的认识不断增强，明年的证券报告预计将加深其与传统安全威胁（如“信息泄露”和“通信故障”）的关系。 ■目录 1 - 简介 2 -

Apple机器学习研究

2026年7月7日 00:00

通过高级模态条件和交互来驯服文本到声音视频的生成

Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction

这项研究的重点是文本到声音视频 (T2SV) 生成，旨在生成具有文本同步音频的视频，两种模式都与文本条件一致。尽管联合音视频训练取得了进展，但仍然存在两个关键挑战：（1）文本调节是一个瓶颈——共享字幕（TV = TA）触发模态干扰，而密集的训练字幕和简洁的推理用户提示之间仍然存在差距；（2）跨模态特征交互的最佳融合机制仍不清楚。为了解决第一个挑战，我们首先提出......

Apple机器学习研究

2026年7月7日 00:00

LensVLM：用于文本压缩视觉表示的选择性上下文扩展

LensVLM: Selective Context Expansion for Compressed Visual Representation of Text

视觉语言模型 (VLM) 提供了将文本处理为渲染图像的令人兴奋的可能性，无需将文本标记为长标记序列。由于 VLM 图像编码器将固定大小的图像映射到固定数量的视觉标记，因此不同的渲染分辨率提供了细粒度的压缩旋钮。然而，随着压缩率的增加，准确性会迅速下降：字符缩小到低于视觉编码器的有效分辨率，使它们难以区分。为了解决这个问题，我们提出了 LensVLM，这是一个推理框架和训练后配方，使 VLM 能够扫描……

OSP网站大数据新闻

2026年7月7日 06:02