The rise of Grok-1 – a new game-changing LLM
埃隆·马斯克 (Elon Musk) 的 xAI Corp 推出了 Grok-1,这是一款配备 3140 亿个参数和混合专家架构的新 LLM。Grok-1 在 Apache 2.0 许可下作为开源发布,旨在催化人工智能研究的进步。
#416 – Yann Lecun: Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI
Yann LeCun 是 Meta 的首席人工智能科学家,纽约大学教授,图灵奖获得者,人工智能历史上最具影响力的研究者之一。请查看我们的赞助商来支持此播客:- HiddenLayer:https://hiddenlayer.com/lex- LMNT:https://drinkLMNT.com/lex 获取免费样品包- Shopify:https://shopify.com/lex 获得每月 1 美元的试用版- AG1:https://drinkag1.com/lex 获得 1 个月的鱼油供应成绩单:https://lexfridman.com/yann-lecun-3-transcriptE
CDAO Launches First DOD AI Bias Bounty Focused on Unknown Risks in LLMs
国防部首席数字和人工智能办公室启动了两次人工智能偏见赏金演习中的第一次。
R. James "Jaimie" Orr, MA, JD, LL.M
R. James Orr 先生担任国土防御奖学金项目和课程主任,这是一项针对国际研究员的研究生证书课程。Orr 教授于 2015 年首次加入国防大学,担任国家战争学院教员,此前他曾担任蒂芬大学刑事司法与社会科学学院院长。在国家战争学院任职期间
Policy Maps: Tools for Guiding the Unbounded Space of LLM Behaviors
人工智能政策为人工智能模型的可接受行为设定了界限,但这在大型语言模型 (LLM) 的背景下具有挑战性:如何确保覆盖广阔的行为空间?我们引入了政策地图,这是一种受物理地图制作实践启发的人工智能政策设计方法。政策地图不是以全面覆盖为目标,而是通过有意识的设计选择来帮助有效导航,了解哪些方面要捕获,哪些方面要抽象。借助政策投影仪(一种用于设计法学硕士政策地图的交互式工具),人工智能从业者可以调查模型的情况……
推理已成为大型语言模型 (LLM) 的核心范式,不断提高各种基准的准确性。然而,它是否适合精度敏感的任务仍不清楚。我们提出了第一个在严格的低误报率(FPR)制度下分类任务推理的系统研究。我们的分析涵盖两项任务——安全检测和幻觉检测——使用标准法学硕士和大型推理模型(LRM)在微调和零样本设置下进行评估。我们的结果揭示了一个明显的权衡:Think On(推理增强)生成改进......
WIRED Says Chatbots Pushing Russian Propaganda, Forgets To Cite Any Propaganda
《连线》称聊天机器人推动俄罗斯宣传,忘记引用任何宣传内容《连线》杂志发布了一些由盖茨和索罗斯资助的战略对话研究所 (ISD) 人员为您带来的热门宣传内容,战略对话研究所 (ISD) 是一个首要的“反虚假信息”组织,在国会记录中被称为“审查制度工业综合体”的关键参与者(稍后会详细介绍)。根据该报告,人工智能聊天机器人充斥着俄罗斯虚假信息! - 在谈到乌克兰战争时经常引用“俄罗斯国家来源”,并宣扬“虚假和误导性信息”。 ISD 研究称,在他们测试的四个聊天机器人中,对有关俄罗斯乌克兰战争问题的回答中,近五分之一引用了俄罗斯国家来源的消息。 -《连线》杂志搞笑地写道,“自从俄罗斯入侵乌克兰以来,克里
Saturday Citations: Primate skull diversity; exploring matter-antimatter asymmetry; asthma clarified
各位朋友们好!这个秋天的一周对过去十年在狼重新引入后黄石公园的营养级联效应提出了新的挑战。进化生物学家提出,对于早期人类来说,吃腐肉是一种可靠的营养策略,可能影响了进化。中国研究人员报告说,法学硕士和人类表达句子的方式相似。
10 Essential Agentic AI Interview Questions for AI Engineers
一组简明的问题,用于评估 AI 工程师对使用法学硕士、工具和自主工作流程的代理系统的理解。
Brain Rot 2: Legal Corruption, Cuomo Rascist AI Slop Edition
“脑腐”一词已应用于法学硕士和长期新冠疫情,但它也是描述特朗普2.0时代美国法律体系的一个有用术语。
TDS Newsletter: What Happens When AI Reaches Its Limits?
从远处看,新的法学硕士及其支持的应用程序似乎闪闪发光,甚至神奇。不断的产品发布和媒体报道增加了他们的光环,并在机器学习从业者和企业高管中产生了极度的 FOMO 情绪。整体效果如何?感觉人工智能是不可避免的,其价值不容置疑。我们选择的文章 […]后 TDS 时事通讯:当人工智能达到极限时会发生什么?首先出现在《走向数据科学》上。
En ny super prompt kan potentiellt öka kreativiteten i LLM
无聊的人工智能答案问题 一项新的研究技术可以使像 ChatGPT 这样的语言模型显着更具创造性,而您所需要的只是一个智能提示。当您向 ChatGPT 询问问题时,您通常会得到一个“典型”答案。这是由于研究人员所谓的“模式崩溃”,语言模型陷入了安全且可预测的答案中,而不是[…]这篇文章《一种新的超级提示可能会增加法学硕士的创造力》首先出现在人工智能新闻上。
AI Helps Doctors Look At Lots Of Data Fast For Diagnostic Clues
演员、艺术家和音乐家有理由担心人工智能对其收入的影响,但医生和科学家欢迎这种帮助。他们知道打字机并不会让文学比手写更糟糕,而“人工智能”(法学硕士)同样消除了信息访问的“方式”,以便思想家能够找到“原因”。在现代政府控制的医疗保健中,医生对每位患者的时间比以往任何时候都更加紧迫。通常依赖不完整的信息。电子健康记录包含大量患者数据,但其中大部分数据仍然难以快速解读,这对于患有罕见疾病或异常症状的患者来说更具挑战性。阅读更多
我的周末早班火车 WFH 中写道: • 重新审视“智能漂移” 为什么人工智能模型仍然感觉自己变得越来越笨。法学硕士一开始看起来很棒,但随着时间的推移逐渐变得“愚蠢”。对于 GPT-4 和 Claude 3.5 Sonnet 等模型,用户报告了更糟糕的答案、不完整的回答以及完全拒绝工作。 (人工…阅读更多 周五上午 10 点阅读的帖子首先出现在 The Big Picture 上。
Agentic RAG for Software Testing with Hybrid Vector-Graph and Multi-Agent Orchestration
我们提出了一种使用代理检索增强生成 (RAG) 系统来创建质量工程 (QE) 工件的软件测试自动化方法。我们将自主人工智能代理与混合矢量图知识系统相结合,以自动生成测试计划、案例和 QE 指标。我们的方法通过利用 Gemini 和 Mistral 等法学硕士、多代理编排和增强的情境化来解决传统软件测试的局限性。该系统的准确度显着提高,从 65% 提高到 94.8%,同时确保整个文档的全面可追溯性……