(欢快的音乐) - 欢迎参加在斯坦福大学举行的创业思想领袖研讨会 00:00:20,783。 (观众鼓掌)这是斯坦福面向有抱负的企业家的研讨会。ETL 由斯坦福创业工程中心 STVP 和斯坦福创业学生商业协会 BASES 为您带来。我是管理科学与工程系讲师 Ravi Belani,也是企业初创企业炼金术士和加速器总监。今天,我很高兴欢迎 Sam Altman 来到 ETL。 (观众鼓掌)Sam 是 OpenAI 的联合创始人兼首席执行官。我不会用 OpenAI 这个词来形容这堂课的座位。因此,我认为凭借这一点,每个人可能都已经知道 OpenAI,但对于那些不了解的人来说,OpenAI 是 ChatGPT、DALL-E 和 Sora 背后的研究和部署公司。山姆的生活就是打破界限、超越自我和世界的可能性。他在美国中西部圣路易斯长大。
c我们的描述过去两年被誉为人工智能(AI)的“ iPhone时刻”,这是因为大型语言模型(LLMS)领域的快速进步和开创性的成就。由LLMS提供支持的Chatgpt和Sora等AI应用程序在自然语言处理,理解和发电中表现出了显着的功能。基于深度学习的NLP应用程序突然变得无处不在,深刻地改变了我们的工作,生活和交流方式。因此,对那些对这些强大工具有透彻了解并可以熟练地应用并适应各种业务应用程序的个人的需求激增,包括(但不限于)Web搜索,广告,信息提取,客户服务,客户服务,语言翻译,虚拟代理等。本课程旨在为学生提供对NLP尖端神经方法的全面介绍,并使用Python作为主要的实施工具。学生将获得必要的技能
19 尤柯。(2015 年 6 月)。首尔市城市垃圾焚烧基础设施的联合使用。首尔解决方案。https://www.seoulsolution.kr/en/content/joint-use-municipal-waste-incineration-infrastructure-seoul ;Shapiro-Bengtsen, S.、Andersen, F.、Münster, M. 和 Zou, L.(2020 年 7 月)。可供中国能源部门使用的城市固体废物——到 2050 年各省预测。废物管理:第 112 卷。https://www.sciencedirect. com/science/article/abs/pii/S0956053X20302415 ;Shapiro-Bengtsen, S.(2020 年 8 月)。中国建造的垃圾焚烧炉是否超过其需求?中外对话。 https://chinadialogue.net/en/pollution/is-china-building-more-waste-incinerators-than-it-needs ;英国无需焚烧。(2017 年)。垃圾焚烧炉简报系列之一:焚烧产能过剩。https://ukwin.org.uk/btb/BtB_Incineration_Overcapacity.pdf ;Sora, M.(2013 年 1 月)。欧洲焚烧产能过剩和废物运输:就近原则的终结?。Fundacio ENT 和全球焚烧炉替代品联盟。https://www.no-burn.org/incineration-overcapacity-and-waste-shipping-in- europe-the-end-of-the-proximity-principle
作者的经济利益:Stavisky、Henderson 和 Willett 是斯坦福大学所拥有的知识产权的发明人,这些知识产权已授权给 Blackrock Neurotech 和 Neuralink Corp。Wairagkar、Stavisky 和 Brandman 拥有与加州大学校董会拥有的语音 BCI 相关的专利申请。Stavisky 是 wispr.ai 的顾问,并获得了股权。Brandman 是 Paradromics Inc. 的外科顾问。Henderson 是 Neuralink Corp 的顾问,在 Enspire DBS 的医学顾问委员会任职,也是 Maplight Therapeutics 的股东。MGH 转化研究中心与 Neuralink、Synchron、Axoft、Precision Neuro 和 Reach Neuro 签订了临床研究支持协议,LRH 为其提供咨询意见。麻省总医院 (MGB) 正在召集可植入脑机接口协作社区 (iBCI-CC);向 MGB 提供的慈善捐赠协议,包括迄今为止从 Paradromics、Synchron、Precision Neuro、Neuralink 和 Blackrock Neurotech 获得的捐赠,都支持 iBCI-CC,LRH 为其提供了帮助。Glasser 是 Sora Neuroscience、Manifest Technologies 和 Turing Medical 的顾问。
特定运行风险评估 (SORA) 是一种重要的方法,用于将无人机飞行任务所带来的风险归类为法规 [1] 和 [2] 中定义的特定运行类别。该方法基于对地面风险和空中风险的评估。地面风险与人员、财产或关键基础设施遭到无人机撞击的风险有关,因此会考虑与人口密度、运行类型(VLOS 或 BVLOS)和无人机规模有关的运行环境。空中风险的确定考虑了在空域中遇到有人驾驶飞机的概率,该概率主要来自于空域中有人驾驶空中交通的密度和组成。在获得地面风险等级 (GRC) 和空中风险等级 (ARC) 的相应值后,将两者结合起来得出任务的最终评级,即所谓的 SAIL(特定保证和完整性等级),值越高表示潜在风险越大。缓解措施可以是增加设备或改变运营方式,包括订阅 U-space 服务,可用于降低地面和空中风险,从而降低 SAIL。安全评估的示例可在附件 C 中找到。
(1) 一般规定。如 AC 903-001 第 3.0 (3) 节所述,TCCA 创建了 JARUS SORA 流程的“加拿大化”版本,作为开展运营风险评估以支持 SFOC - RPAS 申请的一种手段。到目前为止,这些 SFOC - RPAS 申请及其相关的 ORA 都是根据具体情况单独考虑的。随着复杂 SFOC - RPAS 申请数量的增加,TCCA 选择开发一套标准场景,其中由 TCCA 专家执行通用 ORA,以创建针对特定、常见操作用例的简化申请流程。对于每个标准场景,TCCA 都制定了供操作员在提交 SFOC - RPAS 申请时使用的指导材料,包括有关如何评估某个区域的信息,以及支持申请所需的缓解措施和程序。本附录的每个特定标准场景 (STSC) 部分将对此进行更详细的介绍。请注意,对于所涉及的特定场景,这些 STSC 旨在取代 AC 903-001 中描述的完整 ORA 流程,并且应完整使用它们而无偏差。
视频生成模型已经证明了产生令人难以置信的单眼视频的功能,但是,3D立体视频的产生仍然不足。我们提出了一种使用现成的单眼视频生成模型的无姿势和无训练方法,用于发电3D立体视频。我们的方法使用估计的视频深度将生成的单眼视频扭曲到立体基线的相机视图中,并采用了一种新型的框架矩阵视频介绍框架。该框架利用视频代理模型来从不同的时间戳和视图中观察到的框架。这种有效的方法会产生一致且具有语义相干的立体视频,而无需场景优化或模型调整。此外,我们开发了一个不合格的边界重新注射方案,该方案通过减轻潜在空间中分离的区域传播的负面影响进一步提高视频介绍的质量。我们通过对包括Sora(Brooks等,2024),Lumiere(Bar-Tal等,2024),Walt(Gupta等,2023)和Zeroscope(Wang等人(Wang et al。,2023A)的视频进行实验来验证我们提出的方法的效率。实验表明我们的方法比以前的方法具有显着改善。项目页面https://daipengwa.github.io/svg_projectpage/
摘要 - 大型模式生成AI在学术界和行业中都受到了越来越多的关注。尤其是,两个主要的技术家族是:i)多模式大语言模型(MLLM),例如GPT-4V,它显示出具有多模式理解的不断增强的能力; ii)诸如Sora之类的扩散模型表现出显着的多模式力量,尤其是在视觉产生方面。因此,出现了一个自然的问题:是否有可能同时拥有一个统一的模型来理解和产生?为了回答这个问题,在本文中,我们首先提供了MLLM和扩散模型的详细审查,包括其概率建模程序,多模式体系结构设计以及对图像/视频大型语言模型以及文本到图像到图像/视频/视频的高级应用程序。然后,我们讨论了统一模型的两个重要问题:i)统一模型是否应采用自动回归或扩散概率建模,ii)ii)ii)该模型是否应利用密集的体系结构或专家(MOE)架构的混合来更好地支持生成和理解,这是两个目标。我们进一步提供了建立统一模型并分析其潜在优势和缺点的几种可能策略。我们还总结了现有的大规模多模式数据集,以便将来更好地预测模型。为了结束本文,我们提出了几个挑战的未来方向,我们认为这可以为多态生成AI的持续发展做出贡献。
最近,视频合成的进步引起了极大的关注。视频综合模型(例如AnimateIff和稳定的视频扩散)已经证明了扩散模型在创建动态视觉内容时的实际适用性。Sora的出现进一步介绍了视频生成技术的潜力。尽管有进步,但视频长度的扩展仍受到计算资源的限制。大多数现有的视频综合模型仅限于生成简短的视频剪辑。在本文中,我们提出了一种新型的视频合成模型的调节后方法,称为exvideo。这种方法旨在增强当前视频合成模型的能力,使它们能够在延长的时间持续时间内生成内容,同时产生较低的培训支出。尤其是我们分别设计了跨常见的时间模型体系结构的扩展策略,包括3D综合,时间关注和位置嵌入。为了评估我们提出的调整后方法的功效,我们训练了EXSVD,这是一种基于稳定的视频扩散模型的扩展模型。我们的方法增强了该模型最多生成5倍帧数的能力,仅需在包含40k视频的数据集上进行1.5k GPU小时的培训。重要的是,视频长度的实质性增加不会损害模型的先天概括功能,并且该模型在生成各种样式和决议的视频方面具有优势。我们将公开发布源代码和增强模型1。
最近的索拉(Sora)发展导致了文本对视频(T2V)一代的新时代。随之而来的是对其安全风险的关注。生成的视频可能包含非法或不道德的内容,并且缺乏对其安全性的全面定量理解,对其可靠性和实际部署构成了挑战。以前的评估主要关注视频生成的质量。虽然对文本到图像模型的一些评估认为安全性,但它们涵盖了有限的方面,并且无法解决视频生成中固有的独特时间风险。为了弥合这一研究差距,我们介绍了T2VSAFETYBENCH,这是对文本To-Video模型进行安全至关重要评估的首个全面基准。我们通过视频生成安全的14个关键方面定义了4个主要类别,并构建了一个恶意提示数据集,包括现实世界提示,LLM生成的提示和基于越狱攻击的提示。然后,我们对最近发布的9个T2V模型进行了彻底的安全评估。基于我们的评估结果,我们提出了几个重要的发现,包括:1)在各个方面没有任何单个模型,不同的模型显示了各种优势; 2)GPT-4评估与手动审查之间的相关性通常很高; 3)文本到视频生成模型的可用性和安全性之间存在权衡。这表明随着视频生成的领域迅速发展,安全风险将迅速增加,突出了优先考虑视频安全性的紧迫性。我们的代码可在https://github.com/yibo-miao/t2vsafetybench上公开获取。我们希望T2VSafetyBench可以提供见解,以更好地理解生成AIS时代的视频发电的安全性。