这是卡尔森管理学院的学生的2学学科本科级别的财务数据分析课程。主要学习目标是使学生熟悉大规模的财务报告和资本市场信息数据库并改善学生?与这些数据结合使用的定量分析和解决问题技能。我们将讨论与业务分析,审计,资本市场效率,董事会结构和SEC执法有关的财务报告和公司治理主题。不需要事先编码经验。学生将使用MySQL,Excel和Tableau获得动手数据查询,数据分析和数据可视化体验。学生将学习如何应用科学研究方法来回答问题,提出解决方案并讨论限制。本课程的先决条件是业务统计。我们还将简要概述概率和统计推断的概念。依靠上述工具和方法,学生提高了他们的分析技能,并最终对与财务报告,审计和资本市场相关的问题有了更深入的了解。PREREQ:SCO 2550或同等统计课程。
大型语言模型(LLMS)的快速发展具有显着影响的各个领域,利用了它们出色的几次射击和零照片的学习能力。在这项工作中,我们旨在探索和理解以数据为中心的观点的基于LLMS的特征选择方法。我们首先将现有的特征选择方法(LLMS)分为两个组:数据驱动的特征选择,它需要样本的数值来进行统计推断和基于文本的特征选择,这些特征选择利用LLMS的先验知识来使用描述性上下文进行语义关联。我们使用各种尺寸的LLM(例如GPT-4,CHATGPT和LLAMA-2)进行分类和回归任务的实验。我们的发现强调了基于文本的效果选择方法的效果和鲁棒性,并使用现实世界中的医疗应用来展示其潜力。我们还讨论了采用LLM进行征服选择的挑战和未来机会,为这一新兴领域的进一步研究和探讨提供了见解。
受对老虎机问题渐近行为研究的启发,我们得到了几个策略驱动的极限定理,包括大数定律、大偏差原理和中心极限定理。与经典极限定理不同,我们开发了抽样策略驱动的极限定理,这些定理可以产生最大或最小平均回报。大数定律确定了各种策略下可以实现的所有可能极限。大偏差原理提供了偏离极限域的最大衰减概率。为了描述围绕平均值的波动,我们得到了最优策略下的策略驱动的中心极限定理。这些定理中的极限是明确确定的,并且在很大程度上取决于事件的结构或积分函数和策略。这展示了学习结构的关键特征。我们的结果可用于估计最大(最小)回报,并确定避免双臂老虎机问题中帕隆多悖论的条件。它也为通过统计推断确定提供更高平均奖励的臂奠定了理论基础。
全球生物多样性受到多种压力源的威胁,包括污染和气候变化等人为压力[1,2]。成功有效地减轻对特定物种的威胁需要了解其生态学的知识,但是这些信息并不总是可用。一种解决方案是使用生态模型来解释和预测物种的存在。该目标的一个有力的工具是物种分布模型(SDM),它们是试图使用环境特征的预测和解释物种发生的统计模型[3,4]。响应变量是物种的发生,解释性变量通常是环境特征,其中包括非生物环境的各种描述。研究人员基于统计模型和机器学习发展了越来越复杂的SDM技术[5,6]。SDM拟合到空间数据,其中空间自动校正是一种特征,应考虑到统计推断[7,8]和词语[9-11]。有关SDM和相关统计问题的更完整描述,我们将读者推荐给评论[12,13]。描述环境条件的数据集变得越来越多[14]。更多的数据在更充分地捕获物种的栖息地特征方面提供了希望,这可能会导致更准确的地图和对物种发生的新预测指标的检测[15-17]。这些预测因子很容易在SDM或其他生态模型中使用。对未知值的简单解决方案是两级方法。然而,环境数据通常是从其他模型中预测的,该模型以错误或从测量点进行了插值。GIS层[18-20]存在固有的不确定性,从气象站[21,22]插值的局部气候,主题分辨率和土地利用[23]的变化以及历史数据中物种发生的坐标[24]。最近的研究表明,模型性能差可以归因于环境数据中的高度不确定性[25]。空间未对准环境因素的测量结果与物种观察数据不正确,这是研究环境因素对物种分布的影响的关键来源[26]。预测精确的栖息地图图需要在研究区域的每个可能点上进行准确的环境条件。在第一阶段,人们可以预测每个空间位置的环境因素。典型的解决方案使用的是地统计学模型,例如Kriging,机器学习模型,例如随机森林或将每个观察结果缩放到完整的覆盖网格中。在第二阶段,这些预测的环境因素被视为特殊分布模型中的基础真理。但是,这种方法不考虑协变量值的不确定性,这可能导致错误的统计推断[27]。很少有研究试图评估环境变量对SDM模型的不确定性影响[26-32]。
摘要:在有关人工智能 (AI) 的辩论中,人们的想象力常常天马行空。政策制定者、意见领袖和公众往往认为人工智能已经是一种非常强大的通用技术,其可能性是无限的。然而,尽管机器学习 (ML)——当今人工智能突破的主要计算机科学工具——确实非常强大,但 ML 本质上是一种依赖于上下文的统计推断,因此有其局限性。具体而言,由于 ML 依赖于输入和输出之间的相关性或训练数据中的突发聚类,当今的人工智能系统只能应用于明确指定的问题领域,仍然缺乏典型幼儿或家养宠物的上下文敏感性。因此,决策者不应制定政策来管理通用人工智能 (AGI),而应关注狭义人工智能带来的独特而强大的问题,包括误解的利益和利益分配、自主武器和算法中的偏见。至少就目前而言,人工智能治理并不是管理超级智能系统,而是管理那些创建和部署这些系统的人,并支持人工智能在狭窄的、明确定义的问题领域的应用。
摘要:智能自动化和可信自主性正在被引入航空航天信息物理系统,以支持包括数据处理、决策、信息共享和任务执行在内的各种任务。由于这些任务中人与自动化之间的集成/协作水平不断提高,当机器监控操作员的认知状态并适应它们以最大限度地提高人机界面和交互 (HMI 2 ) 的效率时,闭环人机系统的操作性能可以得到增强。技术发展已使神经生理学观察成为一种可靠的方法,可以使用各种可穿戴和远程传感器来评估人类操作员的状态。传感器网络的采用可以看作是这种方法的演变,因为如果这些传感器实时收集和交换数据,同时远程控制和同步它们的操作,则具有显着的优势。本文讨论了航空航天信息物理系统传感器网络的最新进展,重点关注认知 HMI 2 (CHMI 2 ) 的实现。本文讨论了在此背景下使用的关键神经生理测量及其与操作员认知状态的关系。本文还介绍了基于机器学习和统计推断的合适数据分析技术,因为这些技术可以处理神经生理和操作数据,以获得准确的协同作用。
2023 NSF; Co-Pi,Pi:S。Wojtowytsch(Tamu Math); $ 35,200会议:首届CAMDA会议2021-24 NSF;唯一的pi; $ 149,783 CD&E-MSS:数据科学时代的最佳恢复2020-25 ONR;本地COPI,本地PI:R。Devore(Tamu Math); $ 883,622;负责人:莱斯大学穆里:《深度学习的理论基础》 2019-22 NSF;高级人员(执行委员会),PI:B。Mallick(TAMU统计); $ 1,416,522三脚架:跨学科数据科学基础的德克萨斯州A&M研究所2018-21 NSF; Copi,pi:D。Koslicki(俄勒冈州数学),Copi:I。Ivanov(Tamu Vet Med); $ 292,041 QUBBD:通过生物多样性优化2016-19 NSF分析人类微生物组的快速,有效的数学方法;唯一的pi; $ 99,535 CD&E-MSS:恢复高维结构化功能2011-15 NSF; PI,COPIS:G。Rosen(Drexel Engineering),L。P. Tabb(Drexel Biostatistics); $ 666,322 ATD:通过稀疏重建和统计推断改善微生物混合物的分析
33 Mullainathan, S. 和 Spiess, J. 2017. 机器学习:一种应用计量经济学方法。34 Joseph, A. 2019. 沙普利回归:机器学习模型的统计推断框架。Bracke, P.、Datta, A.、Jung, C. 和 Sen, S. 2019. 机器学习在金融中的可解释性:违约风险分析中的应用。35 Bluwstein, K.、Buckmann, M.、Joseph, A.、Kang, M.、Kapadia, S. 和 Simsek, O. 2020. 信贷增长、收益率曲线和金融危机预测:来自机器学习方法的证据。36 Bholat, D.、Brookes, J.、Cai, C.、Grundy, K. 和 Lund, J. 2017. 发送坚定信息:PRA 监管人发给他们监管的银行和建筑协会的文本挖掘信件。 37 Proudman, J. 2018. 机器人监管─高级分析在审慎监管中的应用。 38 Hunt, S. 2017. 从地图到应用程序:机器学习和人工智能为监管者带来的强大力量 39 Russell, S. 2019. 与人类兼容:人工智能与控制问题。伦敦:Allen Lane。
摘要:统计机器学习(SML)是指允许计算机发现输入数据集的重要特征的算法和方法,这些功能通常很大。从数据发现的特征发现的任务本质上是SML中关键字“学习”的含义。SML算法有效性的理论合理是由不同学科的声音原理(例如计算机科学和统计数据)所基于的。尤其是统计推断方法所理由的理论基础被称为统计学习理论。本文从贝叶斯决策理论的角度对SML进行了评论 - 我们认为,通过使用所谓的贝叶斯范式,许多SML技术与推理密切相关。我们讨论了许多重要的SML技术,例如受监督和无监督的学习,深度学习,在线学习和高斯流程,尤其是在经常使用的非常大的数据集的情况下。我们提出了一个词典,该字典映射了来自计算机科学和统计数据的SML的关键概念。我们用三个中等大型数据集说明了SML技术,我们还讨论了许多实际的实施问题。因此,该评论尤其针对统计学家和计算机科学家,他们渴望理解并将SML应用于中等大数据集。
成功完成本课程后,学生将:1。SLO-1开发生物信息学计算能力:知道如何分析和预测生物信息学算法的性能,例如,分析用于相关性分析,PCA,模式分析等的各种算法的递归和迭代实现,以及如何用于回答BioInformatics问题的问题。2。SLO-2证据推理和生物信息学:证据推理的简介(ER)微积分是传统概率和统计推断的概括。将以比传统方法更大的忠诚度来帮助回答与生物信息学相关的问题的示例。3。SLO-3高级HMM:讨论传统HMM的一些局限性。介绍高级HMM,例如配置文件HMM,跳跃HMM,PAIR-HMMS,Sub-HMM和Phylo-HMM。4。SLO-4表观遗传学:对表观遗传学有足够的介绍性理解,以使学生获得研究由表观遗传学机制引起的疾病所需的知识,并能够开发一条简单的分析管道,该管道将在整个剩余学期中使用,并与其余的课程进行集成。上面的每个SLO对应于下面课程日历中描述的学习模块。也就是说,有四(4)个学习模块与上述每个SLO相对应。