HSS.ID.A.1表示具有实际数字行(点图,直方图和盒子图)上的图的数据。HSS.ID.A.2使用适合数据分布形状的统计信息,以比较两个或更多不同的数据集的中心(中位,平均值)和差异(四分之一间范围,标准偏差)。HSS.ID.A.3解释在数据集的背景下形状,中心和传播的差异,这考虑了极端数据点(离群值)的可能影响。HSS.ID.B.5以两种方式汇总两个类别的分类数据。在数据上下文(包括关节,边际和条件相对频率)中解释相对频率。认识到数据中可能的关联和趋势。HSS.ID.B.6表示散点图上两个定量变量的数据,并描述变量如何相关。HSS.IC.A.1将统计数据理解为基于该人群的随机样本来推断人口参数的过程。HSS.IC.A.2决定指定的模型是否与给定数据生成过程(例如使用仿真)的结果一致。例如,一个模型说旋转硬币以0.5的概率向上掉下来。连续5个尾巴的结果会导致您质疑该模型吗?HSS.IC.B.3认识到样本调查,实验和观察性研究之间的目的和差异;说明随机化与每个关系的关系。HSS.IC.B.4使用样本调查中的数据来估计人口均值或比例;通过使用仿真模型进行随机采样来开发误差范围。HSS.IC.B.5使用随机实验中的数据比较两种治疗方法;使用模拟来决定参数之间的差异是否显着。HSS.IC.B.6根据数据评估报告。HSS.CP.A.1使用结果的特征(或类别)将事件描述为样本空间的子集(结果集),或者作为其他事件的工会,相交或协同(“或”,“,”和“,”,“不”)。理解/目标学生将理解:
摘要 微睡眠是指意识短暂丧失,完全停止工作。它们是许多需要持续注意力的交通领域(尤其是驾驶)发生致命事故的原因。使用无线 EEG 电极的微睡眠警告装置可用于将用户从即将发生的微睡眠中唤醒。高维数据集(尤其是在基于 EEG 的分类中)带来了挑战,因为通常存在大量潜在有用的特征来检测感兴趣的现象。因此,在训练分类器之前降低原始数据的维度通常很重要。在本研究中,将线性降维方法——主成分分析 (PCA) 和概率 PCA (PPCA)——与八种非线性降维方法(核 PCA、经典多维缩放、等距映射、最近邻估计、随机邻域嵌入、自动编码器、随机邻近嵌入和拉普拉斯特征图)进行了比较,这些数据来自八名健康、未睡眠不足的志愿者,他们执行了 1 小时的 1D 视觉运动跟踪任务。通过目视检查 3D 散点图上的类别分离、可信度得分以及基于堆叠泛化的线性判别分析 (LDA) 系统上的微睡眠检测性能来评估特征减少算法的有效性,该系统基于减少的特征估计 1 Hz 下的微睡眠/响应状态。在可信度方面,PPCA 优于 PCA,但 PCA 优于所有非线性技术。每种特征减少方法的可信度得分也与微睡眠状态检测性能密切相关,有力地验证了可信度在预测性能方面估计特征减少方法的相对有效性的能力,以及独立于黄金标准的能力。
D. PRISM 筛选的所有细胞系中 CX-5461 的 log 10(倍数变化)值的箱线图。倍数变化 163 表示 PRISM 测定中药物处理细胞与对照细胞的细胞活力差异,通过对每个细胞的唯一条形码进行测序估算。倍数变化越低,药物有效性越高。注意:GDSC 发现数据集中没有横纹肌样细胞系。166 E. 瀑布图显示代表神经母细胞瘤细胞系选择性的汇总分数,该分数针对 PRISM 中筛选的 148 种药物中的每种药物绘制(显示 PRISM 和 GDSC 筛选的药物),其中 y 轴 168 是观察到的分数,x 轴是药物等级。 169 F. 散点图显示 GDSC 中 CX-5461 的 MYCN 表达水平(x 轴)与 log 10 (IC 50 ) 值(y 轴)。这些点根据 TP53 突变状态着色。171 G. 蛋白质印迹显示使用 3 个独立 shRNA 敲低 CHP-134 细胞中的 MYCN 后 MYCN 蛋白水平。β -肌动蛋白用作上样对照。强力霉素,多西环素。173 H. 在使用 CX-5461 处理后,MYCN 敲低后的 CHP-134 细胞活力。用三个独立 MYCN shRNA 之一或阴性对照 shRNA 转导细胞。在含有 2 µg/ml 强力霉素的培养基中孵育 6 天后,用 CX-5461 处理细胞 3 天。用 MTS 测量细胞活力。数据代表3次独立实验的平均值±SD。 * P < 0.05, ** P < 0.01, 177 *** P < 0.001。 178 I. 条形图显示全基因组 CRISPR 筛选中 4 种独立 TP53 引导 RNA 的相对丰度(y 轴),无论是 DMSO 还是 CX-5461 处理的 CHP-134 神经母细胞瘤细胞系。 180 J. CX-5461 处理的细胞系中相对于 DMSO 的 Pre-rRNA 45S 表达(y 轴),通过 RT- 181 qPCR 确定,引物位于 rRNA 转录本的内部转录间隔区 (ITS) 区域。 182 数据代表 3 次独立实验的平均值±SD。 *** P < 0.001;ns,与 DMSO 183 对照无显着差异。 CX-5461 浓度:CHP-134,0.2 µM;IMR-5,0.05 µM;KELLY,2 µM;BE(2)-M17,10 µM;184 SK-NSH,2 µM;SK-N-FI,20 µM。185 K. EU 掺入试验评估整体新生 RNA 转录。CHP-134、IMR-5 和 KELLY 细胞 186 用 CX-5461 处理 24 小时。在细胞固定前 30 分钟(CHP-134、IMR-5)或 1 小时(KELLY)187 加入 1 mM EU。用 EU(红色)标记新生 RNA。用 DAPI(蓝色)染色细胞核。188 CX-5461 浓度:CHP-134,0.2 µM; IMR-5 0.05 µM;KELLY,2 µM。比例尺 = 10 μ m。189 L. 瀑布图显示 29 种神经母细胞瘤细胞系中 GDSC 中所有基因表达与 CX-5461 IC 50 倒数(y 轴)的 Spearman 相关性。y 轴上的值越高,基因的高表达与对 CX-5461 的敏感性越高。RNA-POL I 复合物特有的基因(与 RNA-POL II 不共享的基因)以红色突出显示。193 M。散点图显示 RNA-POL I 复合物 194 的 11 个基因的中位表达水平(x 轴)(其中 GDSC 中可获得基因表达估计值)与 29 个神经母细胞瘤细胞系 195 中的 CX-5461 log 10 (IC 50 )(y 轴)之间的相关性。196
死海古卷是圣经古代抄写文化的有力证据。本研究采用创新的古文字学方法(研究古代手写体)作为了解这种抄写文化的新切入点。古文字学的问题之一是在书写风格近乎统一的情况下确定作者的身份或差异。大以赛亚书卷(1QIsa a)就是一个例子。为此,我们使用模式识别和人工智能技术对古文字学进行创新,并开拓个人抄写员的微观层面,以开放了解圣经古代抄写文化。我们报告了该古文字学系列栏目中出现断点的新证据。在没有事先假设作者身份的情况下,基于降维特征空间的点云,我们发现手稿前半部分和后半部分的列最终位于这种散点图的两个不同区域,特别是对于一系列数字古文字工具而言,每个工具都涉及脚本样本非常不同的特征方面。在二次独立分析中,现在假设作者存在差异并使用另一种独立特征方法和几种不同类型的统计测试,在列系列中发现了一个切换点。在第 27-29 列中出现了明显的相变。我们还展示了距离方差的差异,因此手稿第二部分的方差更高。鉴于两半之间存在统计学上的显著差异,我们通过目视检查字符热图和脚本中最具区分力的 Fraglet 集,进行了第三级事后分析。这项研究表明,两位主要抄写员(各自表现出不同的书写模式)负责抄写《以赛亚书卷》,该研究通过提供新的、切实的证据,揭示了圣经的古代抄写文化,证明古代圣经文本并非仅由一位抄写员抄写,而是多位抄写员在仔细模仿另一位抄写员的书写风格的同时,可以就一份特定的手稿密切合作。
课程目标: 1. 提供有关数据处理的必要知识,并使用统计和机器学习方法对实际问题进行分析 2. 使用编程工具生成报告并以图形形式可视化结果 预期课程成果: 1. 能够获得数据科学的基本知识 2. 将实时数据转换为适合分析的形式 3. 通过统计推断从数据中获取见解 4. 使用机器学习技术开发合适的模型并分析其性能 5. 确定需求并可视化结果 6. 分析模型的性能和结果质量 单元:1 简介 4 小时 数据科学: 数据科学简介 – 数字宇宙 – 数据来源 – 信息共享 – 数据科学项目生命周期: OSEMN 框架 单元:2 数据预处理和概念学习 6 小时 数据预处理简介 – 读取、选择、过滤数据 – 过滤缺失值 – 操作、排序、分组、重新排列、排名数据假设的制定 –概率近似正确学习 - VC 维度 - 假设消除 - 候选消除算法 单元:3 R 基础知识 8 小时 R 基础知识 - 数据类型和对象 - 控制结构 - 数据框 - 特征工程 - 缩放、标签编码和独热编码、缩减 单元:4 使用 R 进行模型拟合 8 小时 回归模型 - 线性和逻辑模型,分类模型 - 决策树、朴素贝叶斯、SVM 和随机森林,聚类模型 - K 均值和层次聚类 单元:5 可视化 6 小时 数据可视化:箱线图、直方图、散点图、热图 - 使用 Tableau - 异常值检测 - 数据平衡 单元:6 R 中的性能评估 4 小时 损失函数和误差:均方误差、均方根误差 - 模型选择和评估标准:准确度、精确度、F1 分数、召回率 - 二元预测分类 - 灵敏度 - 特异性。
•评分周期1•评分时间2•分级时间3•评分期4过程标准描述了期望学生参与内容的方式。科学和工程实践(SEP)描述了学生在课堂上需要做的实践才能学习内容。重复出现的主题和概念(RTC)描述了学生如何考虑学习内容才能学习它。科学和工程实践phy.1a提出问题并根据文本,现象,模型或调查的信息来定义问题。phy.1b使用科学实践来计划和进行描述性,比较和实验研究,并使用工程实践来设计解决问题的解决方案。phy.1c在实验室,教室和现场调查期间使用适当的安全设备和实践,如德克萨斯州教育局批准的安全标准所述。phy.1e使用国际单位系统(SI)和定性数据作为证据收集定量数据。phy.1f使用条形图,线图,散点图,数据表,标记图和概念数学关系来组织定量和定性数据。phy.1g开发和使用模型来表示工程问题的现象,系统,过程或解决方案。phy.1h区分科学假设,理论和法律。phy.2a确定模型的优势和局限性,例如其大小,规模,属性和材料。phy.2b通过识别重要的统计特征,模式,错误源和局限性来分析数据。PHY.1D use appropriate tools such as balances, ballistic carts or equivalent, batteries, computers, constant velocity cars, convex lenses, copper wire, discharge tubes with power supply (H, He, Ne, Ar), data acquisition probes and software, dynamics and force demonstration equipment, electrostatic generators, electrostatic kits, friction blocks, graph paper, graphing technology, hand-held visual spectroscopes, inclined planes, iron filings, lab masses, laser pointers, magnets, magnetic compasses, metric rulers, motion detectors, multimeters (current, voltage, resistance), optics bench, optics kit, photogates, plane mirrors, prisms, protractors, pulleys, resistors, rope or string, scientific calculators, stopwatches, springs, spring scales, switches, tuning forks, wave发电机或其他将产生相同结果的设备和材料。
S. No.主题 1 人工智能 (AI) 简介:人工智能的简介、发展和历史、各种应用领域(医疗保健、监控、分析和网络安全等。)、科学应用、机器学习 (ML) 和深度学习 (DL) 简介、AI、ML 和 DL 之间的区别、基于规则的系统、智能代理、优化问题。2 人工智能的 Python 编程:简介、数据类型、变量、运算符、输入和输出操作;环境设置、控制流 - 决策控制、循环语句等。;数据结构 - 列表、元组、字符串、字典、集合;函数式编程 - 函数类型、递归函数、Lambda 函数、模块和包; OOPs 概念、异常处理、Python 库 - numPy、matplotlib、pandas、scipy、seaborn 等。3 人工智能数学:线性代数 - 向量、标量、矩阵和矩阵运算;概率 - 基础、抽样、条件概率、相关和独立事件;统计学基础 - 集中趋势和方差的测量、概率分布(正态、二项式、泊松)、抽样理论、相关性、回归、异常值 4 数据准备和可视化:数据准备、数据预处理、特征工程 - 特征选择技术、特征优化、降维(主成分分析)、数据清理和转换、数据验证和建模;数据可视化 – 使用 Python 库的各种数据图(箱线图、散点图、2D 和 3D 图、时间序列图、直方图等)5 机器学习:机器学习基础、类型 – 监督、无监督和强化学习、机器学习的应用;分类算法 – 线性和逻辑回归(梯度下降、损失函数、交叉熵)、支持向量机、朴素贝叶斯分类器、决策树、随机森林;聚类算法 – k 均值、模型评估 – 欠拟合与过拟合、混淆矩阵、ROC、精度、召回率、F1、F2、偏差和方差。6 深度学习:简介、历史、生物神经元基础知识、多层感知器 (MLP)、反向传播、人工神经网络 - 卷积神经网络 (CNN)、RNN、LSTM、使用 Tensorflow 的 Keras 神经网络模型、迁移学习。6 人工智能的应用:文本分析 - 概述、文本处理(语法、解析和词干提取)、语义和句法分析、信息检索、图像/视频处理 - 人脸识别、对象分类。聊天机器人的实现。7 项目工作
头脑风暴 一种强大、通用且简单的技术,用于在很短的时间内从一群人中产生大量围绕共同主题的想法。原因 问题存在的已证实原因 - 不要与症状混淆。检查表 一种系统的数据收集和解释工具 常见原因变异 系统固有且可预测的变异源。它影响正在研究的过程输出的所有单个值;在控制图中,它作为随机过程变异的一部分出现。只有通过改变系统才能消除常见原因变异。控制图 按数据发生的顺序显示数据,并统计确定预期常见原因变异的上限和下限。它用于指示过程变异的特殊原因,监控过程以进行维护,并确定过程更改是否产生了预期的效果。控制限 控制限定义控制图上绘制的数据中心线或平均值两侧三个标准差的区域。不要将控制限与规格限相混淆 控制限 控制限定义控制图上绘制的数据中心线或平均值两侧三个标准差的区域。不要将控制限与规格限相混淆 效果 可观察到的行为或问题的证据。相互关系 有向图 复杂问题、系统或情况中所有因素的图形表示。LSL 下限规格限是产品或流程性能可接受的值。这也称为下限规格限或 LSL。平均值 一组数字的平均值。等于所有值的总和除以值的数量。中位数 在一系列数字中,中位数是至少有一半的值大于或等于它,至少有一半的值小于或等于它的数字。根本原因 造成不良状况或问题的基本原因。在许多情况下,根本原因可能由几个较小的原因组成。根本原因分析 使用一种或多种不同的工具来确定特定故障的根本原因。运行图 用于根据时间或顺序分析过程的图表。它们给出了某个过程随时间变化的图像,并有助于检测该变化的特殊(外部)原因。任何异常的不可预测的变化。散点图 通过图形方式显示两个变量之间的关系来解释数据的图表 σ 用于表示标准偏差的希腊字母。特殊原因 原因通常不是过程的一部分,会导致过程变化,通常会使过程失控。
复兴布朗菲尔德石油生产的动机扩大了在Jection Wells中应用聚合物凝胶处理的利益。实际上,在类似的储层类型中实施的先前补救措施的数量用于大小新作业。这样的基于类比的设计程序迫使基于全面的现场调查来评估每种储层类型的最频繁设计。这项调查通过审查其在653个注入井中的现场应用,为聚丙烯酰胺聚合物散装凝胶提供了一种新的治疗尺寸策略。新策略建议使用每个储层类型的平均凝胶量和最常见的凝胶量作为对新处理大小的初始估计。使用描述性统计数据和堆叠的条形图从65个现场项目(1985 - 2020)评估了五个凝胶体积的参数。使用四分位间范围方法的异常值检测方法识别出了不足或过度设计的项目。使用多个散点图来确定处理时间和储层温度如何影响治疗量。为了确定凝胶治疗失败的可能原因,没有成功的飞行员束缚了有效的项目。审查表明,散装凝胶处理已成功地处理了储层小偷,可移动的孔隙体积(MPV)30至1,036,000桶。治疗量在240至60,000桶之间;但是,凝胶量<1000和> 20,000桶在现场并不常见。凝胶处理的平均尺寸为10,300桶,每英尺穿孔300桶,占小偷区MPV的21%。通常,与其他储层类型相比,地层类型在砂岩和基质岩层中强烈影响治疗量和更大的处理。治疗量随凝胶处理的时间而降低,并随着形成温度的增加而升高。凝胶飞行员失败的最常见原因是凝胶处理的尺寸不足。对于非常规的储层,治疗尺寸范围在300至590桶之间,平均为414桶或每根脚15.8桶。结果还表明,随着凝胶体积的增加,所有储层类型的所有凝胶治疗反应都会改善,而不仅仅是石油产量,而不仅仅是基质形成。因此,还建议使用矩阵形成的未固结和破裂的储层“大型杀手”策略。不是使用一些类似处理的设计,而是为各种储层类型提供了凝胶处理量的深刻概念。它将显着促进凝胶处理尺寸,并减少为候选储层找到类似物所需的时间。
术语 描述 亲和图 一种创造性过程,与团队合作或由团队使用,用于收集和组织想法、意见、问题等。 头脑风暴 一种强大、通用且简单的技术,用于在很短的时间内让一群人围绕一个共同主题产生大量想法。 原因 问题存在的已证实原因 - 不要与症状混淆。 检查表 系统的数据收集和解释工具 常见原因变异 系统固有且可预测的变异源。它影响所研究的过程输出的所有单个值;在控制图中,它作为随机过程变异的一部分出现。常见原因变异只能通过改变系统来消除。 控制图 按数据发生的顺序显示数据,并统计确定预期常见原因变异的上限和下限。它用于指示过程变异的特殊原因,监控过程以进行维护,并确定过程变化是否产生了预期的效果。 控制限 控制限定义控制图上绘制的数据中心线或平均值两侧三个标准差的区域。不要将控制限与规格限相混淆 控制限 控制限定义控制图上绘制的数据中心线或平均值两侧三个标准差的区域。 不要将控制限与规格限相混淆 效果 可观察到的动作或问题的证据。 相互关系 有向图 以图形方式表示复杂的问题、系统或情形中所有因素。 下限规格限值是一个值,高于该值时产品或流程的性能是可以接受的。这也称为下限规格限或 LSL。 平均值 一组数字的平均值。等于所有值的总和除以值的数量。 中位数 在一系列数字中,中位数是至少有一半的值大于或等于它,至少有一半的值小于或等于它的数字。 根本原因 造成不良情况或问题的基本原因。在许多情况下,根本原因可能由几个较小的原因组成。 根本原因分析 使用一种或多种不同的工具来确定特定故障的根本原因。运行图 用于按时间或顺序分析过程的图表。它们给出了某个过程随时间变化的图像,并有助于检测该变化的特殊(外部)原因。 散点图 用于通过图形显示两个变量之间的关系来解释数据的图表 σ 用于表示标准偏差的希腊字母。 特殊原因 通常不属于过程的一部分的原因会导致过程变化,通常会使过程失控。 任何异常的不可预测的变化。