已有20多年了,我有幸与国家统计机构,数据档案,国际组织,研究中心,用户和其他团体合作。我的最初背景和热情是信息技术,但随着时间的流逝,我成为数据管理方面的专家,尤其是数据生产,出版,共享,质量,隐私,更重要的是元数据。最重要的是,我了解了对我们地球,社会和个人更大利益的数据的重要性和需求,作为推动研究和创新的基本工具,支持基于证据的决策,评估对地面上的政策和行动的影响,并衡量我们国家的健康。以下关于我认为的三个相互交织的主题的简短思考和建议,这些主题是数据研究基础架构和实践的现代化和未来的基础。技术在过去30年中发展的快速步伐对数据界产生了巨大影响。许多组织和统计系统都在努力调整和保持步伐,尤其是在公共部门,从本质上讲,该公共部门无法适应变化。在未来十年中,这可能会变得更容易,因为我们将管理指挥棒传递给了下一代数据科学家和信息技术人员,他们天生对我们的新环境具有自然的亲和力,并且受到对未知数的恐惧的限制。我们目前的角色和责任是支持和促进这种过渡。
海上货物以公制量测量,容器端口流量以二十英尺等效单位(TEU)测量。概念:航空:通过其统计部门的国际民航组织(ICAO)建立了标准方法和定义,以收集和报告与航空运输相关的流量(乘客和货运量)数据。这些标准和方法已被国际民航组织的193个成员国以及行业利益相关者(即航空公司和机场。国际民航组织的数据由国家和世界银行用于其开发指标。ICAO使用航空运输报告表格A,AS,B和C到达乘客和货运量以进行航空运输。指标9.1.2报告的航空数据用于预定流量。可以在ICAO统计部门批准的ICAO网站上批准的所有不同概念和元数据与航空运输报告相关的AS,AS,B和C的形式A as,AS,B和C到达乘客和货运量,以便在下面的ICAO统计部门和成员国中找到-http://wwwwwwwwwwwwwww.ica.int/sustainability/pages/pages/pages/pages/pages/pages/eapscel.celccel.-ccel。Martime定义:国际海事货运是一个指标,反映了(1)全球港口的国际货运量(出口)和卸载(进口)的总和(进口),并在公制中进行测量,以及(2)在二十英尺等于二十英尺的单位(TEU)中测量的世界端口的集装箱端口交通。数据是由联合国哥伦比亚省秘书处从各种来源收集的,包括行业,政府和专业的海上运输数据提供商和咨询公司。体积以公制和二十英尺等效单位(TEU)表示。由于国际海事货运量的数据并不广泛,仅报告了吨(而不是吨公里)和区域一级的数据。国家级别的数据可用于以二十英尺等效单位(TEU)测量的容器端口流量。概念:UNCTAD秘书处收集和编译来自各种网站和报告的数据,包括港口和行业协会和机构,国家统计局,非统计公告,政府,政府,专业机构,国际能源局(IEA)等专业机构(IEA),美国能源信息管理局(EIA),petroleum of petroleum fortrum and petrectring and finbel(epecrum and eblistrium and eblistring and eblistring and opecre)(opececrum and eblistring(epepring)(epececrum)。还从海上专业资料(例如Drewry Maritime Research(DMR),Clarksons Research Services(CRS),Dynamar和Lloyd的List List Intelligence(LLI)等海上专业来源发出的报告中收集了数据。道路,铁路,内陆水道,有关所有相关术语的定义,可以咨询UNECE/ITF/EUROSTAT词汇表的运输统计数据。该出版物的第5版可在https://unece.org/dam/trans/main/wp6/pdfdocs/glossary_for_for_transport_statistics_en.pdf
尽管机器学习和人工智能 (AI) 模型为应用程序带来了强大的功能,但目前大部分 AI 开发都是一个相当临时的过程。软件工程和 AI 开发使用许多相同的语言和工具,但 AI 开发作为一种工程实践仍处于早期阶段。挖掘 AI 模型的软件存储库可以深入了解 AI 开发的当前状态。但是,模型周围的许多相关元数据无法直接从存储库轻松提取,需要推理或领域知识。本文介绍了一个名为 AIMMX 的库,可以简化从软件存储库中提取 AI 模型元数据的过程。提取器有五个模块用于提取特定于 AI 模型的元数据:模型名称、相关数据集、参考、使用的 AI 框架和模型域。我们根据来自三个来源的 7,998 个开源模型对 AIMMX 进行了评估:模型库、arXiv AI 论文和最先进的 AI 论文。我们的平台以 87% 的准确率和 83% 的召回率提取元数据。作为 AI 模型元数据提取如何使研究和工具能够推进对 AI 开发的工程支持的初步示例,本文对评估数据集中的模型进行了数据和方法可重复性的探索性分析,并提供了一个用于发现和管理模型的目录工具。我们的分析表明,虽然数据可重复性可能相对较差,样本中有 42% 的模型引用了它们的数据集,但方法可重复性在我们样本中的 72% 的模型中更为常见,尤其是最先进的模型。我们收集的模型可在目录中搜索,该目录使用现有元数据来启用高级发现功能,从而高效地查找模型。
凯文·丹尼希 美国宇航局的搜救技术曾在地球上拯救了数千人的生命,在未来的月球和火星任务中,这些技术将得到增强,以确保宇航员安全返回。 美国宇航局的搜救 (SAR) 办公室正在开发系统并整合 GNSS,以支持阿尔忒弥斯月球任务。 登月、着陆和返回需要始终具备搜救能力。美国宇航局搜救办公室国家事务任务经理 Cody Kelly 在 1 月份的 ION 国际技术会议上表示,由于距离和不确定性,这意味着必须结合使用 GNSS 和其他地理定位技术,才能在极具挑战性的环境中寻找和营救宇航员。 “在[国际]空间站,你乘坐火箭回家的时间不超过 90 分钟。然而,月球离这里有三天时间,”他说。“通过任何通讯方式,火星离你有 21 分钟的路程,因此,地球上的任务控制中心能够在整个任务期间找到你变得尤为重要。”凯利负责所有载人航天搜救行动,并支持 SpaceX、波音和 Artemis/Orion 任务,他已经提供了专门的搜索和救援数据,用于在低地球轨道 (LEO) 着陆后定位载人航天舱和宇航员。凯利说,当宇航员开始在月球上行动时,由于地形崎岖,搜索和救援将极其困难。“在第一次阿波罗登月期间,宇航员并没有在相对平缓的倾斜地形上远离着陆器。然而,新兴技术计划将采用类似温尼贝戈的探测车,它将穿越着陆区以外的广阔区域,包括月球南极的广阔区域,”他说。
最后,免责声明:国防部是一个庞大的组织,拥有大量且有时不一致的文档。我们在此处的描述不可避免地不完整,并且某些细节可能不再准确。表达的观点仅代表作者的观点。虽然我们对国防部中央数据管理组织(国防信息系统局,简称 DISA)以及一些为指挥和控制 ( C2 ) 和后勤进行数据管理的组织有相当多的了解,但我们认为,外部元数据社区将从丰富的、尽力而为的描述中获益更多,而不是将讨论限制在我们最了解的领域。我们的例子是虚构的,而不是基于真实系统,以避免冗长而不必要的详细解释。
数据可用性。在一系列按卫生服务区域划分的疾病特定死亡率的分级统计图中,他们通过双阴影线表示“稀疏数据”。这包括“平行的白色和黑色阴影线,[这]允许在浅色和深色上看到阴影线。” 分级统计图颜色足够清晰,阴影线足够窄,以至于人们可以轻松感知两个层(数据和元数据)。在选择阴影技术之前,在制作此地图集时考虑了许多方法,包括灰度、纹理、点和点符号(如星号)(MacEachren 和 Brewer,1995 年)。阴影线可以有效地指示存在质量问题(例如稀疏数据),但对于更复杂的问题来说不太实用,因为使用多种宽度或颜色的阴影会使主地图混乱。
联邦地理数据委员会 联邦地理数据委员会 (FGDC) 由管理和预算办公室 A-16 号通告成立,旨在促进地理数据的协调开发、使用、共享和传播。FGDC 由农业部、商务部、国防部、能源部、卫生与公众服务部、住房和城市发展部、内政部、司法部、国务院和交通部、环境保护局、联邦紧急事务管理局、国会图书馆、国家航空航天局、国家档案和记录管理局、国家科学基金会和田纳西流域管理局的代表组成。其他联邦机构也参与 FGDC 小组委员会和工作组。内政部担任委员会主席。FGDC 小组委员会负责处理与根据通告协调的数据类别相关的问题。小组委员会制定并实施数据内容、质量和传输标准;鼓励信息交换和数据传输;组织地理数据收集以减少重复劳动。为解决超越数据类别的问题而成立工作组。以下是本出版物的推荐书目引用:联邦地理数据委员会。数字地理空间元数据工作簿版本 2.0 的内容标准。联邦地理数据委员会。华盛顿特区 如需了解有关委员会的更多信息,或希望加入委员会的新闻通讯邮件列表,请联系: 联邦地理数据委员会秘书处 美国地质调查局 590 National Center Reston, Virginia 20192 电话:(703) 648-5514 传真:(703) 648-5755 互联网(电子邮件):gdc@usgs.gov 匿名 FTP:fgdc.er.usgs.gov WWW 主页:http://www.fgdc.gov 联邦地理数据委员会 农业部 • 商务部 • 国防部 • 能源部 卫生与公众服务部 • 住房和城市发展部 内政部 • 司法部 • 国务院 交通部 • 环境保护局 联邦紧急事务管理局 • 国会图书馆 美国国家航空航天局 • 国家档案与记录管理局
这项研究的主要目的是比较新学术数据库中的元数据量和研究出版物的完整程度。使用定量方法,我们选择了一个超过115,000个记录的随机交叉样本,然后在七个数据库(Dimensions,Google Scholar,Microsoft Academic,Openalex,Scilit,Scilit,Sminantic Scholar和The Lens)中搜索。分析了七个特征(摘要,访问,书目信息,文档类型,出版日期,语言和标识符),以观察描述此信息的字段,这些字段的完整性率以及数据库之间的协议。结果表明,学术搜索引擎(Google Scholar,Microsoft Academic和Sminantic Scholar)收集的信息较少,并且完整程度较低。相反,第三方数据库(Dimensions,Openalex,Scilit和The Lens)具有更高的元数据质量和更高的完整性率。我们得出的结论是,学术搜索引擎缺乏通过爬网来检索可靠的描述性数据的能力,第三方数据库的主要问题是源自整合不同来源的信息丢失。
摘要自动化的SDTM生成具有多个好处,包括效率,准确性,遵守监管要求以及加速数据分析过程。但是,由于不同研究之间不同CRF,SDTM域和Esource系统的相似性和不同复杂性的不同,因此开发自动化SDTM的工具对于赞助商,CROS和EDC服务提供商来说是一项艰巨的任务。我们提出了一种自动生成SAS®代码的新方法。基于SAS的宏是根据EDC数据库和SDTM标准的CRF规范开发的。我们的方法具有较高的透明度,可以易于扩展到多个研究,对于相对较小的赞助商和CRO特别有用,因为不需要标准化CRF和RAW DataSet变量的属性(这是最佳实践,但可以是工作中太密集的),并且在其他计算机语言中不需要专业知识。
经济合作与发展组织(OECD)手册,该应用程序是全球的。在Frascati手册的第6次修订中,发展中国家的问题是手册的核心。第七版于2015年10月发布。从2015年版的Frascati手册中获取的以下定义与计算指标有关。研究与实验发展(R&D)包括为增加知识的库存(包括人类,文化和社会知识)而进行的创造性和系统性工作,并设计了可用知识的新应用。研究人员是从事新知识概念或创造的专业人员。他们进行研究,改进或发展概念,理论,模型,技术仪器,软件或操作方法。研究和实验发展(R&D)人员的全日制等效(FTE)被定义为在特定的参考期(通常是日历年)中实际花费在研究和实验开发(R&D)上的工作时间比,除以一个人或组在同一时期内或组在同一时期内或组由一个组或组由一个组或组成的时间。2.b。度量单位(unit_measure)