职业分类是统计学家,经济学家,社会学家使用的有用工具,可以为工作任务和内容的相似之处提供描述者,以及经济和机构背景下的相似之处。要提供现实的社会或经济分析,必须定期更新职业分类词典。在2020年,散布了法国职业分类的新词典(PCS 2020),并配有一种自动完成工具,该工具将5,000个工作的列表完美地链接到其分类类别。只有此列表中的响应仍有待编码。insee选择不将其基于规则的自动编码系统设置为上一个词典中的代码(PCS 2003)中的代码,以适应新词典。Insee而不是选择使用机器学习技术来执行这种类型的分类任务,期望它们的表现良好。在2021年,进行了大型的手动标签活动:在2020年PCS中标记了大约100,000个人口普查工作答案,每两次由两个不同的手动编码器进行标记,并在需要时进行第三次套装,以确保培训/测试集的质量培训/测试设置。最终选择了一种两层神经网络算法(N-gram和分类器的FastText嵌入)。该实验表明,两种自动编码模式(非上市的列表和监督学习)的组合允许在当前职业中达到甚至超过上一个系统的准确率,但对于先前的职业(退休和失业)而言,它具有更多的纸张滑倒。与发送到手动工作的零件的组合可以获得一些准确性。基于这些结果,在2022年研究了预测和培训工具到人口普查生产链中的集成,目的是在PCS 2020中编码2024年的人口普查活动。这涵盖了评估(一部分)在实验过程中开发的(一部分)集成的成本和收益。这涵盖了定义与职业编码相对于职业编码的新组织,定义了通过算法评估和控制编码质量的不同角色和策略。这还涵盖了另一个最佳目标,更雄心勃勃的挑战是构建完全互惠的工具,以从不同来源和不同参与者中编码PCS 2020数据中编码。
主要关键词