领先的大型语言模型(LLMS)接受了公共数据的培训。但是,世界上的大多数数据都是黑数据,主要是以私人组织数据或企业数据的形式公开访问。我们表明,在现实世界企业数据集上测试时,基于LLMS的方法的性能严重降低。基于公共数据的当前基准测试高估了LLM的性能。我们发布了一个新的基准数据集,即Goby Benchmark,以提高企业数据的发现。根据我们在该企业基准的经验,我们提出了提高LLM在启动数据上的性能的技术,包括:(1)层次结构注释,(2)运行时类学习和(3)本体学合成。我们表明,一旦这些技术部署了这些技术,企业数据的性能就与公共数据的性能相当。可以在https://goby-benchmark.github.io/上获得Goby基准测试。