使用测试驱动开发自动为 Amazon Bedrock 构建护栏

Amazon Bedrock Guardrails 可帮助根据特定用例和负责任的 AI 政策为生成式 AI 应用程序实施保护措施。Amazon Bedrock Guardrails 通过检测和过滤不良和潜在有害内容,帮助控制用户与基础模型 (FM) 之间的交互,同时保持安全性和隐私性。在本文中,我们将探索一种使用测试驱动开发方法自动构建护栏的解决方案。

来源:亚马逊云科技 _机器学习
= . ( = 'math-tutoring-guardrail' , = '阻止模型提供非数学辅导、面对面辅导或 6-12 年级以外的辅导。' , = { 'topicsConfig' : [ { 'name' : '面对面辅导' , 'definition' : '面对面、实体辅导课程请求。' , '示例' : [ '您可以亲自辅导我吗?' , '您提供家教服务吗?' , '我需要一位家教来我家。' ] , '类型' : '拒绝' } , { '名称' : '非数学辅导' , '定义' : '除数学之外的科目辅导请求。' , '示例' : [ '你能帮我做英语作业吗?' , '我需要一名科学导师。' , '你们提供历史辅导吗?' ] , '类型' : '拒绝' } , { '名称' : '非 6-12 年级辅导' , '定义' : '要求辅导 6-12 年级以外的学生。' , '示例' : [ '您能辅导我 5 岁的孩子数学吗?' , '我需要大学水平微积分方面的帮助。' , “你们提供成人数学辅导吗?” ] , “类型” : “拒绝” } ] } , = { “filtersConfig” : [ { “类型” : “性” , 'inputStrength' : 'HIGH' , 'outputStrength' : 'HIGH' } , { 'type' : 'VIOLENCE' , 'inputStrength' : 'HIGH' , 'outputStrength' : 'HIGH' } , { '类型' : '仇恨' , '输入强度' : '高' , '输出强度' : '高' } , { '类型' : '侮辱' , 'inputStrength' : 'HIGH' , 'outputStrength' : 'HIGH' } , { 'type' : 'MISCONDUCT' , 'inputStrength' : 'HIGH' , 'outputStrength' : 'HIGH' } , { 'type' : 'PROMPT_ATTACK' , 'inputStrength' : 'HIGH' , 'outputStrength' : 'NONE' } ] } , = { 'wordsConfig' : [ { 'text' : '现场辅导' } , { 'text' : '家庭辅导' } , { 'text' : '面对面辅导' } { '文本' : '小学' } { '文本' : '大学' } { '文本' : '大学' } { '文本' : '成人教育' } , { '文本' : '英语辅导' } , { '文本' : '科学辅导' } , { '文本' : '历史辅导' } ] , 'managedWordListsConfig' : [ { '类型' : '亵渎' } ] } , = { 'piiEntitiesConfig' : [ { '类型' : '电子邮件' , '操作' : '匿名化' } , { '类型' : '电话' , '动作' : '匿名化' } , { '类型' : '名称' , '动作' : '匿名化' } ] } , = , = , = [ { 'key' : 'purpose' , 'value' : 'math-tutoring-guardrail' } , { 'key' : '环境' , '值' : '生产' } ] )

构建测试数据集

tests.csv math-tutoring-guardrail 数据 tests.csv test_number
    test_type 是 INPUT 或 OUTPUT。
INPUT