由于智能手机和移动互联网的普及,基层治理面对的大多数社会群体,不仅有条件接触各种思想观念,也有能力运用这些思想观念来表达自身诉求。
即便是法律数据拟合度很高的机器学习模型训练也仅是一种相关性分析,对于需要反事实推理得出法律的因果推断过程,机器学习方法尚处于知其然,而不知其所以然的阶段。然而,不少法律语言都存在模糊不清的半影地带。
在样本的数据量不足或数据失真的情况下,即便存在好的计算方法,也难以产生可靠的计算结果。计算法学与法律大数据的到来从未叫嚣理论已死,而只是可能从根本上改变了我们理解世界的方式。总之,计算机难以深度介入与模仿法律人的决策。另一方面,有了成熟的计算方法,还需要具备丰富的法律数据来源。前述方法对于判断法律规范与实践之间的因果关系具有启发和借鉴意义。
此外,大量案外(如社会结构、经济水平和环境等)因素对司法裁判的影响程度,也未以法律数据的形式量化。近年来,计算法学逐渐成为法学界的高频热词。(二)因案成法的算法司法 1. 算法透明与算法解释的司法规则 缓不济急的立法使得司法系统不得不承担解决问题的角色。
最后,对于因算法自身特征而引发的风险,政府则应为算法量身定制监管措施。《国家新一代人工智能标准体系建设指南》从支撑技术与产品、关键通用技术、关键领域技术、产品与服务、行业应用、安全与伦理出发,力图回应人工智能对法律秩序的冲击。《个人信息保护法》第24条自动化决策条款和第55条个人信息保护影响评估条款共同塑造了算法治理的基本架构。各地法院陆续制定了更加细致的当地规定(Local Rules),详细解释抽选算法的输入数据来源、具体运行过程和算法如何保证公平性。
要求简明、完整、正确和清晰的算法,而不仅仅是简明、完整、正确和清晰的文档,也将逐渐在技术上趋于可行,这或许是60年来人化算法之漫长道路的可能句点。针对算法输出,需要审查算法是否以有效格式输出了所有相关的信息,而没有不当地压缩、隐瞒甚或误导,并审查算法输出用于何种目的,以及使用算法的当事方以何种程度、方式依赖于算法输出。
20世纪60年代前后高级编程语言的诞生发展,可视为抽离机器(Abstracting Away the Machine)的过程。例如,基于特定思路的算法解释或算法公平的具体实现,可以成为便于取用的微服务之一。模块IV中,算法风险低但自主性强,其治理主要依托社会(规范)方式,政府(法律)则在其指引下发挥辅助作用。1976年的Perma Research and Dev. Co. v. Singer Co.案进一步展现出法院对算法可解释性的回应。
在这一理念的感召下,斯坦利屋工作组提出了人化系统应当遵循的五方面准则。20世纪80年代起,随着商业软件的发展,怀念开放共享与自由探索精神的开发者,先后建立了自由软件基金会以及通用公共授权(General Public License)机制,谁可以修改代码、在什么环境下修改代码、谁有权反馈修改代码等开源规范逐渐成型。随着算法的演进,监督学习、强化学习、无监督学习、深度学习使得机器不再需要事前掌握一套人类设定的行事规则,而以数据为驱动,建立其思维与行动模式,算法由此脱离了纯粹工具性角色,而有了部分自主性和认知特征,同时也引发了算法黑箱的解释困难。例如,在U.S. v. Davis案中,法院即肯定了以下算法在原理上的公平性:首先,根据抽选范围的总人数和当次需要抽出的人数的商,计算商数。
20世纪70年代伊始,由法学和计算机科学的学者与行政官员一道组成的斯坦利屋工作组(Stanley House)对之进行了深刻反思:自动化系统仅仅是将非人的控制隐藏在计算机程序里,并让这样的实践影响到更多的接收者和参与者。市场(代码)治理可在规范和法律之下,通过经由设计的规制(Design-based Regulation),将硬法和软法刻进系统物理设计、技术设定、代码架构之中,成为系统运行的默认规则。
第三,针对随机抽选场景,美国国家标准与技术研究院(NIST)后续发布了经充分验证的公平抽选算法的原理和详细代码。模块III中,算法风险低且工具性强,其治理主要依托市场(代码)方式,无须法律或规范针对算法出具专门规定,以免叠床架屋。
再进一步,《斯坦利屋准则》实际已全面回应了落实原则的难点:一方面,工作组努力确认,对于在设计中实现部分准则,并没有技术障碍。此外,这一体系有效呼应了《关于加强互联网信息服务算法综合治理的指导意见》中算法分类分级的监管理念。在陪审团抽选场景中,随机抽选算法很快引起围绕算法解释与算法公平的诉争。(二)开源社群的算法规范 开源社群及开源规范的形成与发展是治理算法的又一规范途径。质言之,其横轴是从算法特质出发的分类,其纵轴是从算法风险出发的分级,由此为我国算法治理奠定了理论之基。不仅如此,对于实现算法治理主要原则并在具体算法上实现的低代码、微服务、反事实解释等技术,可建立动态评估和纳入机制。
但截至那时,依然不存在任何针对画像的立法和政策指南。(二)我国算法治理体系的建构 我国算法治理实践与理论提出了两个彼此分离又联系的问题:(1)算法是否需要整体化治理?(2)如果需要,它应如何建构?诚然,算法因主体、对象、事项的不同而不同,但如果只是贴合场景、个案式的治理,则不过是具体问题具体分析的另一表述,在缺乏整体结构下的任何精细化进路,或者无法演绎分析,或者沦为套套逻辑,终将徒劳无功。
其一,在理念上坚持人的主体性,正如马长山教授所指出的:智慧社会需要在国家立法、行业自律、社会评价中确立算法遵从‘善法的伦理原则,从而尊重人权价值、维护‘数字人权和促进社会公平正义。放宽视野看,上述三种治理方式,本质上是政府(法律)治理社会(规范)治理和市场(代码)治理的具体化。
如果与消费者交易的条件可能因为自动化工具发生改变,则应将相应改变告知消费者。对第二个问题的回答是:政府、社群、市场都不是截然分割的场域,而用遵循法律、规范、代码耦合原则,使三者互补嵌入并相得益彰。
既关注输入,也关注输出。然而,即使是随机抽选这样相对简单的算法,仍不时以难以解释的方式,在陪审团抽选中引致公平性问题。调用API的过程,仿佛使唤一个机器人:只需要对机器人说声简单的口令(调用指令),机器人便能找到正确的菜单并交给厨师(通过调用指令,找到实现预先封装好的算法的实现代码),接着,只需要等待用餐。他们只需要对最后的结果有高级别的控制。
在将消费者数据用于多类重要决定前,确保相应数据满足《公平信贷报告法》对数据准确性与应时性的要求。从规范目的论之,备案意图有三,一则说明算法整体和各主要部分的意图,以实现可解释原则。
与互联网诞生之初开放、透明的代码相比,当下的算法不断复杂化和黑箱化。FTC在上述解释性规则中反复援引的Facebook案与Everalbum案,可资参考。
这里的风险不仅与特定场景(如信息内容推送、自动驾驶、金融征信、公共执法等)和可能侵犯法益(如个人财产权、人格权、社会公共利益、国家安全等)有关,还与算法功能(如用户画像、推荐算法、自动化决策等)及其使用规模相关,其毋宁是上述三个因素的综合判断。2. 算法公平的司法规则 自20世纪60年代起,美国各地法院开始走向现代化和数字化。
模块II中,算法风险高但工具性强,其治理主要依托于政府(法律)方式,市场(代码)则负有落实义务。我国算法治理实践已初具雏形,但依然是碎片化的。不仅如此,高级语言发展历程中的不断封装和抽象,为算法开发团队的组织架构提供了较过往组织架构更彻底的解决方案:通过精准、完整地定义所有接口,或者说,精准、完整地制造选取菜单的机器人,让开发团队中每一编程人员仅了解自己负责的部分,而无须了解整个算法的开发细节,可以取得最高的效率。从计算机科学角度出发的高质量文档,包括两类评价指标:文档是否完整解释了算法,即文档是否完整解释了算法的每一输入、输出和例外情形。
第五,对于系统的伦理问题,系统不应戏弄或欺骗个体,系统当协助而非操纵参与者或用户,在作出有关雇佣的负面决定前,系统应对其他雇佣机会作审慎的考量,系统设计者不应参与秘密数据库的设立或维护,并且,系统应以同样的审慎对待所有与系统交互的用户。事实上,作为人类通过代码设置、数据运算与机器自动化判断进行决策的机制,其时算法的作用和影响远不止于此。
图1的纵轴引入了算法应用的风险维度,其风险不限于给个人权益带来的风险,还涵盖了国家、组织和群体可能遭至的风险。在代码层面,我国科技企业和开发者正在积极开发运用数据筛选、算法设计、模型优化等技术工具,着力解决诸如隐私泄露、算法偏见、算法黑箱、非法内容审核等问题。
针对算法输入,需审查数据来源为何、如何处理原始数据、是否具备数据纠错以及何种纠错措施、对数据生成过程的其他认识。面对上述种种问题,司法系统通过以下实践,有效平息了抽选算法的公平性论争。