这节我们主要学习

  • 结构化学习介绍
  • 结构化学习的统一框架
  • 结构化学习中需要解决的几个问题

1. 结构化学习

  • 我们需要一个功能更加强大的函数$f$
    • 输入和输出都是具有结构的对象
    • 对象:序列,列表,树,边界框
$f:X \rightarrow Y$


$X$是一种对象的空间,$Y$是另一种对象的空间。

在之前的课程中,输入和输出都是向量。

  • 语音是被:
    • X:语音信号(序列)$\rightarrow$Y:文字(序列)
  • 翻译:
    • X:普通话句子(序列)$\rightarrow$Y:英文句子(序列)
  • 句法分析:
    • X:句子$\rightarrow$Y:解析树(树结构)
  • 目标检测:
    • X:图像$\rightarrow$Y:边界框
  • 总结:
    • X:一段较长的文件$\rightarrow$Y:概要(较短的段落)
  • 搜索:
    • X:关键字$\rightarrow$Y:搜索结果(网页列表)

2.统一框架

$F(x,y)$用来衡量两个对象$x$,$y$到底有多匹配;

在测试的时候,给定一个对象$x$,穷举所有的$y$,找到使$F(x,y)$最大的$y$

$f:X \rightarrow Y$

中的$f$,是穷举的所有$y$中满足最大$F(x,y)$

这种对应关系的映射。

2.1 目标检测

  • 任务描述
    • 使用边界框突出显示图像中某个对象的位置
    • 例如,Haruhi的探测器

输入为图像,输出为边界框;判断边界框的正确性。

测试时,穷举所有可能的边界框y,找到评分最高的$\tilde y$

2.2 文本总结

  • 任务描述
    • 给出一段较长的文档
    • 在文档中选择一些句子,并级联句子形成一小段话

测试时穷举所有的 y,找到使 F(x,y) 最大的 y

2.4 关键字搜索

  • 任务描述
    • 用户输入关键字 Q
    • 系统返回网页列表

找出评价函数F(x,y),穷举所有的y找到最佳的$\tilde y$

2.5 统一的框架

最终的目标就是找到使一起出现的概率最大的$\tilde y$

我们把这里的 $F(x,y)$ 看做x,y 一起出现的概率;

将$F(x,y)$ 看做概率:

  • 缺点:
  • 并不是所有的模型都适合把$F(x,y)$ 看做概率
  • 0-1 约束不是必需的

  • 优点:
  • $F(x,y)$ 具有实际意义
  • https://cs.nyu.edu/home/index.html

3. 待解决的问题

要实现这个Framework,要解决三个问题。

  • 评价:$F(x,y)$应该长什么样子
    • $F(x,y)$如何计算$x$和$y$的兼容性

  • 推理:如何解决“arg max”问题

  • 训练:给出训练数据,找到$F(x,y)$