计算摄影通常考虑由单个用户在单一场景中拍摄的照片集,但在线社交媒体网站的普及也为照片集创造了社交层面。Flickr和Facebook等照片分享网站包含了关于我们世界和人类行为的大量潜在信息。我们最近的工作涉及构建自动算法,分析大型图像集合,以便在全球范围内理解和建模人物和地点。地理标记照片可用于识别地球上拍摄照片最多的地点,以及推断这些地点的名称和视觉表示。在局部范围内,我们可以通过结合来自不同人和不同有利位置拍摄的数千张二维照片的信息,构建场景的详细三维模型。对于许多这些任务,一个关键的表示形式是网络:一个通过视觉相似性或其他度量标准链接照片的图表。
本文介绍了我们如何使用在线照片集来重建关于世界及其居民在全球和局部尺度上的信息。这项工作得益于社交内容分享网站的急剧增长,这些网站创建了大量的用户生成视觉数据在线集合。仅Flickr.com目前就托管了超过60亿张由超过4000万独立用户拍摄的图像11,而Facebook.com表示其每天增长近2.5亿张照片20。
虽然这些网站的用户主要是出于与家人和朋友分享照片的愿望,但他们共同生成了关于世界及其人民的大量在线信息存储库。这些照片中的每一张都是对世界一小部分在特定时间和空间看起来样子的视觉观察。它也是关于特定的人(摄影师)在某个时刻身处何处以及关注什么的记录。
总而言之,并结合照片分享网站上提供的非视觉元数据(包括照片时间戳、地理标签、标题、用户个人资料和社交联系人),这数十亿张照片呈现了关于世界状态及其人民行为的丰富信息来源。因此,我们可以想象将计算摄影的领域扩展到包括世界上所有的照片,其目标是从我们集体的图像数据中提取关于地点和人物的有用信息。
我们最近展示了如何使用Flickr等网站上的照片集,在全球和局部尺度上重建关于世界的信息7,9,21。我们用于在全球尺度上分析世界的算法可以自动创建带注释的世界地图,方法是找到拍摄照片最多的城市和地标,从文本标签中推断地名,并分析图像本身以识别“典型”图像来概括每个地点。图1和图2显示了此类地图的示例。
图1是北美洲的带注释地图,通过分析来自Flickr的近3500万张照片自动生成。对于拍摄照片最多的前30个城市中的每一个,地图都显示了从标签中推断出的城市名称、拍摄照片最多的地标名称以及地标的代表性照片。图2是自动生成的欧洲带注释地图。
此分析还可以生成关于地点的统计数据,例如按受欢迎程度对地标进行排名,或研究哪些类型的用户访问哪些地点。在更局部的层面上,我们可以使用计算机视觉的自动技术,从许多不同用户从许多不同有利位置拍摄的大量二维照片中,生成地标的非常精确的3D模型。图3显示了一个完全自动从互联网上收集的照片创建的罗马斗兽场的3D重建示例。该图显示了3D模型本身,以及拍摄每张照片的相机的位置和方向。重建的相机显示为黑色线框金字塔,指示每张照片的拍摄位置,而斗兽场则重建为密集的3D点云,类似于激光扫描仪会捕获的内容——但在本例中,它是完全自动地从互联网上找到的照片重建的。
图9显示了类似的杜布罗夫尼克旧城的“点云”重建,该重建来自超过6,500张Flickr照片,以及罗马广场从更大的罗马3D模型中的重建。
这项工作遵循了将计算机科学与其他科学学科联系起来的新兴跨学科研究趋势。互联网上公开可用数据的近期爆炸式增长——从Twitter流,到维基百科编辑日志,再到世界上所有书籍的扫描16——为人文和社会科学的研究带来了革命性的机会13。这导致了计算机科学中的两个关键研究问题:(a)从原始数据中提取有意义的语义;(b)高效地做到这一点。与传统的调查和直接测量等技术相比,从在线社交网络来源收集数据的成本可以忽略不计,并且可以以前所未有的规模进行。
挑战在于在线数据集在很大程度上是非结构化的,因此需要复杂的算法,能够从嘈杂的数据中组织和提取意义。在我们的案例中,这涉及开发自动化技术,可以跨数百万张图像找到模式。将大型图像集合表示为网络或图表,其中每个图像都是一个节点,并连接到相关图像,可以形成一个有用的表示形式,用于提取多种类型的信息,例如3D结构或代表性视图。这种观察结果表明,图像集合与其他出现链接结构的领域之间存在有趣的相似之处,例如社交网络中的人之间或万维网中的页面之间。
图6显示了特拉法加广场的一组图像的视觉连通性网络的示例。我们计算每对图像之间视觉相似性的度量,并连接高于阈值的图像。许多照片根本没有连接;它们通常是人物或物体的图像,而不是广场本身的图像。聚类算法找到网络中紧密连接的组件。这产生了三组图像,每组图像对应于广场上经常拍摄的不同场景(在图中用蓝色虚线标记)。
除了图像本身,现代照片分享网站(如Flickr)还收集了丰富的关于照片的非视觉信息。许多在线照片都有元数据,指定照片包含什么内容(文本标签),以及照片是在哪里(地理标签)、何时(时间戳)和如何(相机元数据,如曝光设置)拍摄的。在社交媒体网站上,照片也
伴随着分享产生的信息,例如文本标签、评论和评分。照片分享网站的地理标记功能在我们的工作中尤其有用。这些地理标签记录了照片拍摄地点的地球上的纬度和经度。此信息要么由摄影师使用基于地图的界面手动输入,要么(越来越多地)由相机或手机中的GPS(全球定位系统)接收器自动确定。图4显示了从Flickr下载的照片的元数据示例15,包括指定纬度和经度的地理标签、文本标签和相机信息。
通过聚合来自数百万用户照片的视觉和非视觉信息,我们可以研究在世界摄影师的集体意识中,世界看起来是什么样子。首先,我们使用Flickr公共API收集了超过9000万张地理标记照片的数据集2。正如人们可能预期的那样,在某些地点拍摄的照片比其他地点更多。图1和图2中显示的数据库中地理标签的图表说明了这种不均匀分布。这种分布包含超出图像本身的重要信息,这些信息只能通过分析来自许多摄影师的大量照片来揭示。例如,在城市地区拍照活动密集,而在大多数农村地区则非常稀疏。请注意,这些地图中的大陆边界非常清晰,因为海滩是拍摄照片的热门地点。另请注意,道路在这些地图中是如何可见的,因为人们在旅行时会拍照。在图1中,横穿美国西部的东西向州际公路尤其清晰。
鉴于摄影活动高度不均匀,我们使用均值漂移(一种用于查找非参数分布峰值的聚类算法)来识别照片的地理集中度5。我们寻找多个尺度(通过应用不同大小内核的均值漂移)的峰值,包括城市(50公里半径)和地标(100米)尺度。然后,我们可以根据照片数量或从该地点上传照片的不同摄影师数量对城市和地标进行排名。
例如,根据Flickr的数据,世界上拍摄照片最多的城市是纽约、伦敦、旧金山、巴黎和洛杉矶。拍摄照片最多的五个地标是
埃菲尔铁塔、特拉法加广场、泰特现代艺术馆、大本钟和巴黎圣母院(更详细的排名可在网上获得8)。用于生成这些排名的技术相对简单,但它们是随着照片分享网站的兴起而突然变得可能的那种分析的示例。热门地标列表包括一些惊喜;例如,曼哈顿的苹果商店在纽约市热门地标中排名前五,在全世界排名第28位。
对于每个这些拍摄照片最多的地点,我们可以通过查看人们分配给在该地点拍摄的照片的文本标签来自动推断其名称。虽然大多数标签充其量与地理位置的关联性很弱——花卉、家庭、日落、黑白等——但我们可以通过查看数百万用户的照片,并找到在特定地点频繁使用但在该地点外不常使用的标签来找到地名。我们还可以通过找到能够很好地概括该地点的代表性图像来生成每个地点的视觉描述。为此,我们将每个地点拍摄的每张照片都视为对该地点最有趣场景的投票。直观地,我们然后尝试通过查找视觉相似且由许多不同用户拍摄的照片组来找到获得最多票数的场景。
为了实现这种直观的方法,我们构建了一个图,其中来自该地点的每张图像都是一个节点,并且我们连接具有高度视觉相似性的照片对。然后,我们应用图聚类算法来找到图的紧密连接组件(即,连接到组内许多其他节点但未连接到图外许多节点的节点组)
并选择其中一张照片作为代表性图像。图6显示了这种类型的示例图。为了确定要连接哪些节点,我们使用称为SIFT(尺度不变特征变换)特征匹配的自动化技术来测量视觉相似性14,如图5所示。请注意,此摘要图像不一定是特定地点的最佳照片——它很可能是一张典型的游客照片,而不是专业摄影师捕捉到的更不寻常但引人入胜的视角。
图1中的地图是完全自动生成的,方法是对从Flickr下载的数千万张图像进行此分析。从一张白板开始,我们绘制了原始照片地理标签以生成背景地图,然后应用均值漂移聚类来定位地球上拍摄照片最多的30个城市。对于这些城市中的每一个,我们通过查找独特的文本标签提取了城市名称,并找到了城市内拍摄照片最多的地标名称。然后,我们提取了该地标的代表性图像。虽然分析并不完美——例如,人类会选择比棒球场上的鸟更合适的凤凰城图像——但结果是对北美洲的引人注目的总结,这是通过分析数百万Flickr用户的活动自动生成的。我们项目网站上提供了世界其他大陆、地区和城市的地图8。
此分析让人联想到社会学家斯坦利·米尔格拉姆在1970年代研究人们的“心理地图”——他们对物理世界布局的心理图像17。他要求巴黎人绘制他们城市的徒手地图,然后将这些地图与实际地理进行比较。米尔格拉姆发现地图差异很大且在很大程度上不准确,但大多数
人倾向于将他们的地图锚定在一些关键地标周围,例如塞纳河和巴黎圣母院。他通过计算每个地标在该研究中被提及的次数,按其在巴黎集体心理中的重要程度对地标进行了排名。我们的工作是一项类似的、规模更大的研究。重要的是要注意,然而,我们也在处理控制性差得多的数据,并且我们的结果受到Flickr用户人口统计数据的偏差影响。
来自Flickr的数据还可以用于研究人类摄影师的行为,因为每张照片都是对特定用户在特定时刻所做事情的观察。例如,研究地理标记、带时间戳的照片序列可以跟踪人们采取的路径。图7显示了曼哈顿的此分析示例。请注意,街道和大道网格结构清晰可见,受欢迎的旅游路线(如步行穿过布鲁克林大桥和离开岛屿南端的渡轮)也很明显。我们使用此数据研究了人类移动模式与Flickr上定义的社交网络之间的关系6。仅根据此类模式,我们就可以惊人的准确度推断出用户的社交网络。例如,在观察到两个人大约在同一时间在同一地点出现过五次不同的场合之后,他们是朋友的可能性接近60%。
这说明了如何使用来自在线社交分享系统的数据,以前所未有的规模研究社会学中的问题。它还揭示了启用地理标记的社交网站可能存在的隐私问题,因为用户可能会泄露比他们打算泄露的关于自己的更多信息,例如他们朋友的身份。
到目前为止,我们对地标的视觉表示仅仅是一张与其他在该地点拍摄的许多其他图像视觉相似的单张图像。然而,对于受欢迎的地标,数千张在线照片由不同的用户拍摄,每张照片都有不同的构图,并且来自不同的视角。因此,这些照片中的每一张都是对3D场景的略有不同的2D观察。这引出了使用计算机视觉算法从这些照片中完全自动地恢复3D几何形状的想法。
我们开发了一种技术,可以从照片分享网站上的大量未校准图像中重建世界地标的精确3D模型1,9。这项技术的基本原理类似于立体视觉所使用的原理,立体视觉使人类能够以3D方式感知世界。我们的两只眼睛从略微不同的角度观看场景,并且从这两个视图中,大脑可以根据点在两个图像中出现位置之间的差异来推断每个场景点的深度。给定来自两个不同相机的输入来推断深度的相应计算机视觉问题是经过充分研究的立体问题12。
在使用Flickr图像重建地标的情况下,不是有两个,而是数千个图像作为独立的视图。然而,问题要困难得多,因为相机的精确位置和观看方向是未知的。(地理标签中的纬度-经度坐标为此目的而言太嘈杂了。即使是GPS接收器生成的地理标签也非常嘈杂,因为消费级GPS设备的精度约为10米。)因此,场景的结构和所有相机的位置都必须同时推断出来。这在计算机视觉中被称为运动结构问题。虽然运动结构已经研究了几十年,但互联网照片集对计算机视觉提出了新的挑战,因为它们规模庞大且结构不规则——它们由许多不同的相机从很大程度上未知的视角拍摄。此外,Flickr等网站上的图像包含大量噪声,这些噪声来自错误标记的图像、质量差的照片、图像遮挡以及场景中出现的短暂物体(例如人)。
解决此问题首先意味着要知道给定地标的哪些图像具有视觉重叠。与我们选择代表性视图的技术一样,我们首先在图像对之间执行SIFT特征匹配以构建图像网络。不相关的图像(例如鸽子的特写)会自动丢弃,因为它们不会连接到实际以地标为特征的其他图像。这种匹配算法在计算上是昂贵的,但很容易并行化9。
图5更详细地说明了SIFT特征匹配。给定图5左上角的输入照片(a),SIFT提取了许多特征,包括图像中的显着位置和尺度,以及概括每个特征外观的高维描述符。检测到的特征位置的子集(描绘为黄色圆圈)叠加在右上角的图像(b)上。图像再次显示在底部(c)中,旁边是来自相似视角的图像;我们可以匹配SIFT特征以找到这些图像之间的对应关系。由于SIFT的鲁棒性,大多数这些匹配都是正确的。
一旦我们拥有图像之间视觉连通性的网络,我们就需要估计用于捕获每张图像的相机的精确位置和方向——也就是说,摄影师的确切站立位置和相机指向的方向——以及在图像中匹配的每个SIFT点的3D坐标。事实证明,这可以被表示为一个巨大的优化问题,其中根据在多个图像中出现的相同场景点引起的约束来估计每个场景点的位置和每个相机的位置。此优化尝试找到相机和场景几何形状,当通过透视投影彼此关联时,最接近于与在图像之间找到的2D SIFT匹配相符。这个优化问题很难解决,不仅因为它的规模,还因为目标函数是高度非线性的。
然而,视觉网络中的信息以及来自地理标签的绝对位置信息可以帮助完成此重建任务。考虑一对视觉上重叠的图像,例如图8左上角显示的这两张照片。使用计算出的SIFT匹配和几何推理算法,我们可以确定这两张图像之间的几何关系——例如,图像2是在图像1的左侧拍摄的,并且稍微顺时针旋转。我们可以为网络中的每条边计算此类相对相机姿势(例如图8右侧的小型网络)。通过计算许多此类关系,我们可以在一组图像之上构建信息网络,如图右侧所示。我们还有一些图像的地理标签,显示为纬度/经度坐标。不幸的是,这些地理标签非常嘈杂,有时可能与照片的真实位置相差数百米。另一方面,一些地理标签非常准确。如果我们知道哪些是好的,我们可以将位置从这些照片传播到它们在网络中的邻居。然而,给定一组原始的地理标记照片,我们不知道哪些是准确的。为了克服这个问题,我们开发了一种新技术,该技术使用图像网络以更智能、更鲁棒的方式组合这些位置估计,通过在图像网络中的节点之间传递几何信息来“平均化”嘈杂观察中的误差。此算法使用基于称为循环信念传播的技术的消息传递策略,该技术通常用于机器学习、计算机视觉和其他领域18。此算法是可扩展的,并且可以为非常非线性的问题找到良好的解决方案。虽然很复杂,但我们的算法从一个简单的想法开始,即每个图像都应反复将其位置与其邻居的位置进行平均,从而使用图来平滑嘈杂的位置估计。由于极端的噪声,这种简单的平均方法效果不佳;因此,我们开发了一种更复杂的方法9。
此处描述的消息传递过程重复多个回合,因此每个图像都会根据来自其邻居的信息反复更新其位置。此算法产生相当准确的相机位置,并且使用这些位置作为起点的应用标准优化技术(例如梯度下降)可以产生进一步的改进。使用此算法,我们构建了一些非常大的3D模型,包括图9中显示的杜布罗夫尼克市和罗马部分地区的重建。为了处理这些大型问题,我们使用MapReduce框架实现了该算法,并将这些算法作为大型Hadoop集群上的作业运行。(有关更多信息,请参阅我们项目的网页10)。在关于3D建模问题的其他工作中,我们在不到24小时内从数十万张Flickr照片中重建了罗马的所有主要景点(因此重建了“一日罗马”)3,19。
虽然Flickr和Facebook等照片分享网站继续以惊人的速度增长,但它们仍然没有足够的图像来达到我们最终重建整个世界的3D模型的目标。主要问题是照片的地理空间分布高度不均匀,如上一节所述——巴黎圣母院有数十万张照片,但街道对面的咖啡馆几乎没有照片。
解决此问题的一种方法是通过游戏化来吸引人们拍摄代表性不足的地点的照片。这是PhotoCity背后的想法,PhotoCity是与华盛顿大学合作开发的在线游戏。在PhotoCity中,玩家团队通过在空间中的特定点拍照以捕获旗帜和建筑物来相互竞争22。通过这款游戏,我们在几周内收集了超过100,000张康奈尔大学和华盛顿大学校园的照片。我们使用这些照片重建了两个校园的大部分区域,包括在Flickr等网站上原本没有太多照片覆盖的区域。从这些照片创建的一些示例建筑物模型以及PhotoCity界面的屏幕截图如图10所示。左侧是PhotoCity界面的屏幕截图,显示了描绘游戏状态的俯视图地图。右侧是从玩家上传的照片创建的一些3D模型。
创建一个成功的游戏涉及两个关键挑战:(a)构建一个强大的在线系统,供用户上传照片进行处理;(b)以激发用户玩游戏的兴趣的方式设计游戏机制。为了应对第一个挑战,我们构建了3D重建算法的一个版本,该版本可以拍摄建筑物的新照片,并快速将其集成到我们当前的建筑物3D模型中,从而使用该照片贡献的任何新信息来更新该模型。
为了应对设计有效游戏机制的第二个挑战,我们开发了多种激励措施。一组激励措施涉及不同级别的竞争(例如,同一所学校的学生之间,以及每所学校争夺构建最佳模型的竞赛)。另一组激励措施涉及通过显示由该玩家的照片创建的3D点以及通过更新模型,以便玩家可以看到整个游戏的随时间推移的进度,从而为每位玩家提供关于他或她对模型贡献了多少的视觉反馈。对比赛结束后玩家的调查显示,不同的玩家受到不同激励措施的激励;有些人受到竞争的驱动,而另一些人则只是喜欢看到虚拟世界随着时间的推移而增长。
本文介绍了一些我们使用网络分析算法解锁大型照片分享网站中潜在信息的初步工作,但这种分析的真正前景尚未实现。该领域未来工作的机会沿着两条不同的路线展开。首先,需要新的算法来更有效和准确地提取视觉内容:例如,此处介绍的算法在某些特定类型的场景中产生不正确的结果,并且它们在计算上相对密集,需要大型计算机集群上的许多小时才能处理几千张图像。
其次,这种类型的分析可以应用于其他学科。许多科学家对研究世界及其随时间推移的变化感兴趣,包括考古学家、建筑师、艺术史学家、生态学家、城市规划师等。作为一个具体的例子,3D重建技术可以简化绘制偏远考古遗址的地图4,在这些遗址中使用传统的激光测距扫描仪是昂贵且具有挑战性的。一种更便宜和更简单的替代方案是使用数码相机拍摄遗址的许多照片,然后在研究人员从野外返回后,在这些照片上运行我们的重建算法。作为另一个例子,我们最近研究了如何自动挖掘在线照片集,以获取雪景和开花等自然现象的图像,这可能会为生态学家提供一种新的技术,用于在大陆尺度上收集观测数据23。
想象一下世界上的所有照片都来自一个“分布式相机”,不断地在世界各地捕捉图像。可以校准此相机以估计每张照片拍摄的地点和时间吗?如果是这样,我们可以开始构建一种新型的图像搜索和分析工具——例如,该工具将允许科学家查找中央公园随时间推移的所有图像,以便研究逐年开花时间的变化,或者允许工程师查找特定桥梁的所有可用照片,以确定其倒塌的原因。从海量的在线照片中真正理解世界可能会产生真正具有变革性的影响。
本文的早期版本在Arts | Humanities | Complex Networks会议上作为主题演讲发表——NetSci2010的Leonardo卫星研讨会 (http://artshumanities.netsci2010.net)。
喜欢它,讨厌它?请告诉我们
DAVID CRANDALL 是印第安纳大学布卢明顿分校信息学与计算学院的助理教授。他于2008年获得康奈尔大学计算机科学博士学位,并于2001年获得宾夕法尼亚州立大学大学公园分校计算机科学与工程硕士和学士学位。他于2008-2010年在康奈尔大学担任博士后研究助理,并于2001-2003年在伊斯曼柯达公司担任高级研究科学家。他的研究兴趣是计算机视觉和数据挖掘,重点是视觉对象识别、图像理解、机器学习以及复杂网络的挖掘和建模。
NOAH SNAVELY 是康奈尔大学计算机科学助理教授,自 2009 年起在该校任教。他于 2003 年获得亚利桑那大学计算机科学与数学学士学位,并于 2008 年获得华盛顿大学计算机科学与工程博士学位。Snavely 的研究领域为计算机图形学和计算机视觉,尤其对使用互联网上的海量图像重建和可视化 3D 世界,以及创建新的工具以帮助人们捕捉和分享其环境感兴趣。他的论文工作是微软 Photosynth 的基础,Photosynth 是一款从照片集中构建 3D 可视化的工具。他是微软新教员奖学金和 NSF CAREER 奖的获得者,并曾获得《技术评论》TR35 的认可。
© 2012 1542-7730/12/0400 $10.00
最初发表于 Queue 杂志第 10 卷,第 5 期—
在 数字图书馆中评论这篇文章
Jeffrey Heer, Ben Shneiderman - 用于视觉分析的交互式动态
数字数据的规模和可用性不断提高,为公共政策、科学发现、商业策略,甚至我们的个人生活提供了非凡的资源。然而,为了充分利用这些数据,用户必须能够理解其意义:提出问题,发现感兴趣的模式,并识别(并可能纠正)错误。与数据管理系统和统计算法协同工作,分析需要针对在数据中发现的聚类、趋势和异常值的特定领域意义进行情境化的人工判断。
Robert DeLine, Gina Venolia, Kael Rowan - 使用代码地图进行软件开发
为了更好地理解专业软件开发人员如何使用代码的可视化表示,我们采访了微软的九位开发人员以确定常见场景,然后调查了 400 多位开发人员以更深入地理解这些场景。
Brendan Gregg - 可视化系统延迟
当 I/O 延迟以可视化热图的形式呈现时,可能会出现一些有趣而美丽的模式。这些模式提供了关于系统实际运行情况以及最终用户应用程序体验到的延迟类型的深入了解。在这些模式中看到的许多特征仍然不被理解,但到目前为止,对它们的分析正在揭示以前未知的系统行为。
Jeffrey Heer, Michael Bostock, Vadim Ogievetsky - 可视化动物园之旅
由于传感、网络和数据管理方面的进步,我们的社会正以惊人的速度产生数字信息。据估计,仅在 2010 年,我们将产生 1,200 艾字节——是美国国会图书馆内容量的 6000 万倍。在这数据洪流中,蕴藏着关于我们如何开展业务、管理政府和个人生活的丰富有价值的信息。为了充分利用这些信息,我们必须找到探索、关联和有意义地交流数据的方法。