<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/">
	<channel>
		<title>Info DataIl progetto GovScape: come hanno reso consultabili 10 milioni di Pdf governativi - Info Data</title>
		<link>https://www.infodata.ilsole24ore.com/2025/12/12/il-progetto-govscape-come-hanno-reso-consultabili-10-milioni-di-pdf-governativi/</link>
		<description>Le notizie raccontate con i  numeri</description>
		<lastBuildDate>Sat, 23 May 2026 05:49:30 +0000</lastBuildDate>

					<item>
				<title>Il progetto GovScape: come hanno reso consultabili 10 milioni di Pdf governativi</title>
				<link>https://www.infodata.ilsole24ore.com/2025/12/12/il-progetto-govscape-come-hanno-reso-consultabili-10-milioni-di-pdf-governativi/</link>
				<pubDate>Fri, 12 Dec 2025 06:57:23 +0000</pubDate>
				<dc:creator><![CDATA[Infodata]]></dc:creator>
								<source>e-commerce</source>
				<sourcelink>https://www.infodata.ilsole24ore.com/argomento/e-commerce</sourcelink>
				
				<description>
					<![CDATA[<p data-start="310" data-end="1252">Negli archivi digitali dei governi i PDF non sono un residuo del passato: sono la forma con cui si materializza gran parte dell'informazione pubblica. Un progetto come<a href="https://arxiv.org/abs/2511.11010"> GovScape</a>, sviluppato da ricercatori della University of Washington e della Boston University, rappresenta un cambio di prospettiva. Gli autori hanno preso 10 milioni di documenti PDF provenienti dalla "End of Term Web Archive" del 2020 e li hanno trasformati in un corpus ricercabile, navigabile, interrogabile come se fosse un gigantesco database. È un’operazione che ricorda la bonifica di un territorio: il suolo è lì, vasto e ricco, ma finché non costruisci strade e...</p>]]>
				</description>

									<enclosure length="0" type="image/jpeg" url="https://www.infodata.ilsole24ore.com/wp-content/uploads/sites/89/2025/12/sqsqwswqd.jpg"/>
												<post-id xmlns="com-wordpress:feed-additions:1">93757</post-id>			</item>
			</channel>
</rss>