Meta悄然推出了一款新型網絡爬蟲,用于搜索互聯網并收集大量數據,為其人工智能模型提供數據支持。
據三家追蹤全網網絡爬蟲和機器人的公司稱,這款名為Meta External Agent的爬蟲已于上月推出。這種自動機器人基本上是復制或“抓取”網站上公開顯示的所有數據,例如新聞文章中的文字或在線討論組中的對話。
Dark Visitors為網站所有者提供了一種自動阻止所有已知抓取機器人的工具,該公司的一名代表表示,Meta External Agent類似于OpenAI的GPTBot,后者可以抓取網絡上的數據以為人工智能訓練提供數據。另外兩個參與追蹤網頁爬蟲的實體也證實了該機器人的存在及其用于收集人工智能訓練數據的用途。
根據使用互聯網檔案館(Internet Archive)發現的版本歷史記錄,臉書(Facebook)、Instagram和Whatsapp的母公司Meta在7月下旬更新了一個面向開發者的公司網站,其中一個標簽顯示了新抓取工具的存在。除了更新頁面,Meta還沒有公開宣布新爬蟲。
Meta的一位發言人表示,該公司“多年來”一直在使用一款名為Facebook External Hit的爬蟲程序,“隨著時間的推移,它被用于不同的目的,比如分享鏈接預覽”。
這位發言人說:“像其他公司一樣,我們也會根據網上公開的內容訓練生成式人工智能模型。我們最近更新了關于出版商如何以最佳方式將其域名排除在Meta的人工智能相關爬蟲抓取范圍之外的指南。”
通過抓取網絡數據來訓練人工智能模型是一種備受爭議的做法,這種做法已導致藝術家、作家和其他人提起了多起訴訟,他們稱人工智能公司在未經同意的情況下使用了他們的內容和知識產權。最近幾個月,OpenAI和Perplexity等一些人工智能公司達成了協議,向內容提供商支付數據訪問費用(《財富》雜志是7月份宣布與Perplexity達成收入分成協議的幾家新聞提供商之一)。
悄然進行
Dark Visitors的數據顯示,目前全球最受歡迎的網站中有近25%屏蔽了GPTBot,但只有2%屏蔽了Meta的新型機器人。
網站要想阻止網絡爬蟲,就必須部署robots.txt,即在代碼庫中添加一行代碼,以便向爬蟲發出信號,讓它忽略該網站的信息。不過,為了遵守robots.txt相關代碼,通常還需要添加抓取機器人的具體名稱。如果名稱沒有公開,就很難做到這一點。抓取機器人的操作人員也可以直接選擇忽略robots.txt,它不具有任何強制力或法律約束力。
這種抓取機器人用于從網絡中提取大量數據和書面文本,作為生成式人工智能模型(也稱為大型語言模型或LLM)和相關工具的訓練數據。Meta的Llama是目前最大的大型語言模型之一,它為Meta AI(人工智能聊天機器人,目前已出現在各種Meta平臺上)等工具提供支持。雖然該公司沒有透露最新版本的模型Llama 3使用的訓練數據,但其初始版本的模型使用了由Common Crawl等其他來源收集的大型數據集。
今年早些時候,Meta的聯合創始人、長期擔任首席執行官的馬克·扎克伯格在一次財報電話會議上吹噓說,他公司旗下的社交平臺已經積累了一套用于人工智能訓練的數據集,甚至“超過了Common Crawl”,后者自2011年以來每月抓取大約30億個網頁。
由于該公司繼續致力于更新Llama和擴展Meta AI,新爬蟲的存在表明Meta龐大的數據寶庫可能已經不夠用了。大型語言模型通常需要全新的、高質量的訓練數據來不斷改進功能。Meta今年的支出將高達400億美元,主要用于人工智能基礎設施和相關成本。(財富中文網)
譯者:中慧言-王芳
Meta悄然推出了一款新型網絡爬蟲,用于搜索互聯網并收集大量數據,為其人工智能模型提供數據支持。
據三家追蹤全網網絡爬蟲和機器人的公司稱,這款名為Meta External Agent的爬蟲已于上月推出。這種自動機器人基本上是復制或“抓取”網站上公開顯示的所有數據,例如新聞文章中的文字或在線討論組中的對話。
Dark Visitors為網站所有者提供了一種自動阻止所有已知抓取機器人的工具,該公司的一名代表表示,Meta External Agent類似于OpenAI的GPTBot,后者可以抓取網絡上的數據以為人工智能訓練提供數據。另外兩個參與追蹤網頁爬蟲的實體也證實了該機器人的存在及其用于收集人工智能訓練數據的用途。
根據使用互聯網檔案館(Internet Archive)發現的版本歷史記錄,臉書(Facebook)、Instagram和Whatsapp的母公司Meta在7月下旬更新了一個面向開發者的公司網站,其中一個標簽顯示了新抓取工具的存在。除了更新頁面,Meta還沒有公開宣布新爬蟲。
Meta的一位發言人表示,該公司“多年來”一直在使用一款名為Facebook External Hit的爬蟲程序,“隨著時間的推移,它被用于不同的目的,比如分享鏈接預覽”。
這位發言人說:“像其他公司一樣,我們也會根據網上公開的內容訓練生成式人工智能模型。我們最近更新了關于出版商如何以最佳方式將其域名排除在Meta的人工智能相關爬蟲抓取范圍之外的指南。”
通過抓取網絡數據來訓練人工智能模型是一種備受爭議的做法,這種做法已導致藝術家、作家和其他人提起了多起訴訟,他們稱人工智能公司在未經同意的情況下使用了他們的內容和知識產權。最近幾個月,OpenAI和Perplexity等一些人工智能公司達成了協議,向內容提供商支付數據訪問費用(《財富》雜志是7月份宣布與Perplexity達成收入分成協議的幾家新聞提供商之一)。
悄然進行
Dark Visitors的數據顯示,目前全球最受歡迎的網站中有近25%屏蔽了GPTBot,但只有2%屏蔽了Meta的新型機器人。
網站要想阻止網絡爬蟲,就必須部署robots.txt,即在代碼庫中添加一行代碼,以便向爬蟲發出信號,讓它忽略該網站的信息。不過,為了遵守robots.txt相關代碼,通常還需要添加抓取機器人的具體名稱。如果名稱沒有公開,就很難做到這一點。抓取機器人的操作人員也可以直接選擇忽略robots.txt,它不具有任何強制力或法律約束力。
這種抓取機器人用于從網絡中提取大量數據和書面文本,作為生成式人工智能模型(也稱為大型語言模型或LLM)和相關工具的訓練數據。Meta的Llama是目前最大的大型語言模型之一,它為Meta AI(人工智能聊天機器人,目前已出現在各種Meta平臺上)等工具提供支持。雖然該公司沒有透露最新版本的模型Llama 3使用的訓練數據,但其初始版本的模型使用了由Common Crawl等其他來源收集的大型數據集。
今年早些時候,Meta的聯合創始人、長期擔任首席執行官的馬克·扎克伯格在一次財報電話會議上吹噓說,他公司旗下的社交平臺已經積累了一套用于人工智能訓練的數據集,甚至“超過了Common Crawl”,后者自2011年以來每月抓取大約30億個網頁。
由于該公司繼續致力于更新Llama和擴展Meta AI,新爬蟲的存在表明Meta龐大的數據寶庫可能已經不夠用了。大型語言模型通常需要全新的、高質量的訓練數據來不斷改進功能。Meta今年的支出將高達400億美元,主要用于人工智能基礎設施和相關成本。(財富中文網)
譯者:中慧言-王芳
Meta has quietly unleashed a new web crawler to scour the internet and collect data en masse to feed its AI model.
The crawler, named the Meta External Agent, was launched last month according to three firms that track web scrapers and bots across the web. The automated bot essentially copies, or “scrapes,” all the data that is publicly displayed on websites, for example the text in news articles or the conversations in online discussion groups.
A representative of Dark Visitors, which offers a tool for website owners to automatically block all known scraper bots, said Meta External Agent is analogous to OpenAI’s GPTBot, which scrapes the web for AI training data. Two other entities involved in tracking web scrapers confirmed the bot’s existence and its use for gathering AI training data.
Meta, the parent company of Facebook, Instagram, and Whatsapp, updated a corporate website for developers with a tab disclosing the existence of the new scraper in late July, according to a version history found using the Internet Archive. Besides updating the page, Meta has not publicly announced the new crawler.
A Meta spokesman said the company has had a crawler under a different name “for years,” although this crawler—dubbed Facebook External Hit— “has been used for different purposes over time, like sharing link previews.”
“Like other companies, we train our generative AI models on content that is publicly available online,” the spokesman said. “We recently updated our guidance regarding the best way for publishers to exclude their domains from being crawled by Meta’s AI-related crawlers.”
Scraping web data to train AI models is a controversial practice that has led to numerous lawsuits by artists, writers, and others, who say AI companies used their content and intellectual property without their consent. Some AI companies like OpenAI and Perplexity have struck deals in recent months that pay content providers for access to their data (Fortune was among several news providers that announced a revenue-sharing deal with Perplexity in July).
Flying under the radar
While close to 25% of the world’s most popular websites now block GPTBot, only 2% are blocking Meta’s new bot, data from Dark Visitors shows.
In order for a website to attempt to block a web scraper, it must deploy robots.txt, a line of code added to a codebase, in order to signal to a scraper bot that it should ignore that site’s information. However, typically the specific name of a scraper bot needs to be added as well in order for robots.txt to be respected. That’s difficult to accomplish if the name has not been openly disclosed. An operator of a scraper bot can also simply choose to ignore robots.txt – it is not enforceable or legally binding in any way.
Such scrapers are used to pull mass amounts of data and written text from the web, to be used as training data for generative AI models, also referred to as large language models or LLMs, and related tools. Meta’s Llama is one of the largest LLMs available, and it powers things like Meta AI, an AI chat bot that now appears on various Meta platforms. While the company did not disclose the training data used for the latest version of the model, Llama 3, its initial version of the model used large data sets put together by other sources, like Common Crawl.
Earlier this year, Mark Zuckerberg, Meta’s co-founder and longtime CEO, boasted on an earnings call that his company’s social platforms had amassed a data set for AI training that was even “greater than the Common Crawl,” an entity that has scraped roughly 3 billion web pages each month since 2011.
The existence of the new crawler suggests Meta’s vast trove of data may no longer be enough however, as the company continues to work on updating Llama and expanding Meta AI. LLMs typically need new and quality training data to keep improving in functionality. Meta is on track to spend up to $40 billion this year, mostly on AI infrastructure and related costs.