企業正在產生比以往更多的影片數據。從多年的廣播檔案到數千個商店攝影機,再到無數小時的製作素材,大部分影片數據都閒置在伺服器上,無人觀看和分析。這些就是"暗數據":企業自動收集但幾乎從未有效利用的巨大未開發資源。
為了解決這個問題,Aza Kai(CEO)和Hiraku Yanagita(COO)這兩位前谷歌員工決定構建自己的解決方案。他們曾在谷歌日本公司共事近十年,隨後共同創立了總部位於東京的初創公司InfiniMind,專門開發將PB級未觀看影片和音頻轉換為結構化可查詢商業數據的基礎設施。
"我的聯合創始人在谷歌日本領導品牌和數據解決方案團隊近十年,我們在谷歌工作時就看到了這個拐點的到來,"Kai表示。到2024年,技術已經成熟,市場需求也變得足夠明確,促使聯合創始人們決定自己創建這家公司。
Kai曾在谷歌日本從事雲計算、機器學習、廣告系統和影片推薦模型工作,後來領導數據科學團隊。他解釋說,當前的解決方案存在權衡問題。早期的方法可以標記單個幀中的對象,但無法跟蹤敘述、理解因果關係,或回答關於影片內容的複雜問題。對於擁有數十年廣播檔案和PB級素材的客戶來說,即使是關於內容的基本問題也往往無法得到解答。
真正改變遊戲規則的是2021年到2023年間視覺語言模型的進步。Kai指出,這時候影片AI開始超越簡單的對象標記。過去十年中GPU成本下降和每年約15-20%的性能提升有所幫助,但更重要的是能力突破——直到最近,模型才真正能夠勝任這項工作。
InfiniMind最近獲得了580萬美元的種子輪融資,由UTEC領投,CX2、Headline Asia、Chiba Dojo以及a16z Scout的AI研究員參投。公司正將總部遷至美國,同時繼續在日本運營辦公室。日本提供了完美的測試平台:強大的硬體、有才華的工程師和支持性的創業生態系統,讓團隊在全球化之前能夠與要求苛刻的客戶一起優化技術。
其首款產品TV Pulse於2025年4月在日本推出。這個AI驅動的平台實時分析電視內容,幫助媒體和零售公司"跟蹤產品曝光、品牌存在感、客戶情感和公關影響"。在與主要廣播公司和代理商進行試點項目後,已經擁有付費客戶,包括批發商和媒體公司。
現在,InfiniMind已準備好進軍國際市場。其旗艦產品DeepFrame是一個長影片智能平台,能夠處理200小時的素材以精確定位特定場景、說話者或事件,計劃於3月進行beta測試,隨後於2026年4月全面推出。
影片分析領域高度分散。TwelveLabs等公司為包括消費者、專業用戶和企業在內的廣泛用戶群體提供通用影片理解API,而InfiniMind專門專注於企業用例,包括監控、安全、安防以及深度影片內容分析。
"我們的解決方案無需編碼;客戶帶來數據,我們的系統處理並提供可操作的洞察,"Kai說。"我們還整合了音頻、聲音和語音理解,不僅僅是視覺。我們的系統可以處理無限長度的影片,成本效率是主要差異化因素。大多數現有解決方案優先考慮準確性或特定用例,但不能解決成本挑戰。"
種子資金將幫助團隊繼續開發DeepFrame模型,擴展工程基礎設施,招聘更多工程師,並在日本和美國接觸更多客戶。
"這是一個令人興奮的領域,是通往通用人工智慧的路徑之一,"Kai說。"理解通用影片智能就是理解現實。工業應用很重要,但我們的最終目標是推動技術邊界,更好地理解現實,幫助人類做出更好的決策。"
Q&A
Q1:InfiniMind是什麼公司?主要做什麼業務?
A:InfiniMind是一家由前谷歌員工創立的東京初創公司,專門開發將PB級未觀看影片和音頻轉換為結構化可查詢商業數據的基礎設施,幫助企業理解和分析大量閒置的影片數據。
Q2:DeepFrame產品有什麼特點和優勢?
A:DeepFrame是InfiniMind的旗艦產品,是一個長影片智能平台,能夠處理200小時的素材以精確定位特定場景、說話者或事件。它無需編碼,整合音頻和語音理解,可處理無限長度影片,在成本效率方面具有顯著優勢。
Q3:影片AI技術發展的關鍵轉折點是什麼?
A:關鍵轉折點是2021年到2023年間視覺語言模型的進步。這時候影片AI開始超越簡單的對象標記,能夠跟蹤敘述、理解因果關係,回答關於影片內容的複雜問題,真正具備了處理企業級影片分析任務的能力。






