摘要:在機器學習和數據庫等領域,高質量數據集的合成一直以來是一個非常重要且充滿挑戰性的問題.其中,合成的高質量數據集可用來改善模型,尤其是深度學習模型的訓練過程.一個健壯的模型訓練過程需要大量已標注的數據集,獲取這些數據集的一種方法是通過領域專家的手動標注,這種方法不僅代價大還容易出錯,因此由模型自動合成高質量數據集的方法更為合理.近年來,由于計算機視覺領域的飛速發展,已經有不少致力于圖像數據集合成的研究,但是這些模型不能直接應用在結構化數據表上,并且據調研,對這類數據的相關研究幾乎沒有.因此,提出了一個針對結構化數據表的生成模型TableGAN,該模型是生成式對抗網絡(generative adversarial network, GAN)家族的一種變體,通過對抗訓練的方式提高生成模型的性能.針對結構化數據的特征改變了傳統GAN模型的內部結構,包括優化函數等,使其能夠生成高質量的結構化數據用于改善模型的訓練過程.通過在真實數據集上的大量實驗表明了此模型的有效性,即在擴大后的數據集上訓練模型的效果有明顯提升.
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社